虚拟一套centos 5.3 os. 下载 jdk-6u16-linux-i586-rpm.bin [root@hadoop ~]# chmod +x jdk-6u16-linux-i586-rpm.bin [root@hadoop ~]# ./jdk-6u16-linux-i586-rpm.bin [root@hadoop ~]# java -version java version “1.6.0″ OpenJDK Runtime Environment (build 1.6.0-b09) OpenJDK Client VM (build 1.6.0-b09, mixed mode) [root@hadoop yum.repos.d]# wget http://archive.cloudera.com/redhat/cdh/cloudera-testing.repo [root@hadoop yum.repos.d]# ls CentOS-Base.repo CentOS-Base.repo.bak CentOS-Media.repo cloudera-testing.repo [root@hadoop ~]# yum install hadoop-0.20 -y Loaded plugins: fastestmirror Loading mirror speeds
开源云计算技术系列(六)hypertable (HQL)
既然已经安装配置好hypertable,那趁热打铁体验一下HQL。 准备好实验数据 hadoop@hadoop:~$ gunzip access.tsv.gz hadoop@hadoop:~$ mv access.tsv ~/hypertable/0.9.2.5/examples/hql_tutorial/ hadoop@hadoop:~$ cd ~/hypertable/0.9.2.5/examples/hql_tutorial/ hadoop@hadoop:~/hypertable/0.9.2.5/examples/hql_tutorial$ hadoop@hadoop:~/hypertable/0.9.2.5/examples/hql_tutorial$ more access.tsv # rowkey date refer-url http-code events.mercurynews.com/venues 2008-01-25 15:19:32 events.mercurynews.com/search 200 www.zvents.com/events/auto_complete_for_artist_name 2008-01-25 15:19:32 www.zvents.co m/indio-ca/events/show/81296496-coachella 200 calendar.denverpost.com/search 2008-01-25 15:19:32 calendar.denverpost.com/search 200 www.zvents.com/search 2008-01-25 15:19:32 www.zvents.com/search 200 events.newsherald.com/events/show/81138187 2008-01-25 15:19:34 events.newsherald.com /venues 301 www.zvents.com/search 2008-01-25 15:19:35 www.zvents.com/search 200 events.ocregister.com/search
开源云计算技术系列(六)hypertable(hadoop hdfs)
选择virtualbox建立ubuntu server 904 的虚拟机作为基础环境。 hadoop@hadoop:~$ sudo apt-get install g++ cmake libboost-dev liblog4cpp5-dev git-core cronolog libgoogle-perftools-dev libevent-dev zlib1g-dev libexpat1-dev libdb4.6++-dev libncurses-dev libreadline5-dev hadoop@hadoop:~/build/hypertable$ sudo apt-get install ant autoconf automake libtool bison flex pkg-config php5 php5-cli ruby-dev libhttp-access2-ruby libbit-vector-perl hadoop@hadoop:~/build/hypertable$ sudo ln -f -s /bin/bash /bin/sh [sudo] password for hadoop: hadoop@hadoop:~$ tar xvzf hyperic-sigar-1.6.3.tar.gz hadoop@hadoop:~$ sudo
开源云计算技术系列(四)(Cloudera安装配置hadoop 0.20最新版配置)
接上文,我们继续体验Cloudera 0.20最新版。 wget hadoop-0.20-conf-pseudo_0.20.0-1cloudera0.5.0~lenny_all.deb wget hadoop-0.20_0.20.0-1cloudera0.5.0~lenny_all.deb debian:~# dpkg –i hadoop-0.20-conf-pseudo_0.20.0-1cloudera0.5.0~lenny_all.deb dpkg –i hadoop-0.20_0.20.0-1cloudera0.5.0~lenny_all.deb 就这么简单。ok 如果不清楚安装到哪里了,可以用 debian:~# dpkg -L hadoop-0.20 可以看到清晰的安装目录结构。
开源云计算技术系列(四)(Cloudera安装配置 0.183稳定版)
节省篇幅,直入正题。 首先用虚拟机virtualbox 配置一台debian 5.0. debian在开源linux里面始终是最为纯正的linux血统,使用起来方便,运行起来高效,重新审视一下最新的5.0,别有一番似是故人来的感觉。 只需要下载debian-501-i386-CD-1.iso进行安装,剩下的基于debian强大的网络功能,可以很方便的进行软件包的配置。具体过程这里略去,可以在www.debian.org里面找到所有你需要的信息。 下面我们来体验一下稳定版0.183的方便和简洁。
开源云计算技术系列(四)(Cloudera体验篇)
Cloudera 的定位在于 Bringing Big Data to the Enterprise with Hadoop Cloudera为了让Hadoop的配置标准化,可以帮助企业安装,配置,运行hadoop以达到大规模企业数据的处理和分析。 既然是给企业使用,Cloudera的软件配置不是采用最新的hadoop 0.20,而是采用了Hadoop 0.18.3-12.cloudera.CH0_3的版本进行封装,并且集成了facebook提供的hive,yahoo提供的pig等基于hadoop的sql实现接口,使得这些软件的安装,配置和使用的成本降低并且进行了标准化。当然除了集成和封装这些成熟的工具外,Cloudera一个比较有意思的工具是sqoop,目前这个工具没有独立提供,因此这也是这次我们全面体验Cloudera的一个出发点,就是体验一下sqoop的工具的便捷性。 Sqoop (”SQL-to-Hadoop”),a tool designed to easily import information from SQL databases into your Hadoop cluster.通过sqoop,可以很方便的从传统的RDBMS里面导入数据到hadoop的集群,比如从mysql和oracle里面导入数据,非常方便,从导出到导入一条命令搞定,而且可以进行表的筛选,比起目前比较成熟的通过文本文件或者管道中转来说,开发的效率提升和配置的简洁是这个工具的特色所在。 Sqoop可以做到 Imports individual tables or entire databases to files in HDFS Generates Java classes to allow you to interact with your imported data Provides the ability
hive 配置和功能测试 hadoop-0.19.1
hadoop-0.19.1最新版本比以往版本大了整整一倍以上,集成了hive 配置起来比往常版本要更加傻瓜化。 hive类似CloudBase,也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总,即席查询简单化。hive提供了一套QL的查询语言,以sql为基础,使用起来很方便。 百闻不如一见,我们以hadoop-0.19.1自带的hive,来体会一下hive的简洁和方便。 预备知识: 虚拟机,rhel linux,sql,java
CloudBase配置和功能测试系列 server端配置手册(1)
假设大家对分布式计算Hadoop已经熟悉,今天介绍一下基于Hadoop的data warehouse软件,如何使用CloudBASE通过使用 ANSI SQL 直接 large-scale log files 进行很方便的查询,通过练习和实际操作例子,大家可以体会到如何利用sql的便捷性和Hadoop强大的分布式计算能力来为大规模高效率的商用计算服务。 看这篇文章的基础知识,hadoop,java,linux,虚拟机,如果你具备了,那么闲话少说,进入正题。如果不具备,可以针对每个基础知识的关键字,通过google,一定能有所收获。
hadoop使用中的几个小细节(二)
1 某次正常运行mapreduce实例时,抛出错误
hadoop使用中的几个小细节(一)
最近在hadoop实际使用中有以下几个小细节分享:
1 中文问题
从url中解析出中文,但hadoop中打印出来仍是乱码?我们曾经以为hadoop是不支持中文的,后来经过查看源代码,发现hadoop仅仅是不支持以gbk格式输出中文而己。

近期评论