Hadoop实战之 Hadoop安装部署

宝塔服务器面板，一键全能部署及管理，送你10850元礼包，点我领取

整体课程概览第一部分：开始云计算之旅第二部分：初识Hadoop 第三部分：Hadoop 环境安装部署第四部分：Hadoop Shell 基本操作介绍第五部分：Hadoop 分布式文件系统1 第五部分：Hadoop 分布式文件系统2 第五部分：Hadoop 分布式文件系统3 第六部分：MapReduce 开发1 第六部分：MapReduce 开发2 第七部分：Hadoop集群的安装

本节课程概览 Hadoop 在windows 上伪分布式的安装过程 Hadoop 在linux 上单节点伪分布式的安装过程集成Eclipse 开发环境 Hadoop UI 介绍运行WordCounter 事例第一部分：Hadoop 在windows 上伪分布式的安装过程安装JDK 1.下载JDK http://www.oracle.com/technetwork/java/javaee/downloads/java-ee-sdk-6u3-jdk-6u29-downloads-523388.html 2.解压或者直接运行.exe安装后面根据项目的实际需要来进行调整。安装 Cygwin 1.下载Cygwin 网址： http://www.cygwin.com/setup.exe 2.安装Cygwin 1. Net Category 下的OpenSSL 2. Base Category 下的sed 3.Editors Category 下的vim 4.Devel Category 下subversion 后面根据项目的实际需要来进行调整。配置环境变量 1.配置JAVA 环境变量 PATH 和JAVA_HOME： JAVA_HOME 指向JDK安装目录； PATH 指向JDK的bin 启动 SSHD 服务 1.安装SSHD ssh-host-config 2. 启动SSHD net start sshd ssh 的安装和配置实现ssh无密码登陆 $ssh-keygen -t rsa 直接回车，完成后会在~/.ssh/生成两个文件：id_dsa 和id_dsa.pub。这两个是成对出现，类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机安装 Hadoop 1.下载Hadoop http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/ 2.解压Hadoop tar xzvf hadoop-0.21.0.tar.gz 配置 Hadoop 1. 配置hadoop-env.sh 2 .配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件概念 HDFS: NameNode ：管理节点 DataNode ：数据节点 SecondaryNamenode : 数据源信息备份整理节点 MapReduce JobTracker ：任务管理节点 Tasktracker ：任务运行节点配置文件 core-site.xml common属性配置 hdfs-site.xml HDFS属性配置 mapred-site.xml MapReduce属性配置 hadoop-env.sh hadooop 环境变量配置修改 hadoop-env.sh 配置JDK即可 export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25 core-site.xml
java代码：查看复制到剪贴板打印

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop</value>
</property>
</configuration>

hdfs-site.xml
java代码：查看复制到剪贴板打印

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

mapred-site.xml java代码：查看复制到剪贴板打印

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>

启动 Hadoop 1.格式化文件系统 hadoop namenode –format 2. 启动hadoop 启动所有任务start-all.sh/stop-all.sh 启动关闭HDFS: start-dfs.sh/stop-dfs.sh 启动关闭MapReduce: start-mapred.sh/stop-mapred.sh 3. 用jps命令查看进程,确保有 namenode,dataNode,JobTracker,TaskTracker 第二部分：Hadoop 在linux 上单节点伪分布式的安装过程安装 JDK $chmod +x jdk-6u27-linux-i586.bin $./jdk-6u27-linux-i586.bin 安装完后设置java 环境变量如下命令：/home路径下 $vi .bashrc 然后添加如下语句 export JAVA_HOME=/home/test/ jdk1.6.0_27 export PATH =/bin:$JAVA_HOME/bin:/usr/bin:$PATH:. 然后. .bashrc使其生效 ssh 的安装和配置 $实现ssh无密码登陆 $sudo apt-get install ssh $ssh-keygen 直接回车，完成后会在~/.ssh/生成两个文件：id_dsa 和id_dsa.pub。这两个是成对出现，类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机 Hadoop 安装 1.下载Hadoop http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/ 2.解压Hadoop tar xzvf hadoop-0.21.0.tar.gz 3. 添加Hadoop Bin到环境变量中修改 hadoop-env.sh 配置JDK即可 export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25 conf/core-site.xml
java代码：查看复制到剪贴板打印

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop</value>
</property>
</configuration>

conf/hdfs-site.xml
java代码：查看复制到剪贴板打印

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

conf/mapred-site.xml
java代码：查看复制到剪贴板打印

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>

启动 Hadoop 1.格式化文件系统 hadoop namenode –format 2. 启动hadoop 启动关闭所有服务 start-all.sh/stop-all.sh 启动关闭HDFS: start-dfs.sh/stop-dfs.sh 启动关闭MapReduce: start-mapred.sh/stop-mapred.sh 3. 用jps命令查看进程,确保有 namenode,dataNode,JobTracker,TaskTracker 第三部分：Hadoop UI 介绍 Hadoop 重要的端口 1.Job Tracker 管理界面：50030 2.HDFS 管理界面：50070 3.HDFS通信端口：9000 4.MapReduce通信端口：9001 常用访问页面 1. HDFS 界面 http://hostname:50070 2. MapReduce 管理界面 http://hostname:50030 第四部分：运行Word Count 示例相关步骤及命令 1.先在本地磁盘上建立两个文件file1和file2 $ echo ”Hello world Bye world" > >~/input/file1 $ echo ”hello hadoop bye hadoop” > >~/input/file2 2.在HDFS上建立一个input目录 $ hadoop fs -mkdir /tmp/input 3.将file1和file2拷贝到hdfs的input目录下 $ hadoop fs -put input/* /tmp/input 4.检查hdfs上有没有file1,file2 $ hadoop fs -ls /tmp/input 5.执行wordcount hadoop jar hadoop-examples-1.0.0.jar wordcount /tmp/input /tmp/output 6.运行完成，查看结果 hadoop fs -cat /output/part-r-00000 第五部分：集成 Eclipse 开发环境通过 Eclipse 编写 Hadoop 程序 1.导入hadoop-core.jar及hadoop/lib下所有Jar包 2.加入Hadoop配置文件，包括conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml,并修改相应参数。本节课程小结掌握了在Windows ,Linux(ubuntu)上安装Hadoop 单节点伪分布式安装初次体验了Hadoop运行的WordCounter程序了解了Hadoop UI 掌握了Hadoop 集成到 Eclipse的情况 http://sishuok.com/forum/blogPost/list/6220.html