一、环境检查
1.查看一下网络是否连接:
这里已经连上
(相关资料图)
2.查看能否访问其他的虚拟机:
能访问
3.试一试hadoop102拷贝一个文件夹给hadoop103
这里已经复制过来了,hadoop103下面的目录有test.sh文件
4.再试试很久没用的rsync命令:
报错了,提示同步的目的地和起始地不能都是远程主机,看现在我的起始主机确实不是hadoop102而是hadoop103
重试一次:成功了,现在module下已经有了‘狗蛋’目录
4.5组件的结构图示例:
hdfs:
yarn:
5.我的hadoop集群的配置是学习专用的配置:
NameNode 和 SecondaryNameNode 原则上不要安装在同一台服务器
ResourceManager 也很消耗内存,原则上不要和 NameNode、SecondaryNameNode 配置在同一台机器上
6.再来查看一下我们的hadoop的集群设置,主要查看 hadoop目录下面的etc目录再下面的hadoop目录下面的八个文件
默认配置文件
-hadoop三大件:
-hdfs-default.xml
-yarn-default-xml
-mapred-default.xml
-hadoop核心配置文件:
-core-default.xml
自定义配置文件
core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml
7.我们查看一下自定义配置文件:
-配置核心文件:需要配置hdfsNameNode节点的主机和端口,dataNode数据文件存储在该主机的位置
-配置HDFS:注释掉副本文件数量,使得每个文件在集群中的副本数和主机数量保持一致
配置NameNode和2NN客户端访问的端口
-配置yarn:指定MR走shuffle,和ResourceManager的位置
-配置MapReduce:MR运行的在yarn集群上面,mr日志服务器配置主机和端口号,mr客户端访问日志的主机和端口
-配置worker:
-好了最后在用rsync命令同步hadoop目录到其他主机上面
8.启动集群:
-第一次启动集群需要格式化NameNode,我格式化过了,这里贴出命令hdfs name -format
会生成data和logs目录
-进入sbin目录,有各种hadoop集群的命令
-
-我们启动hdfs和yarn,这样集群就启动完毕了