大数据春招复习-hadoop复习 全球通讯

2023-02-05 01:13:34 来源:哔哩哔哩

、环境检查

1.查看一下网络是否连接:

这里已经连上


(相关资料图)

2.查看能否访问其他的虚拟机:

能访问

3.试一试hadoop102拷贝一个文件夹给hadoop103

这里已经复制过来了,hadoop103下面的目录有test.sh文件

4.再试试很久没用的rsync命令:

报错了,提示同步的目的地和起始地不能都是远程主机,看现在我的起始主机确实不是hadoop102而是hadoop103

重试一次:成功了,现在module下已经有了‘狗蛋’目录

4.5组件的结构图示例:

hdfs:

yarn:

5.我的hadoop集群的配置是学习专用的配置:

NameNode 和 SecondaryNameNode 原则上不要安装在同一台服务器

ResourceManager 也很消耗内存,原则上不要和 NameNode、SecondaryNameNode 配置在同一台机器上

6.再来查看一下我们的hadoop的集群设置,主要查看 hadoop目录下面的etc目录再下面的hadoop目录下面的八个文件

默认配置文件

-hadoop三大件:

-hdfs-default.xml

-yarn-default-xml

-mapred-default.xml

-hadoop核心配置文件:

-core-default.xml

自定义配置文件

core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml

7.我们查看一下自定义配置文件:

-配置核心文件:需要配置hdfsNameNode节点的主机和端口,dataNode数据文件存储在该主机的位置

-配置HDFS:注释掉副本文件数量,使得每个文件在集群中的副本数和主机数量保持一致

配置NameNode和2NN客户端访问的端口

-配置yarn:指定MR走shuffle,和ResourceManager的位置

-配置MapReduce:MR运行的在yarn集群上面,mr日志服务器配置主机和端口号,mr客户端访问日志的主机和端口

-配置worker:

-好了最后在用rsync命令同步hadoop目录到其他主机上面

8.启动集群:

-第一次启动集群需要格式化NameNode,我格式化过了,这里贴出命令hdfs name -format

会生成data和logs目录

-进入sbin目录,有各种hadoop集群的命令

-

-我们启动hdfs和yarn,这样集群就启动完毕了

标签: 配置文件 要安装在 文件存储

珠宝展示