Hadoop 集群设置-det365娱乐官网登录-det365娱乐官网登录-bat365官方登录中文-365系统维护

Hadoop 集群设置

目的

先决条件

安装

在非安全模式下配置 Hadoop

配置 Hadoop 守护程序的环境

配置 Hadoop 守护程序

监控 NodeManager 的运行状况

Slaves 文件

Hadoop 机架感知

日志记录

操作 Hadoop 集群

Hadoop 启动

Hadoop 关机

Web 界面

目的

本文档介绍如何安装和配置 Hadoop 集群，从几个节点到拥有数千个节点的超大型集群。要使用 Hadoop，您可能首先希望在单台机器上安装它（请参阅单节点设置）。

本文档不涵盖高级主题，例如高可用性。

重要提示：所有生产 Hadoop 集群都使用 Kerberos 对调用者进行身份验证并保护对 HDFS 数据的访问以及限制对计算服务的访问（YARN 等）。

这些说明不涵盖与任何 Kerberos 服务的集成，- 每个启动生产集群的人都应将连接到其组织的 Kerberos 基础设施作为部署的关键部分。

有关如何保护集群的详细信息，请参阅安全性。

先决条件

安装 Java。请参阅 Hadoop Wiki 了解已知的良好版本。

从 Apache 镜像下载稳定版本的 Hadoop。

安装

安装 Hadoop 集群通常涉及在集群中的所有机器上解压缩软件或通过适用于您操作系统的打包系统进行安装。重要的是将硬件按功能划分。

通常，集群中的一台机器被指定为 NameNode，另一台机器被指定为 ResourceManager，它们是专用的。这些是主节点。其他服务（例如 Web 应用程序代理服务器和 MapReduce 作业历史记录服务器）通常在专用硬件或共享基础设施上运行，具体取决于负载。

集群中的其他机器充当 DataNode 和 NodeManager。这些是工作者。

在非安全模式下配置 Hadoop

Hadoop 的 Java 配置由两种类型的配置文件驱动

只读默认配置 - core-default.xml、hdfs-default.xml、yarn-default.xml 和 mapred-default.xml。

特定于站点的配置 - etc/hadoop/core-site.xml、etc/hadoop/hdfs-site.xml、etc/hadoop/yarn-site.xml 和 etc/hadoop/mapred-site.xml。

此外，可以通过 etc/hadoop/hadoop-env.sh 和 etc/hadoop/yarn-env.sh 设置特定于站点的值来控制发行版的 bin/ 目录中找到的 Hadoop 脚本。

要配置 Hadoop 集群，您需要配置 Hadoop 守护程序执行的环境以及 Hadoop 守护程序的配置参数。

HDFS 守护程序是 NameNode、SecondaryNameNode 和 DataNode。YARN 守护程序是 ResourceManager、NodeManager 和 WebAppProxy。如果要使用 MapReduce，则 MapReduce 作业历史记录服务器也将运行。对于大型安装，这些通常在单独的主机上运行。

配置 Hadoop 守护程序的环境

管理员应使用 etc/hadoop/hadoop-env.sh 以及可选的 etc/hadoop/mapred-env.sh 和 etc/hadoop/yarn-env.sh 脚本对 Hadoop 守护程序的进程环境进行特定于站点的自定义。

至少，您必须指定 JAVA_HOME，以便在每个远程节点上正确定义它。

管理员可以使用下表中所示的配置选项配置各个守护程序

守护程序

环境变量

NameNode

HDFS_NAMENODE_OPTS

DataNode

HDFS_DATANODE_OPTS

辅助 NameNode

HDFS_SECONDARYNAMENODE_OPTS

ResourceManager

YARN_RESOURCEMANAGER_OPTS

NodeManager

YARN_NODEMANAGER_OPTS

WebAppProxy

YARN_PROXYSERVER_OPTS

Map Reduce 作业历史记录服务器

MAPRED_HISTORYSERVER_OPTS

例如，要配置 Namenode 使用 parallelGC 和 4GB Java 堆，应在 hadoop-env.sh 中添加以下语句

export HDFS_NAMENODE_OPTS="-XX:+UseParallelGC -Xmx4g"

有关其他示例，请参见 etc/hadoop/hadoop-env.sh。

您可以自定义的其他有用的配置参数包括

HADOOP_PID_DIR - 存储守护程序进程 ID 文件的目录。

HADOOP_LOG_DIR - 存储守护程序日志文件的目录。如果日志文件不存在，则会自动创建。

HADOOP_HEAPSIZE_MAX - 用于 Java 堆大小的最大内存量。JVM 支持的单位在此也受支持。如果不存在单位，则假定该数字以兆字节为单位。默认情况下，Hadoop 将让 JVM 确定要使用多少。可以使用上面列出的适当 _OPTS 变量按守护进程逐个覆盖此值。例如，设置 HADOOP_HEAPSIZE_MAX=1g 和 HADOOP_NAMENODE_OPTS="-Xmx5g" 将使用 5GB 堆配置 NameNode。

在大多数情况下，您应该指定 HADOOP_PID_DIR 和 HADOOP_LOG_DIR 目录，以便只有将要运行 Hadoop 守护进程的用户才能向其中写入。否则，可能会发生符号链接攻击。

在系统范围的 shell 环境配置中配置 HADOOP_HOME 也是传统做法。例如，/etc/profile.d 中的简单脚本

HADOOP_HOME=/path/to/hadoop

export HADOOP_HOME

配置 Hadoop 守护进程

本节介绍在给定配置文件中要指定的重要的参数

etc/hadoop/core-site.xml

参数

值

备注

fs.defaultFS

NameNode URI

hdfs://host:port/

io.file.buffer.size

131072

SequenceFiles 中使用的读/写缓冲区的大小。

etc/hadoop/hdfs-site.xml

NameNode 的配置

参数

值

备注

dfs.namenode.name.dir

NameNode 存储名称空间和事务日志的本地文件系统上的路径。

如果这是一个以逗号分隔的目录列表，则名称表将复制到所有目录中，以实现冗余。

dfs.hosts / dfs.hosts.exclude

允许/排除的数据节点列表。

如有必要，请使用这些文件来控制允许的数据节点列表。

dfs.blocksize

268435456

对于大型文件系统，HDFS 块大小为 256MB。

dfs.namenode.handler.count

100

更多 NameNode 服务器线程来处理来自大量数据节点的 RPC。

DataNode 的配置

参数

值

备注

dfs.datanode.data.dir

DataNode 的本地文件系统上路径的逗号分隔列表，它应该在其上存储其块。

如果这是一个以逗号分隔的目录列表，那么数据将存储在所有命名的目录中，通常在不同的设备上。

etc/hadoop/yarn-site.xml

ResourceManager 和 NodeManager 的配置

参数

值

备注

yarn.acl.enable

true / false

启用 ACL？默认为false。

yarn.admin.acl

管理员 ACL

用于在集群上设置管理员的 ACL。ACL 的格式为以逗号分隔的用户空格以逗号分隔的组。默认值为特殊值 *，表示任何人。仅空格的特殊值表示无人有权访问。

yarn.log-aggregation-enable

false

启用或禁用日志聚合的配置

ResourceManager 的配置

参数

值

备注

yarn.resourcemanager.address

ResourceManager 主机:端口，供客户端提交作业。