《深入解析YARN架构设计与实现原理》第1章环境准备【1.4】

javazx · 发表于 2017-4-12 20:37:38

1.4 Hadoop源代码组织结构
在Hadoop的JAR压缩包解压后的目录hadoop-{VERSION}中包含了Hadoop全部的管理脚本和JAR包，下面简单对这些文件或
目录进行介绍。
❑bin： Hadoop最基本的管理脚本和使用脚本所在目录，这些脚本是sbin目录下管理脚本的基础实现，用户可以直接使用这些
脚本管理和使用Hadoop。
❑etc ： Hadoop配置文件所在的目录，包括core-site.xml、 hdfs-site.xml、 mapred-site.xml等从Hadoop 1.0继承而来的配置文件和
yarn-site.xml等Hadoop 2.0新增的配置文件。
❑include ：对外提供的编程库头文件（具体动态库和静态库在lib目录中），这些头文件均是用C++定义的，通常用于C++语
言访问HDFS或者编写MapReduce程序。
❑lib ：该目录包含了Hadoop对外提供的编程动态库和静态库，与include目录中的头文件结合使用。
❑libexec ：各个服务对应的Shell配置文件所在目录，可用于配置日志输出目录、启动参数（比如JVM参数）等基本信息。
❑sbin： Hadoop管理脚本所在目录，主要包含HDFS和YARN中各类服务的启动/关闭脚本。
❑share ： Hadoop各个模块编译后的JAR包所在目录。
在Hadoop 源代码压缩包解压后的目录hadoop-{VERSION}-src中，可看到如图1-8所示的目录结构，其中，比较重要的目录
有： hadoop-common-project、 hadoop-mapreduce-project、 hadoop-hdfs-project和hadoop-yarn-project等，下面分别介绍这几个目录的作
用。
❑hadoop-common-project： Hadoop基础库所在目录，该目录中包含了其他所有模块可能会用到的基础库，包括RPC、
Metrics、 Counter等。
图1-8 Hadoop安装目录结构
❑hadoop-mapreduce-project： MapReduce框架的实现，在MRv1中， MapReduce由编程模型（ map/reduce）、调度系统
（ JobTracker和TaskTracker）和数据处理引擎（ MapTask和ReduceTask）等模块组成，而此处的MapReduce则不同于MRv1中的实
现，它的资源调度功能由新增的YARN完成（编程模型和数据处理引擎不变），自身仅包含非常简单的任务分配功能。
❑hadoop-hdfs-project： Hadoop分布式文件系统实现，不同于Hadoop 1.0中单NameNode实现， Hadoop 2.0支持多NameNode，
同时解决了NameNode单点故障问题。
❑hadoop-yarn-project： Hadoop资源管理系统YARN实现。这是Hadoop 2.0新引入的分支，该系统能够统一管理系统中的资
源，并按照一定的策略分配给各个应用程序，本书将重点剖析YARN的实现。
本书重点介绍YARN的实现原理，下面就对Hadoop YARN源代码组织结构 [3] 进行介绍。 YARN目录组织结构如图1-9所示。
总体上看， Hadoop YARN分为5部分： API、 Common、 Applications、 Client和Server，它们的内容具体如下：
❑YARN API（ hadoop-yarn-api目录）：给出了YARN内部涉及的4个主要RPC协议的Java 声明和Protocol Buffers定义，这4个
RPC协议分别是ApplicationClientProtocol、 ApplicationMasterProtocol、 ContainerManagementProtocol和
ResourceManagerAdministrationProtocol，本书将在第2章对这部分内容进行详细介绍。
❑YARN Common（ hadoop-yarn-common目录）：该部分包含了YARN底层库实现，包括事件库、服务库、状态机库、 Web界
面库等，本书将在第3章对这部分内容进行详细介绍。
❑YARN Applications（ hadoop-yarn-applications目录）：该部分包含了两个Application编程实例，分别是distributedshell和
Unmanaged AM，本书将在第4章对这部分内容进行详细介绍。
❑YARN Client（ hadoop-yarn-client目录）：该部分封装了几个与YARN RPC协议交互相关的库，方便用户开发应用程序，本
书将在第4章对这部分内容进行详细介绍。
❑YARN Server（ hadoop-yarn-server目录）：该部分给出了YARN的核心实现，包括ResourceManager、 NodeManager、资源管
理器等核心组件的实现，本书将在第5~7章对这部分内容进行详细介绍。
图1-9 Hadoop YARN目录组织结构
[3] 不同Hadoop版本的源代码组织结构有较大差别，本书的分析是基于Hadoop 1.0.0的。

		自动登录	找回密码
密码			立即注册

《深入解析YARN架构设计与实现原理》第1章环境准备【1.4】

相关帖子

宣传达人

突出贡献

优秀版主

荣誉管理

论坛元老

《深入解析YARN架构设计与实现原理》第1章 环境准备【1.4】

相关帖子

宣传达人

突出贡献

优秀版主

荣誉管理

论坛元老

《深入解析YARN架构设计与实现原理》第1章环境准备【1.4】