《深入解析YARN架构设计与实现原理》第1章环境准备【1.6】

javazx · 发表于 2017-4-13 21:18:45

1.6 编译及调试Hadoop源代码
读者在阅读源代码过程中，可能需要修改部分源代码或者使用调试工具以便跟踪某些变量值变化过程，此时要用到Hadoop
源代码编译和调试方法。本节将介绍Hadoop在伪分布式模式下的编译和调试方法，其中调试方法主要介绍使用Eclipse远程调试工
具和打印调试日志两种。
Hadoop天生支持Linux而对其他操作系统（如Windows）很不友好，本书也鼓励读者直接在Linux平台下编译和调试Hadoop源代
码，因此，本节介绍的内容全部在Linux环境下。
1.6.1 编译Hadoop源代码
在Linux环境下编译源代码之前，需进行以下准备工作：
❑确保安装的Maven版本在3.0.2以上；
❑Protocol Buffers安装版本为2.5.0；
❑如果要启用findbugs，则需确认已经安装了Findbugs；
❑如果要编译native code，则需确认安装了CMake 2.6或者更新版本；
❑第一次编译代码，需确认可以连接互联网（ Maven要从代码库中下载依赖包）。
Maven编译命令如表1-2所示。
表1-2 Maven编译命令
如果仅编译生成JAR包而无须编译native code、测试用例和生成文档，可在Hadoop安装目录下并输入以下命令（推荐使用该
命令编译Hadoop源代码）：
mvn package -Pdist -DskipTests -Dtar
如果编译JAR包、 native code并生成文档，可使用以下命令：
mvn package -Pdist,native,docs -DskipTests -Dtar
每个子模块编译后生成的JAR包放到了与源代码目录平级的target目录中，比如ResourceManager的源代码目录是：
${YARN_HOME}/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-
server/hadoop-yarnserver-resourcemanager/src
它对应生成JAR包放在了以下目录中：
${YARN_HOME}/hadoop-yarn-project/hadoop-yarn/hadoop-yarnserver/hadoop-yarnserver-resourcemanager/target
如果修改了某个模块的代码，可编译后，将对应的JAR包覆盖到${HADOOP_HOME}/share/hadoop目录中对应的JAR包上。
如果仅编译Hadoop的某一个子模块，需将该模块依赖的JAR包作为它的第三方库引入。一种简单的实现方式是在Hadoop安装
目录下输入以下命令编译所有源代码：
mvn install -DskipTests
然后进入子模块目录，编译生成对应的JAR包。
1.6.2 调试Hadoop源代码
本节介绍两种调试Hadoop源代码的方法：利用Eclipse远程调试工具和打印调试日志。这两种方法均可以调试伪分布式工作模
式和完全分布式工作模式下的Hadoop。本节主要介绍伪分布式工作模式下的Hadoop调试方法。
（ 1）利用Eclipse进行远程调试
下面以调试ResourceManager为例，介绍利用Eclipse远程调试的基本方法，这可分两步进行。
步骤1 调试模式下启动Hadoop。
在Hadoop安装目录下运行如下的Shell脚本：
export YARN_NODEMANAGER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,address=8788,
server=y,suspend=y"
sbin/start-all.sh
运行了脚本后会看到Shell命令行终端显示如下信息：
Listening for transport dt_socket at address: 8788
此时表明ResourceManager处于监听状态，直到收到debug确认信息。
步骤2 设置断点。
在前面新建的Java工程"hadoop-2.0"中，找到ResourceManager相关代码，并在感兴趣的地方设置一些断点。
步骤3 在Eclipse中调试Hadoop程序。
在Eclipse的菜单栏中，依次选择"Run"→"Debug Configurations"→"Remote Java Applications"，并按照要求填写远程调试器名称
（自己定义一个即可）， ResourceManager所在host以及监听端口号等信息，并选择Hadoop源代码工程，便可进入调试模式。
调试过程中， ResourceManager输出的信息被存储到日志文件夹下的yarn-XXX-resourcemanager-localhost.log文件（ XXX为当前用
户名）中，可通过以下命令查看调试过程中打印的日志：
tail -f logs/yarn-XXX-resourcemanager-localhost.log
（ 2）打印Hadoop调试日志
Hadoop使用了 Apache log4j [5] 作为基本日志库，该日志库将日志分别5个级别，分别为DEBUG、 INFO、 WARN、 ERROR和
FATAL。这5个级别是有顺序的，即DEBUG <INFO <WARN <ERROR <FATAL，分别用来指定日志信息的重要程度。日志输出规
则为：只输出级别不低于设定级别的日志信息，比如若级别设定为INFO，则INFO、 WARN、 ERROR和FATAL级别的日志信息都
会输出，但级别比INFO低的DEBUG则不会输出。
在Hadoop源代码中，大部分Java文件中存在调试日志（ DEBUG级别日志），但默认情况下，日志级别是INFO，为了查看更
详细的运行状态，可采用以下几种方法打开DEBUG日志。
方法1 使用Hadoop Shell命令。
可使用Hadoop脚本中的daemonlog命令查看和修改某个类的日志级别，比如，可通过以下命令查看NodeManager类的日志级
别：
bin/hadoop daemonlog -getlevel ${nodemanager-host}:8042 \
org.apache.hadoop.yarn.server.nodemanager.NodeManager
可通过以下命令将NodeManager类的日志级别修改为DEBUG：
bin/hadoop daemonlog -setlevel ${nodemanager-host}:8042 \
org.apache.hadoop.yarn.server.nodemanager.NodeManager DEBUG
其中， nodemanager-host为NodeManager服务所在的host， 8042是NodeManager的HTTP端口号。
方法2 通过Web界面。
用户可以通过Web界面查看和修改某个类的日志级别，比如，可通过以下URL修改NodeManager类的日志级别：
http://${nodemanager-host}:8042/logLevel
方法3 修改log4j.properties文件。
以上两种方式只能暂时修改日志级别，当Hadoop重启后会被重置，如果要永久性改变日志级别，可在目标节点配置目录下
的log4j.properties文件中添加以下配置选项：
log4j.logger.org.apache.hadoop.yarn.server.nodemanager.NodeManager=DEBUG
此外，有时为了专门调试某个Java文件，需要把该文件的相关日志输出到一个单独文件中，可在log4j.properties中添加以下内
容：
# 定义输出方式为自定义的TTOUT
log4j.logger. org.apache.hadoop.yarn.server.nodemanager.NodeManager=DEBUG,TTOUT
# 设置TTOUT 的输出方式为输出到文件
log4j.appender.TTOUT =org.apache.log4j.FileAppender
# 设置文件路径
log4j.appender.TTOUT.File=${hadoop.log.dir}/NodeManager.log
# 设置文件的布局
log4j.appender.TTOUT.layout=org.apache.log4j.PatternLayout
# 设置文件的格式
log4j.appender.TTOUT.layout.ConversionPattern=%d{ISO8601} %p %c: %m%n
这些配置选项会把NodeManager.java中的DEBUG日志写到日志目录下的NodeManager.log文件中。
在阅读源代码的过程中，为了跟踪某个变量值的变化，读者可能需要自己添加一些DEBUG日志。在Hadoop源代码中，大部
分类会定义一个日志打印对象，通过该对象可打印各个级别的日志。比如，在NodeManager中用以下代码定义对象LOG：
public static final Log LOG = LogFactory.getLog(NodeManager.class);
用户可使用LOG对象打印调试日志。比如，可在NodeManager的main函数首行添加以下代码：
LOG.debug("Start to lauch NodeManager...");
然后重新编译Hadoop源代码，并将org.apache.hadoop.yarn.server.nodemanager.NodeManager的调试级别修改为DEBUG，重新启
动Hadoop后便可以看到该调试信息。
[5] Apache log4j网址： http://logging.apache.org/log4j/index.html。
1.7 小结
搭建一个高效的源代码学习环境是深入学习Hadoop的良好开端，本章主要内容正是帮助读者搭建一个这样的学习环境。在
笔者看来，一个高效的Hadoop学习环境至少应该包括源代码阅读环境、 Hadoop使用环境和源代码编译调试环境，而本章正是围
绕这三个环境的搭建方法组织的。
本章介绍了Linux环境下搭建Hadoop源代码阅读环境的方法，在此基础上，进一步介绍了Hadoop的基本使用方法，主要涉及
Hadoop Shell和Eclipse插件两种工具的使用。最后介绍了Hadoop源代码编译和调试方法，其中，调试方法主要介绍了使用Eclipse远
程调试和打印调试日志两种。

		自动登录	找回密码
密码			立即注册

《深入解析YARN架构设计与实现原理》第1章环境准备【1.6】

相关帖子

宣传达人

突出贡献

优秀版主

荣誉管理

论坛元老

《深入解析YARN架构设计与实现原理》第1章 环境准备【1.6】

相关帖子

宣传达人

突出贡献

优秀版主

荣誉管理

论坛元老

《深入解析YARN架构设计与实现原理》第1章环境准备【1.6】