|
1.2 获取Hadoop源代码$ @* O) }1 c8 c4 v# T8 F2 J
当前比较流行的Hadoop源代码版本有两个: Apache Hadoop和Cloudera Distributed Hadoop( 简称CDH) 。 Apache Hadoop是由- J0 @1 v2 Q* g, c( T4 [
雅虎、 Cloudera、 Facebook等公司组成的Hadoop社区共同研发的, 它属于最原始的开源版本, 在该版本基础上, 很多公司进行了* [6 q/ s' |3 \
封装和优化, 推出了自己的开源版本, 其中, 最有名的一个是Cloudera公司发布的CDH版本。4 G2 U& h, s4 x$ T
考虑到Apache Hadoop是最原始的版本, 且使用最为广泛, 因而本书选用了Apache Hadoop版本作为分析对象。 自从Apache
2 B) k9 Q9 C0 F* a( v+ `Hadoop发布以来, 已经陆续推出很多版本( 具体见2.2节) , 读者可自行在Hadoop SVN 地址( F1 ]% s! o/ _1 V* A0 J
http://svn.apache.org/repos/asf/hadoop/common/branches/查看或者下载所有版本, 也可以从Apache官方主页5 f3 L1 z s! Q( t7 B! _: M, w
http://hadoop.apache.org/releases.html上下载最新版本。
: X7 ?' p4 Z9 l9 e g本书介绍的YARN属于Hadoop 2.0的一个分支( 另外两个分支分别是HDFS和MapReduce) , Hadoop 2.0的命名方式一般为
. k, C" @7 x1 z2 a5 u% K, J# e. ]hadoop-2.x.x。 Apache官方主页提供了两个压缩包, 一个是Hadoop源代码( hadoop-{VERSION}-src.tar.gz) , 一个是可直接用于部$ f/ H' |7 G# ]* K5 Q
署的JAR包( hadoop-{VERSION}.tar.gz) , Cloudera发布的CDH版本则将源代码和JAR包存放在一起组成一个压缩包 ( hadoop-
0 A3 g% ~ N: A$ _. y* K6 R* |7 m2.0.0-cdh4.x.x.tar.gz) [2] 。
% A, y. @; G, J, P N0 Q- }% v本书介绍的YARN设计思想适用于所有Apache Hadoop 2.x版本, 但涉及具体的实现( 指源代码级别的实现) 时, 则以Apache
% S" H8 V; O$ U% M* @7 `5 |Hadoop 2.2.0及更高稳定版本为主, 因此, 如果你想对比Hadoop源代码阅读本书, 推荐下载Apache 2.2.0或更高版本。
& V1 v t( f, @1 Z) v N8 _) z8 T0 y! s[2] CDH4下载地址: http://archive.cloudera.com/cdh4/cdh/4/。
! o5 p5 l- P/ ^% L, y9 F+ l3 @' B8 w3 r# U" y* _
6 f( |" Y# k7 l( L& t
|
|