|
1.2 获取Hadoop源代码4 f+ O% G9 F/ y x* X: e: J
当前比较流行的Hadoop源代码版本有两个: Apache Hadoop和Cloudera Distributed Hadoop( 简称CDH) 。 Apache Hadoop是由
1 A* i1 N) }( F3 B4 o. M% s雅虎、 Cloudera、 Facebook等公司组成的Hadoop社区共同研发的, 它属于最原始的开源版本, 在该版本基础上, 很多公司进行了
$ Q5 Y+ Y k. [5 Z) I( W封装和优化, 推出了自己的开源版本, 其中, 最有名的一个是Cloudera公司发布的CDH版本。
4 {6 |& y3 Y3 p) N# Q4 |( ^8 }考虑到Apache Hadoop是最原始的版本, 且使用最为广泛, 因而本书选用了Apache Hadoop版本作为分析对象。 自从Apache4 p. W% X8 X6 E7 p7 Z' g2 m
Hadoop发布以来, 已经陆续推出很多版本( 具体见2.2节) , 读者可自行在Hadoop SVN 地址
; h- d. n1 a. a4 |http://svn.apache.org/repos/asf/hadoop/common/branches/查看或者下载所有版本, 也可以从Apache官方主页+ h7 L) S' b. R2 U1 V3 b+ t8 W% ]* v7 ~
http://hadoop.apache.org/releases.html上下载最新版本。; ? d$ O+ z: r5 \) ]; n X
本书介绍的YARN属于Hadoop 2.0的一个分支( 另外两个分支分别是HDFS和MapReduce) , Hadoop 2.0的命名方式一般为& {7 m8 }4 s+ A4 c- |
hadoop-2.x.x。 Apache官方主页提供了两个压缩包, 一个是Hadoop源代码( hadoop-{VERSION}-src.tar.gz) , 一个是可直接用于部
; t* [/ _; U$ R1 u2 L- t1 L署的JAR包( hadoop-{VERSION}.tar.gz) , Cloudera发布的CDH版本则将源代码和JAR包存放在一起组成一个压缩包 ( hadoop-) l1 i7 c/ k) k5 B2 L# s
2.0.0-cdh4.x.x.tar.gz) [2] 。! y( b) o: `" z
本书介绍的YARN设计思想适用于所有Apache Hadoop 2.x版本, 但涉及具体的实现( 指源代码级别的实现) 时, 则以Apache
% W0 E8 s0 i6 q! dHadoop 2.2.0及更高稳定版本为主, 因此, 如果你想对比Hadoop源代码阅读本书, 推荐下载Apache 2.2.0或更高版本。+ d0 I/ {. J/ l/ U+ Y6 Z* R
[2] CDH4下载地址: http://archive.cloudera.com/cdh4/cdh/4/。 9 J7 K4 m6 s0 ~: c/ \
: K# z4 D0 X; f9 }% s4 a8 ?* i
/ B4 Y5 \5 @' M1 x( o |
|