|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《深入理解Hadoop(原书第2版) 》
/ ~1 s8 x4 k. C" Xjava电子书推荐理由:内容包括:第1章~第4章讲解大数据系统的基本概念、Hadoop系统的关键概念,以及进行Hadoop平台管理的关键概念要素。第5章~第7章是本书的重点,深入分析了MapReduce框架,不仅包括MapReduce框架的API,还介绍MapReduce框架的更复杂概念及其设计理念。第8章~第14章介绍Hadoop生态系统,包括支持MapReduce程序的单元测试和集成测试框架、Hadoop系统的监控和日志系统、Hive框架、Pig和Crunch框架、HCatalog框架、Hadoop日志流处理、HBase等。第15章~第17章介绍了数据科学基本概念及应用、云计算实例、分布式下载服务实例等,基于对Hadoop系统的实践,深入浅出地对Hadoop进行了详细的讲解,包含大量的实例和技巧,可帮助有一定基础的开发者快速掌握分布式系统。# ]3 ?, h+ ^9 Z2 n0 _5 }) ~* n( v
0 ?3 Q5 r7 L) W3 P t! D/ s x1 p8 T
! U, n) a/ ^. r% ]$ |- L( j作者:(美)瓦德卡,(美)西德林埃,(美)文纳 著,于博,冯傲风 译
; o$ G" ?: Z6 M" o! s出版社:机械工业出版社! F3 f$ I9 f! @1 f
出版时间:2015年11月
6 u! J% q+ y8 M; x" @6 R0 ^! f4 S' @
9 C4 K: t( H" T; c: j* v% v
+ V) T% t4 r& D; \
+ a3 Q7 c: [& d2 n
java电子书目录:! b H# b/ U+ g5 w5 B& p; ]* ~
1 w2 o+ S9 \; B# Y) L第1章为什么会有大数据
( E% X9 P2 n& t% q# w1.1什么是大数据
0 u. Z/ ]5 s& P0 M5 X2 O- z1.2大数据技术背后的核心思想
9 a8 s3 C6 f" Y9 z1.2.1把数据分发到多个节点
3 |9 U% Q6 u# F+ A4 S' ~0 B1.2.2把计算逻辑移动到数据附近, A7 b* i: E& @2 N! Z
1.2.3计算节点进行本地数据处理
0 X9 N3 ^0 @8 a. ^) N1.2.4优选顺序读,次之随机读7 R1 ?& o6 A1 q, I! ]# O+ R
1.2.5一个例子+ T; b% g6 [6 w6 Y
1.3大数据的编程模型2 y8 ^$ z+ [9 ^0 h! T
1.3.1大规模并行处理数据库系统6 @& d* Z* e Y2 X4 {9 ~5 X
1.3.2内存数据库系统
6 P% ^ ^+ y+ F q. q Q+ G1.3.3MapReduce系统& r1 k- @" ]2 T' r% K
1.3.4整体同步并行系统
$ P4 y. u) B$ h1 s: \- s& m1.4大数据和事务性系统
; ?5 s% E$ A6 r K+ D* n1.5我们能处理多大的数据量
@. I3 \/ ? v1.5.1一个计算密集型的例子1 a% U; p4 }+ n7 J1 t4 ] v c/ q! L$ Z
1.5.2Amdhal定律
6 Y# L5 ~3 w6 J1.6大数据商业用例; V2 E6 b* I# i
1.7本章小结
; B0 J4 c$ i4 c! d- I第2章Hadoop中的概念, z, q2 t. `+ t7 q8 \2 o, }
2.1Hadoop简介! u1 u7 |2 v J5 G6 v
2.2MapReduce编程模型简介0 d$ X# h/ A i0 ~" V& ~! Y
2.3Hadoop系统的组成' Z T5 ], L* B; e! d8 a& K
2.3.1Hadoop 分布式文件系统
0 v: }" ]5 Y; q0 L; Y" x8 S2.3.2辅助名称节点, Y- w- M1 q p9 K" M+ ?+ m
2.3.3任务跟踪器' T" m5 V! ^/ {
2.3.4作业跟踪器
$ V" ?; J% b" L0 C+ s8 \2.4Hadoop 2.5 X, |* C7 t) c' m& I3 h# g
2.4.1容器8 p; r3 Q0 d& b5 Y3 B1 F9 @
2.4.2节点管理器$ k$ e1 E. r8 w" l N; x
2.4.3资源管理器$ R- W/ D3 q& a, p. ]
2.4.4应用程序管理器
) E9 v$ N# i% d2 |+ J. Z2.4.5分步详解YARN请求, r3 b" {1 b3 P2 c! M* v
2.5HDFS 的高可用性; K" _0 a% V3 ~7 F: m
2.6本章小结2 ~( A9 H3 @5 X1 n0 O! @
第3章初识Hadoop框架5 K, m2 u9 l7 l2 _# K8 ]- R' A
3.1安装类型- i& ? Q0 v4 _
3.1.1单机模式2 S8 ?$ L6 w- G% r
3.1.2伪分布式集群模式
$ j3 ]+ M( W8 s# G8 Y3.1.3多节点集群安装模式2 N5 }* \* v. `
3.1.4基于Amazon EMR预安装模式
7 j7 R4 E4 r) B' r3 G5 }- _8 T, q6 f3.2使用Cloudera虚拟机搭建开发环境* ]/ {. Z& T( W4 t1 ]0 u" V
3.3一个MapReduce程序的组成
4 J/ L3 K- F5 {3.4第一个Hadoop程序+ r. e- m1 `! d5 H+ G F* M1 l( T
3.4.1以本地模式运行程序的必要条件8 n( Y( q/ |0 c: h
3.4.2使用旧API编写的单词计数程序# g6 `# R) J' I# ~1 P
3.4.3构建程序
/ H9 N9 h$ s6 t( J3.4.4在集群模式下运行单词计数程序
Z/ H6 g$ o* x5 z& s3.4.5使用新API编写的单词计数程序
6 B& G: y) J" {$ |4 Q- L( o- R3.4.6构建程序 f6 }1 T/ v, I, `/ U# A1 y
3.4.7在集群模式下运行单词计数程序
i. r. j5 d; M3 H7 T c2 @3.5Hadoop作业中的第三方函数库
( X4 \5 c. o* D! O) i; Z$ J% f3.6本章小结: A. `0 o* G$ b0 j
第4章Hadoop系统管理' X1 z: Z G4 Y+ @! [ u9 _
4.1Hadoop的配置文件
1 k- N. ?: P) H1 ^4.2配置Hadoop守护进程- _: J w) P* e
4.3Hadoop配置文件的优先级6 \. w( O9 V$ g$ R% y
4.4深入探究Hadoop配置文件
0 M* l# Y! O0 ~1 h4.4.1coresite.xml
. p4 t: S% W+ Q0 Y4.4.2hdfs*.xml/ d8 o$ u. T9 V7 {4 Y
4.4.3mapredsite.xml3 E; E- m' [) ?: c9 D2 P7 Q- i
4.4.4yarnsite.xml
) S7 P" }5 j. G. w4.4.5YARN中的内存分配
' [! V* B2 k% I: o& a4 c4.5调度器
H' s! b; ?- R0 Z1 o e4.5.1计算能力调度器
; ]$ A( `5 u! S" \4.5.2公平调度器2 y* e! E. _0 R, e
4.5.3公平调度器配置
3 k7 X- x! p0 Q+ |9 p( a4.5.4 yarnsite.xml 配置0 {; P7 u" {4 m3 Z, A7 a( _
4.5.5策略文件的格式和配置
2 R' J& M, H0 Y( t. P4 L4.5.6按照drf策略来确定优势资源的分配
7 M% k2 o, w9 ]+ E" s4.6从属文件
n/ ?) [3 l1 p! Q8 m4.7机架感知
# h% o7 F4 F# b4.8 集群管理工具
6 h" B! p6 q% a" L; J( T+ {3 m6 o* Q4.8.1检查HDFS
5 C! h* ?0 E" Q& ] X4.8.2 HDFS管理命令行
d* P& {: y; a' C0 _+ Q4.8.3 均衡HDFS上的数据分布
; x9 H1 f# V" ]4.8.4从HDFS中复制海量数据/ C4 |$ H; I' I! l& c
4.9本章小结3 }5 \3 T" I0 c% L; z" u% R) [+ _
第5章MapReduce开发基础
7 H( I$ U' \. c7 c5.1 Hadoop和数据处理/ s6 e8 O6 j' g' W4 n. h3 g
5.2 航空公司数据集介绍
! `: N, E; O6 s. J# D, B) g/ z. I5.2.1 准备开发环境
0 ?0 ^! A' F7 I, W& _ a: F0 w1 r5.2.2 准备Hadoop系统% `- m: s7 [) Q- g; o, t
5.3 MapReduce编程模式3 C" h+ S e/ ^8 _$ \
5.3.1 只有Map阶段的作业(SELECT和WHERE查询)* D7 r* h0 f3 x5 `" n% c3 t; C
5.3.2 问题定义―SELECT子句
A" g3 x( r+ m% C X+ c5.3.3 问题定义―WHERE子句0 W( m. R, @ u
5.3.4 Map和Reduce作业(聚合查询)
& g9 X0 X1 }$ y5.3.5 问题定义―GROUP BY和SUM子句
/ p F" A0 `1 u4 I5.3.6 应用Combiner提高Aggregation性能% ^% Y% a: m$ r! W$ N( d+ `' j0 F
5.3.7 问题定义―优化后的Aggregators
" _* {; L; M9 Q7 z9 t, Y) B5.3.8 Partitioner的作用
$ L( i& V9 U( p2 v7 f3 ?5.3.9 问题定义―按月分离航空数据
+ b2 \4 Z; [) s! w p5.4 综合分析
% {) d% x& }( W5 i) S! R" W" [% t5.5 本章小结
/ r6 e) j5 Z8 I0 W( u# o第6章MapReduce开发进阶
) y: M, |: o: B$ }6.1 MapReduce编程模式. T. {4 h- }) u8 T1 r
6.2 Hadoop I/O 介绍
* ~" s! k7 f l- \6.3 问题定义―排序; E. K, T8 [. ^
6.3.1 主要挑战:全排序) Q9 X7 t0 Z$ Z @0 J! @
6.3.2 在Cluster中运行Sorting作业
4 J( P( Z1 M9 g* r5 N6 B6.3.3 仅根据Writable键排序: U: g9 u- u( F B3 r/ v5 l5 \7 r
6.3.4 根据排序回顾Hadoop的关键特性8 Z- i4 I7 x$ A* Y1 R: I
6.4 问题定义―分析连续的记录+ s3 S: a$ x1 h( {
6.4.1 支持二次排序的重要组件
9 ~6 s( i+ O, Z+ k5 v( l4 n3 U6.4.2 在没有Grouping Comparator的情况下实现Secondary Sort' Q4 D& T) `% \& l# D7 |
6.4.3 在Cluster中运行SecondarySort作业8 }( z/ @2 `* a5 `" `8 p2 f
6.4.4 利用Secondary Sort回顾Hadoop的关键特性9 o1 ?; S: R; I
6.5 问题定义―使用MapReducer进行连接6 O/ K8 A8 K" B: D1 ^2 |
6.5.1 处理多输入:MultipleInputs 类
) s2 ^- J* C; T& m2 N6.5.2 具备多个输入的Mapper类 m D8 h* ` P8 k m3 U$ p
6.5.3 自定义 Partitioner: CarrierCodeBasedPartioner
3 X; ]. z/ P% t p6.5.4 在Reducer中实现连接
% k9 G6 h4 L- |" L6.5.5 在集群中运行MapReduce连接作业
- q. I6 r2 f3 e; T# V6.5.6 探讨与MapReduce相关的Hadoop主要特性
" G2 U5 `5 G+ a4 {9 d* c. Y- n6.6 问题定义―使用MapOnly 作业进行连接
7 d5 {: X" A" H6.6.1 基于DistributeCache的解决方案
* X) X5 P3 R( T2 U' L6.6.2 在集群中运行MapOnly的连接作业
. r% o0 |/ p& E& J/ V6.6.3 总结探讨MapOnly连接时的Hadoop关键特性, m+ u1 u1 g$ [
6.7 在MR作业中保存结果到多输出文件- f C8 {6 z+ ?# C
6.8 使用计数器收集统计数据2 A) E/ I. y8 \, u/ Q5 D
6.9 本章小结; y5 u* x6 ]: }2 y8 `9 m N
第7章 Hadoop输入/输出 o# {* ?1 W8 ?# ~( b9 K/ a; v
7.1 压缩方式
$ [3 N& \( F& z a4 B1 D0 K$ c$ x7.1.1 压缩内容的选择
) p# S/ W; Q8 `. ?" k7.1.2 各种压缩方式
$ O3 x3 u0 {% Q" N1 L9 O( ?4 K1 L1 u7.1.3 配置压缩方式
+ e" c7 V& t" Z7 P, {# M; V3 x+ U7.2 Hadoop的I/O处理过程内部
( ~" a0 H D& l2 L; n# t- V7.2.1 Inputformat2 H7 x% R1 y9 }& ]* d
7.2.2 OutputFormat
2 z. ?. w% F( @: s9 o7.2.3 自定义OutputFormat:将文本转换成XML1 J+ \5 x1 F- H; E
7.2.4 自定义 InputFormat:使用自定义的XML文件1 M5 y6 P: K- H
7.3 Hadoop文件$ v! W( p8 Y0 I9 b Q- _
7.3.1 SequenceFile
- b9 i5 I* T% c9 }8 _! r7.3.2 MapFiles' n( A2 }. o9 v! m+ b" f% f
7.3.3 Avro Files
1 }* t6 E6 m- I8 [ A7.4 本章小结
) @$ h0 s" {$ e5 A/ G ?4 B第8章 测试Hadoop程序, {6 I7 ]$ a9 s" H7 l" Z3 ]1 d
8.1 回顾一下单词统计的程序
- ?5 m9 i3 O( A0 H. B: }5 x& ]: p8.2 MRUnit概述
$ W' [. h' ?4 H2 R. x/ H. ^8.2.1 安装MRUnit
0 C/ _+ u1 y) L' V, @8.2.2 MRUnit 核心类
) Q% e( G9 `+ ]2 e" D" ^8.2.3 编写一个MRUnit测试用例: i i. \1 o$ [# v& F
8.2.4 测试计数器
# Z7 o9 s2 \/ g8 Y+ l( E7 e8.2.5 MRUnit的特性
9 Q1 F: x: J' W7 x8.2.6 MRUnit的局限性
5 }4 u$ }5 o2 ?; |8.3 用LocalJobRunner测试
& q4 ?7 ]6 V4 [" S8.3.1 setUp( )方法2 M; U/ c( e' V" }/ |
8.3.2 LocalJobRunner的局限性" s" x/ W4 G; y) `$ N: K
8.4 用MiniMRCluster测试/ U9 R+ N' z1 D$ N5 Z9 o
8.4.1 配置开发环境
6 L4 n! u6 V- ?- V5 [8.4.2 MiniMRCluster例子! q/ ?# B& P6 j* U6 ~2 m7 ^, N
8.4.3 MiniMRCluster的局限性
( @9 g& G, {( g3 O, e8.5 对访问网络资源的MR作业进行测试
) I( t9 |- U. u8.6 本章小结7 e5 h) M$ }; O) `' ?2 R4 o
第9章Hadoop的监控' O' K+ T' @3 B+ n+ Z5 N
9.1 在Hadoop MapReduce Jobs中写日志消息
0 ]1 k5 J8 s7 Z8 u' H# s; Y9.2 在Hadoop MapReduce Jobs中查看日志消息9 F3 `8 G2 l: N( k; F1 ~
9.3 在Hadoop 2.x中使用日志管理
+ _. Q e3 b4 p& G" [9.3.1 Hadoop 2.x中的日志存储; t4 l6 l7 O p! `5 S
9.3.2 日志管理提升
* v+ K! w3 C7 n/ K+ V. j# S8 \9.3.3 使用基于Web的界面查看日志
, j1 I" }' ~+ K0 L, H }6 I! ?# s& V" P. p9.3.4 命令行界面$ f2 `6 K/ V# ~( k
9.3.5 日志的保存( L% c8 `. T. p& e8 T
9.4 Hadoop集群性能监控% \5 M. F: `; ~9 K# ~: f) H
9.5 使用YARN REST API
Z/ v# v% l( W! N9.6 使用供应商工具管理Hadoop集群
' e6 w" \( s' K! c9 X9.7 本章小结
# z5 K9 y/ a1 n, I第10章使用Hadoop构建数据仓库# i( l$ l; D6 E
10.1 Apache Hive
4 n# y2 @- z+ b8 d$ C5 ?2 X10.1.1 安装Hive$ m5 }% B9 D* ]
10.1.2 Hive的架构3 x# j5 @: q9 Q$ g; ^1 r5 v
10.1.3 元数据存储# w \& P9 x. |9 R/ O- H# j
10.1.4 HiveQL编译基础' c T$ p2 Q* ]) h8 J
10.1.5 Hive使+ Y6 E" H) r5 Y* B4 c
……8 g( z" M& s$ H8 S; j* _. z
第11章 使用Pig进行数据处理
8 ~' e4 o% V5 F: Z" S5 i7 |第12章 HCatalog和企业级Hadoop
6 i6 P$ ~- R; v$ r3 h第13章 使用Hadoop分析日志 N) l* y! t/ S, u
第14章 使用HBase构建实时系统
) U i) l# P9 N/ d% e. Z9 Q7 O第15章 Hadoop与数据科学1 L1 W9 ~: }; o; ~+ T- D
第16章 Hadoop与云计算
3 f$ i$ c( B8 W; u$ Y) N* e第17章 构建YARN应用程序
+ U5 Z9 p6 V* U9 g3 ~: L0 C
# r% v& I! @. S
3 r- ~% T4 ^) D3 ~$ n/ P$ \* m百度网盘下载地址链接(百度云)下载地址:java自学网(javazx.com)深入理解Hadoop(原书第2版)PDF高清电子书百度云.rar【密码回帖可见】/ \, t: ?" d, g! B
' w! V: m6 W- O. S
' N% m! U1 ~! a8 e, ? |
|