|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《深入理解Hadoop(原书第2版) 》! v! r- C' h; c$ Y- ~
java电子书推荐理由:内容包括:第1章~第4章讲解大数据系统的基本概念、Hadoop系统的关键概念,以及进行Hadoop平台管理的关键概念要素。第5章~第7章是本书的重点,深入分析了MapReduce框架,不仅包括MapReduce框架的API,还介绍MapReduce框架的更复杂概念及其设计理念。第8章~第14章介绍Hadoop生态系统,包括支持MapReduce程序的单元测试和集成测试框架、Hadoop系统的监控和日志系统、Hive框架、Pig和Crunch框架、HCatalog框架、Hadoop日志流处理、HBase等。第15章~第17章介绍了数据科学基本概念及应用、云计算实例、分布式下载服务实例等,基于对Hadoop系统的实践,深入浅出地对Hadoop进行了详细的讲解,包含大量的实例和技巧,可帮助有一定基础的开发者快速掌握分布式系统。2 X# ~, a8 \2 J/ _: @
) j: X/ U2 D3 V/ @; ?' c* M0 s/ g' J6 j! Z* f/ w! O# r
作者:(美)瓦德卡,(美)西德林埃,(美)文纳 著,于博,冯傲风 译; ?/ m S" Y" g* \
出版社:机械工业出版社( { I( v+ T2 y, @
出版时间:2015年11月
" J2 }# {. ?: f7 j9 Y* e
7 g& S8 J; e0 E
/ h0 P. e1 T" y) e; l
0 E' V8 t# ? |1 Z* [
java电子书目录:
$ \, q! a9 X2 h- G! {" j" _- {& t4 T3 z6 G
第1章为什么会有大数据6 j9 C4 R0 ]% f; V+ x
1.1什么是大数据
" W+ U: i# Y4 Q% s4 [1.2大数据技术背后的核心思想7 z. F3 ^0 a, y3 D/ l* L L
1.2.1把数据分发到多个节点
; y2 x! i, `. Z) j# Y; s1.2.2把计算逻辑移动到数据附近
! ?' \ z+ a, E X7 G" |6 `4 \5 x1.2.3计算节点进行本地数据处理
, y% \! _9 t6 ]' E$ R" _/ \2 e6 |1.2.4优选顺序读,次之随机读
) \" e" ~3 O. c7 n4 i1.2.5一个例子
& K" Y" G% D9 V( G+ J3 N5 r1.3大数据的编程模型
4 e2 p; F- q" z) f* f+ u% [1.3.1大规模并行处理数据库系统
& y* p8 [: i1 N- \! i4 l& N4 q" f1.3.2内存数据库系统
; `* j0 E. d3 H9 ^$ j1.3.3MapReduce系统
# m! r, Z+ @8 \; P4 s1.3.4整体同步并行系统1 |' l( l7 J* s* C6 N I
1.4大数据和事务性系统; C% L d7 X% @. W; i8 S
1.5我们能处理多大的数据量
7 f" }, j" b1 b# ^1.5.1一个计算密集型的例子7 l M1 a8 e# A3 F- A+ r
1.5.2Amdhal定律; W5 B) ?. T9 ^6 X, h
1.6大数据商业用例# U. G8 A; C7 a9 |4 g& g
1.7本章小结# @) K. Y4 `# J$ y, I" P
第2章Hadoop中的概念
6 Z5 U2 U; @; }+ E! u8 U2.1Hadoop简介% c4 W6 ]! K( ]& w$ H7 l
2.2MapReduce编程模型简介
& k% m! c/ q5 w, u& t2.3Hadoop系统的组成# u# p; O8 S7 o( i4 \0 l
2.3.1Hadoop 分布式文件系统
{6 Z$ v* H) \ K2.3.2辅助名称节点$ R, Z4 E8 y4 N* s5 F( U
2.3.3任务跟踪器7 \% C" f7 `+ O: v) d
2.3.4作业跟踪器+ J: x b! }! _+ y3 g# y
2.4Hadoop 2.' r2 u9 I4 c! v( Y( e
2.4.1容器& E) M3 n. K6 n3 \
2.4.2节点管理器( z7 |$ Z! Z- k+ S5 C
2.4.3资源管理器; h1 `, f- O1 N4 z" g2 e
2.4.4应用程序管理器
$ c( N& y9 S3 e" l) k+ y( K! G2.4.5分步详解YARN请求
+ Q0 H H2 V2 |4 U' b2 ~4 e2 f3 u2.5HDFS 的高可用性
% ^* Q4 D0 S6 p: O7 v, {8 o2.6本章小结9 r/ H$ ]0 x; ?% q' i: E0 O
第3章初识Hadoop框架. H; |$ ~$ v" B. T
3.1安装类型' b0 Z* l( c8 }+ m: F8 X
3.1.1单机模式9 }2 P) B' \- f% U8 t, b
3.1.2伪分布式集群模式: a! r" ]" C, Z8 A
3.1.3多节点集群安装模式
7 G" k" l0 Q0 n9 N3.1.4基于Amazon EMR预安装模式
" T$ K8 Z' W: B0 P4 R3.2使用Cloudera虚拟机搭建开发环境
/ x/ C: \* [! `( e; Z3 z3.3一个MapReduce程序的组成
2 |. d6 `) E* E/ O5 U$ ]3.4第一个Hadoop程序
. ~: g) d0 p7 k3.4.1以本地模式运行程序的必要条件. j- w8 j( c3 f+ \+ d4 N; B
3.4.2使用旧API编写的单词计数程序
( B5 J7 _ V& }0 \9 e3.4.3构建程序
: h& k" S7 ?4 n Q) V' B3.4.4在集群模式下运行单词计数程序" X# L; u! D c" z$ g' ]
3.4.5使用新API编写的单词计数程序
/ {: C, ^, {1 j) N# j1 }( \3.4.6构建程序
5 s8 P" ^2 d& l3.4.7在集群模式下运行单词计数程序 Y) F3 \; E) d% t' Y) o
3.5Hadoop作业中的第三方函数库
% d0 L' y1 \- D4 @3 R3.6本章小结
5 J/ k8 y, B6 A( C第4章Hadoop系统管理
! v# u- s1 ^/ y! H) s4.1Hadoop的配置文件' B( P. @$ C% U+ ]' J( f) v/ ~
4.2配置Hadoop守护进程
- a' U* m& a8 d2 B4.3Hadoop配置文件的优先级
! ~2 t9 ?8 J2 q- C1 I. f4.4深入探究Hadoop配置文件3 s) d9 q) J' l8 Y$ j4 e# _
4.4.1coresite.xml
; S& Y9 k5 ^/ G8 ]7 l8 E4 c& _* D4.4.2hdfs*.xml8 e* |, M: ]% _. i' y4 g' \
4.4.3mapredsite.xml9 T* Z* b$ ?0 _+ A: J- C2 s) V
4.4.4yarnsite.xml
# K" v0 d7 b6 n! p* W4.4.5YARN中的内存分配. a9 i5 x X- j! y0 H
4.5调度器
. ~) ~. @) A. y7 N9 f$ ]4 B4.5.1计算能力调度器
9 A/ v' p/ v7 U7 B; Y4.5.2公平调度器 P' ?; O. F3 T' a1 S1 C' {
4.5.3公平调度器配置
2 s3 k7 h' C& k. b5 w4.5.4 yarnsite.xml 配置
% B$ F- G- d9 U' {8 ?, h, g3 y4.5.5策略文件的格式和配置' g3 M" X4 _. d8 D. Z
4.5.6按照drf策略来确定优势资源的分配
2 O0 x+ a7 C# M( c* s& J$ _4.6从属文件
; c7 {% L9 m& B4.7机架感知( _3 B& \; E# R" t2 T
4.8 集群管理工具
$ H7 q4 U" J8 ]4.8.1检查HDFS
( O1 |+ ^" R0 j/ S4.8.2 HDFS管理命令行
" p0 t7 D2 {0 D* D' [$ @4.8.3 均衡HDFS上的数据分布3 Q0 E# [. b/ }. p3 J, d3 r
4.8.4从HDFS中复制海量数据$ S* [. l# g9 ]. c2 r. D" N
4.9本章小结
1 `/ q. i x4 Q' A' D% ^0 ?第5章MapReduce开发基础
! d2 A6 P: w {2 {0 f1 o: y9 o5.1 Hadoop和数据处理! p# P! p% V6 `
5.2 航空公司数据集介绍
& M+ B/ [; E3 u. y7 Y5.2.1 准备开发环境
/ L8 t* E7 v* ]$ @0 M) ]5.2.2 准备Hadoop系统2 j5 t) s6 C, |( j$ \: N
5.3 MapReduce编程模式/ D# a. S9 b% n
5.3.1 只有Map阶段的作业(SELECT和WHERE查询)1 i. \7 G4 O7 q) g; g( L% b* X
5.3.2 问题定义―SELECT子句2 E' F) }$ }5 {- ~
5.3.3 问题定义―WHERE子句
: Y# I7 Z2 p6 h6 U+ k. ?- S5.3.4 Map和Reduce作业(聚合查询)
0 h: r+ m0 O6 ]! @1 \3 Y+ i: ]5.3.5 问题定义―GROUP BY和SUM子句$ V! H; R6 V: {5 D& u, T* @
5.3.6 应用Combiner提高Aggregation性能
7 d9 ?# c" r' m' q( _5.3.7 问题定义―优化后的Aggregators
& a8 D( \. a$ w% `" H5.3.8 Partitioner的作用* ^( j0 a$ I( g. c& B; q' m, `
5.3.9 问题定义―按月分离航空数据/ {! n! I! t- r# Q! ^4 a$ x
5.4 综合分析
, d4 |1 C) ]. H1 C5.5 本章小结
6 ]- E8 i) ?& n# |第6章MapReduce开发进阶' B! V( b* o9 D- W& [
6.1 MapReduce编程模式: O# a( w6 H6 l$ |) ?5 ]# p
6.2 Hadoop I/O 介绍
- y. C8 M G! J- W; v9 \6.3 问题定义―排序
* E, A" ?) U; @6.3.1 主要挑战:全排序" N1 L0 g5 a( ~+ W+ H! O9 k6 v
6.3.2 在Cluster中运行Sorting作业/ ?$ w. z% ~ B* c
6.3.3 仅根据Writable键排序
; P; k" I% C0 ~7 A: a6.3.4 根据排序回顾Hadoop的关键特性
1 S) Q: d. f' o' W6.4 问题定义―分析连续的记录# G7 i; ]4 h7 R9 r
6.4.1 支持二次排序的重要组件. J" p7 p( [7 H& H' e
6.4.2 在没有Grouping Comparator的情况下实现Secondary Sort" o' t o @% G8 i
6.4.3 在Cluster中运行SecondarySort作业) _! v3 q! l8 {# k; i9 P
6.4.4 利用Secondary Sort回顾Hadoop的关键特性
! V8 [7 w8 P+ s6.5 问题定义―使用MapReducer进行连接
* T T5 G0 G8 N6 q- l; P6.5.1 处理多输入:MultipleInputs 类
- X: R( m) ?5 B; t5 N6.5.2 具备多个输入的Mapper类4 P& ~8 e) P$ K. {4 s
6.5.3 自定义 Partitioner: CarrierCodeBasedPartioner. W" ~! q: O; m# e2 b' k* @
6.5.4 在Reducer中实现连接' F% C$ x, ^4 C/ b* E5 o2 R
6.5.5 在集群中运行MapReduce连接作业6 W# C, T1 |% r' A: a5 `
6.5.6 探讨与MapReduce相关的Hadoop主要特性
( W ?' j) u% n; H, d6.6 问题定义―使用MapOnly 作业进行连接
( h5 f) A! ~2 K! M; R2 ]: v( a6.6.1 基于DistributeCache的解决方案7 b0 e' C7 w: B% A G
6.6.2 在集群中运行MapOnly的连接作业8 X) ]+ W% c7 `. @$ M6 f
6.6.3 总结探讨MapOnly连接时的Hadoop关键特性9 k. P4 T& M. e- e! d) [9 I7 l) d
6.7 在MR作业中保存结果到多输出文件
' V3 s7 i& `6 ]5 N& {) q6.8 使用计数器收集统计数据
# `- G6 B2 B( X8 X7 v# N6.9 本章小结# x! h+ _6 U. H' b# b
第7章 Hadoop输入/输出
; s9 z5 w/ x/ o& ]. H7.1 压缩方式
9 d2 |: a/ m3 h1 H+ ~8 s7.1.1 压缩内容的选择
0 V4 V8 f, Q( R5 d7.1.2 各种压缩方式9 d6 p" ]4 z' t" [& Q
7.1.3 配置压缩方式/ |; g* S! H d3 W* @
7.2 Hadoop的I/O处理过程内部
) ^6 s1 S: p2 A- s3 X- }: ?4 C7.2.1 Inputformat
6 r* i2 r( f4 A! o9 p7.2.2 OutputFormat
8 x: \$ h8 `6 _" L: J7.2.3 自定义OutputFormat:将文本转换成XML- U& ^0 E$ z# Z6 }0 E
7.2.4 自定义 InputFormat:使用自定义的XML文件1 r9 F" a0 c# P! h' j9 b6 |
7.3 Hadoop文件3 w4 v2 ~# L) k" {6 k% m' E
7.3.1 SequenceFile
/ y, z o5 `7 _ R7.3.2 MapFiles
/ s# J. O8 ~3 c/ G7.3.3 Avro Files0 z4 F3 J- k# |# O4 {6 q3 f
7.4 本章小结5 J( T }2 p/ X3 l7 r! Z( P
第8章 测试Hadoop程序
" j7 `# c7 ~$ T J- w8.1 回顾一下单词统计的程序
* J+ y/ _; d7 a) P0 h0 |8.2 MRUnit概述6 E3 d- X1 M* ^% q
8.2.1 安装MRUnit
7 v8 d0 X; n6 ?6 h5 E6 u5 b8.2.2 MRUnit 核心类& [) Y! J$ P8 q
8.2.3 编写一个MRUnit测试用例" W' `' ~/ _$ A v; |$ L* o
8.2.4 测试计数器
+ _/ M1 g. l' j* ^2 F8.2.5 MRUnit的特性
4 P& Z# Z9 O9 `8 c5 g/ \6 {8.2.6 MRUnit的局限性, }) a. f c. z# t! R
8.3 用LocalJobRunner测试
3 d2 P2 {6 Z e, F7 f8.3.1 setUp( )方法
7 Y0 X4 s, z1 V- i! g6 ^ E8.3.2 LocalJobRunner的局限性1 z" h$ g# |; v3 f, P! h
8.4 用MiniMRCluster测试
8 e/ w# A j+ E/ |- P# K3 a+ m, ]6 m8.4.1 配置开发环境) U% O9 T. J. j0 y
8.4.2 MiniMRCluster例子# T, `5 B9 A4 _7 c
8.4.3 MiniMRCluster的局限性
/ M1 k: D2 g+ }; k8.5 对访问网络资源的MR作业进行测试
' F$ t! ]; K/ m8.6 本章小结
2 `( Y" o! E( q第9章Hadoop的监控" y* D5 j9 O4 q, l4 y
9.1 在Hadoop MapReduce Jobs中写日志消息/ s K0 `, C% \' V- r# s
9.2 在Hadoop MapReduce Jobs中查看日志消息
3 Z: d# P& ~- H7 K( ?4 ~9.3 在Hadoop 2.x中使用日志管理
, _0 A9 p/ x& q9.3.1 Hadoop 2.x中的日志存储
5 r N m; k* l, G3 P( B9.3.2 日志管理提升+ F' A8 f+ ]" t# }4 F" B4 w% p
9.3.3 使用基于Web的界面查看日志; u6 _4 l' y5 ?7 J: I3 T
9.3.4 命令行界面
- h O4 T0 {6 p. \6 L5 H# n9.3.5 日志的保存
" ^/ A% Z! `' V* |5 ?& A9.4 Hadoop集群性能监控! s) y2 g* i) P9 O: ^
9.5 使用YARN REST API
( M0 V8 x+ w: B) m9.6 使用供应商工具管理Hadoop集群
. X4 K2 D+ {4 Z. e. ~2 O! }9.7 本章小结! Z* w# L# t, a1 P r2 Q
第10章使用Hadoop构建数据仓库
- ? h. w! [8 z! ~' a+ M10.1 Apache Hive$ `4 j6 J& _ ^2 a0 H
10.1.1 安装Hive3 c* P9 ]. @7 M: i% P
10.1.2 Hive的架构
( a, w0 [& |6 m. A; l( l4 D10.1.3 元数据存储
/ k" m6 u' i, c' P0 Q& U8 m10.1.4 HiveQL编译基础3 z$ P, n/ h O5 e: H3 u, ^0 Z
10.1.5 Hive使8 W! c5 Z) N7 ~. b! n
……4 Y1 N3 N' S9 r
第11章 使用Pig进行数据处理
% w% H$ n. @# {" \6 k第12章 HCatalog和企业级Hadoop
2 M$ C. M! m D- z- h; r第13章 使用Hadoop分析日志
3 r2 a" ]2 p' }: H/ n/ r; \第14章 使用HBase构建实时系统
a' A Z$ n; P6 N第15章 Hadoop与数据科学9 m: n# _$ u+ C
第16章 Hadoop与云计算
0 z. i& T0 K" R2 J第17章 构建YARN应用程序
- {, ?3 w" @! N. [4 F! H, A9 j" }+ n1 Q+ ?
) E9 g! Z" P( ]: Y
百度网盘下载地址链接(百度云)下载地址:java自学网(javazx.com)深入理解Hadoop(原书第2版)PDF高清电子书百度云.rar【密码回帖可见】
1 i0 ]& Y# f4 z4 t$ `+ q
* N5 t3 F( y9 K. k, y5 @- i- b. a% Z1 k+ ]5 N0 J
|
|