|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《Spark高级数据分析》6 [3 W5 P' _4 Z0 f
java电子书推荐理由:Cloudera公司数据科学家团队携手打造,教你用Spark进行大规模数据分析.本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。7 g! i$ y& M7 C( a8 B+ c
+ K# ]- D( V: `1 f2 j c- ]作者:[美] 里扎(Sandy Ryza)[美] 莱瑟森(Uri Laserson)[英] 欧文(Sean Owen)[美] 威尔斯(JoshWills)
% P! K/ g3 ^/ F" `出版社:人民邮电出版社
/ r/ U7 `7 a/ ] d, `$ Y出版时间:2015年11月! C" w& x; p! [, V& Y0 i, U
% e+ S7 C: U- J5 }+ v! W! Q& C/ B9 B; `
3 g* u+ c5 p& V3 Q* p/ Q+ }& z
4 u8 ^( \7 S* \; |- ljava电子书目录:
|; _' U* b; |6 ~) G6 p
8 q# Z! Z1 |+ W第1 章 大数据分析 / ^' q s( L) J0 p
1.1 数据科学面临的挑战
4 U5 j" l1 s# V. P1.2 认识Apache Spark
: l$ g. l( W1 Y) ?1.3 关于本书 9 _6 Y: w7 ~: Z- j. n
第2 章 用Scala 和Spark 进行数据分析 " {/ X9 H3 l) a
2.1 数据科学家的Scala
( k3 Y# i+ [/ G% w2.2 Spark 编程模型 9 _) N6 r7 m" D6 \, F
2.3 记录关联问题
8 `9 q: V" n1 ~. ^2.4 小试牛刀:Spark shell 和SparkContext
" f) L* A9 b5 t2.5 把数据从集群上获取到客户端 % n( q; l) f( @) q; P
2.6 把代码从客户端发送到集群
: ]1 A! B n( ^( r2.7 用元组和case class 对数据进行结构化
$ I6 p# A! W# y8 I- h5 o3 b4 r" g- U6 K2.8 聚合 % ~" S0 p4 ~* N, g1 Z6 D7 T- X
2.9 创建直方图
8 W$ |$ Y9 i4 z/ r) I. W- _2.10 连续变量的概要统计 ( d3 X4 k/ T, o8 u) }. j) Q- A7 V
2.11 为计算概要信息创建可重用的代码 1 D0 ~8 ]' Y r2 ^6 T
2.12 变量的选择和评分简介
% y! \. i: k/ y* n+ Z2.13 小结
# L+ ]! Z( c0 f- [第3 章 音乐推荐和Audioscrobbler 数据集 $ I0 s* ^, }5 d
3.1 数据集
" U( @" k) i F" W, h) j1 k' ^3.2 交替*小二乘推荐算法 + `! l, v, H; S5 ^
3.3 准备数据 7 n0 m. n2 z( a* C$ @4 B/ a1 a
3.4 构建**个模型 3 D; C" j4 I7 M
3.5 逐个检查推荐结果
: i! ?4 l7 B- M/ O& ?3.6 评价推荐质量 5 T# ?0 E$ `7 I! l. v! x% D" C' l
3.7 计算AUC 5 k& q2 G. |) V( v7 r! z1 p
3.8 选择超参数
2 ?/ B1 Y4 s# Z/ z/ L3.9 产生推荐
- s8 p5 v! Z7 ?2 ]# X3.10 小结
) o% d1 e. A& W& \, t6 T第4 章 用决策树算法预测森林植被
! Y& t. T% D* w8 q {3 Q& P4.1 回归简介
- N+ u; m3 o0 k% j4.2 向量和特征 6 ~+ r$ ]- Q5 ^: }
4.3 样本训练 , v: L z5 H& f6 v* v
4.4 决策树和决策森林 4 c9 U) x& c: j: R
4.5 Covtype 数据集 & k) f/ q/ p& o% N5 @1 G
4.6 准备数据
8 o) f2 c: r8 f" i- F) P" c# m4.7 **棵决策树
, \" J0 ]2 y* k" M4.8 决策树的超参数
% p! Q t6 z1 H' m6 h9 @+ g4.9 决策树调优 C. E( r# S3 F! ~+ Z( ^
4.10 重谈类别型特征 L) ?/ O( E* V: s" j5 s/ }
4.11 随机决策森林
. H$ M! F% v6 @: n0 n4.12 进行预测
0 X: ^( {: k% Y$ p4 l$ K! C$ v4.13 小结 : j( p( q0 ^1 `7 X1 s6 \& k+ }
第5 章 基于K 均值聚类的网络流量异常检测 ; o6 w/ v& [+ h3 i% |* U- r
5.1 异常检测 * B! v: D7 b: |
5.2 K 均值聚类
& b: O" D( x2 ?, [0 m5.3 网络入侵 ; Z0 w8 \7 M0 H1 b' M
5.4 KDD Cup 1999 数据集
1 F# O: N4 s4 \# s6 z& F5.5 初步尝试聚类 2 b4 d9 a5 h8 _. r% I: ? J6 w
5.6 K 的选择 ' x* y- w( ]- l: V" B
5.7 基于R 的可视化
+ _/ w& A* [+ b: y% {4 z, R' z1 ^5.8 特征的规范化 & w, E3 F6 D8 Z: [
5.9 类别型变量 5 r0 {* }. C; C9 z" A
5.10 利用标号的熵信息 - m2 e: O6 Z: I! t% u2 z
5.11 聚类实战
; D( K* w5 n {5.12 小结 ( {4 M. R% D: m0 u0 M$ [: [
第6 章 基于潜在语义分析算法分析维基百科 8 V% w5 S& U, z9 M- U3 \0 w* V4 U
6.1 词项- 文档矩阵
# {) R, c! I! z, U. u6.2 获取数据
@; o3 [9 x) \; k) Z6.3 分析和准备数据
& g" a1 p9 ~" R5 D9 L% H; {( E6.4 词形归并
" i! @$ o7 d7 g6 c3 r1 J8 ~: C: \( U6.5 计算TF-IDF 3 g1 t+ M7 e4 U1 c( n) O9 d
6.6 奇异值分解
! ~, [# L% n: c: h [* q6.7 找出重要的概念 , O$ n" @8 Y4 w
6.8 基于低维近似的查询和评分 6 q9 h4 [4 E/ g3 U; c
6.9 词项- 词项相关度 ! d, s/ }' C* x/ [
6.10 文档- 文档相关度
( M: Z$ q! t6 r$ c* N6.11 词项- 文档相关度 7 a2 v( p, J. W! N' f: A+ k. l9 n
6.12 多词项查询 # h, N& a# \ g9 I
6.13 小结
1 ~$ F. U/ n* n& J; N( L第7 章 用GraphX 分析伴生网络
& g) q& R9 m7 T7 v# }% X+ o7.1 对MEDLINE 文献引用索引的网络分析 3 O0 I6 H8 y9 D9 T. H. J
7.2 获取数据
9 [' {: L; _6 J. S7.3 用Scala XML 工具解析XML 文档 : V- P# Z, y9 j
7.4 分析MeSH 主要主题及其伴生关系 - j/ A% j% _5 }' k. t5 R
7.5 用GraphX 来建立一个伴生网络 & v: @/ r4 G% s2 o9 }" S3 R" s# r
7.6 理解网络结构 , I9 k4 d2 E/ t K
7.6.1 连通组件 8 q) o; d/ ?0 Q; w1 h
7.6.2 度的分布
4 `; n* l+ p" W. g) F$ V' B$ Y7.7 过滤噪声边 , e- N! X! L- R8 }& o
7.7.1 处理EdgeTriplet
: x: [; |5 \' }7.7.2 分析去掉噪声边的子图
: T* j* |1 Q) w) m& Z X7.8 小世界网络
$ a/ I* J# }5 V) U7.8.1 系和聚类系数 8 T! W4 o. T, J
7.8.2 用Pregel 计算平均路径长度
0 D1 X& Q% ]$ v2 f! E7.9 小结 + K6 D4 y f2 C$ e' S7 ?$ K% A: }3 |
第8 章 纽约出租车轨迹的空间和时间数据分析 5 U# ~2 b$ ?+ S7 B9 Z3 L7 a
8.1 数据的获取 ! l& ~# y' J; A% z
8.2 基于Spark 的时间和空间数据分析 6 V+ k7 U3 |5 z, X7 }3 [
8.3 基于JodaTime 和NScalaTime 的时间数据处理
; E1 q X3 R" s3 z8.4 基于Esri Geometry API 和Spray 的地理空间数据处理
3 l9 @: B$ H! J8.4.1 认识Esri Geometry API 0 u2 `" [. w) {" W
8.4.2 GeoJSON 简介 * [( T- B% Z& Q
8.5 纽约市出租车客运数据的预处理
3 i/ Q( g9 J e! }8.5.1 大规模数据中的非法记录处理
5 Q# l' u& P" O( R5 @% W; ~* ?( ?1 y3 z8.5.2 地理空间分析
5 ?' _! L4 h. |& }' K8.6 基于Spark 的会话分析
! X! z! J9 k8 _" ~: z* L8.7 小结
9 J2 d9 S$ o0 w9 U; t第9 章 基于蒙特卡罗模拟的金融风险评估 7 b# o: Z/ b" a; R* U
9.1 术语 . t' ?+ d: |6 J4 m9 D
9.2 VaR 计算方法
# ]. P4 X" }& f$ h$ W9.2.1 方差- 协方差法
P1 e. A6 S3 U# G+ t& q9 M9 A/ e% E9.2.2 历史模拟法
# t( Q! u; ^7 ~1 o3 Q: M$ E: \' Q9.2.3 蒙特卡罗模拟法
" w+ E; ?' u: b, B/ u& s$ T9.3 我们的模型
; M8 `* A3 }( N& g' |* G9.4 获取数据 : i% J. D% T% z) z# M
9.5 数据预处理
- t. A2 R- a& ]* h+ O9.6 确定市场因素的权重
7 J* T% b' U1 d& `: v, }' l9.7 采样 ; M8 L6 Z6 E% ?, P
9.8 运行试验 $ z$ ]% [# m; h' o" h' e5 R2 Y
9.9 回报分布的可视化 + g# g4 m' k3 a( Y1 S
9.10 结果的评估 * w6 l6 {# W9 L( X2 Q0 F) ?
9.11 小结 7 q5 w' j% z& o4 U) W
第10 章 基因数据分析和BDG 项目
3 @' y8 X; M4 ?# Y: f0 q( F7 W10.1 分离存储与模型 % w7 Z2 n7 h; \( s3 b0 o+ v; ^
10.2 用ADAM CLI 导入基因学数据 . B" c5 @" h5 Y
10.3 从ENCODE 数据预测转录因子结合位点 ' c, Z. Y8 f2 q0 x) H" }
10.4 查询1000 Genomes 项目中的基因型 ) f7 l) V+ i/ K4 X1 g
10.5 小结
" w2 _: p( t, m7 d9 `第11 章 基于PySpark 和Thunder 的神经图像数据分析
- Q% K. [9 R6 W' [+ O# h; G11.1 PySpark 简介 : I# w, \ {* K5 w h8 C
11.2 Thunder 工具包概况和安装 9 u) y" G" v+ I
11.3 用Thunder 加载数据
7 ]: U5 R& B% J5 X11.4 用Thunder 对神经元进行分类
0 ?; l& Z$ N1 P( @4 N11.5 小结 3 ?: Y# D7 w8 a& L
d5 @5 o9 H1 a* r7 y" I
0 X( t: L% A$ r N# q
百度网盘下载地址链接(百度云):java自学网(javazx.com)Spark高级数据分析 PDF 高清 电子书 百度云.rar【密码回帖可见】6 b! [8 i3 r; M% W7 l
* ?3 ^- w1 x. r- p6 I
. E" K3 p! b. z# Z1 s
4 h- c2 p3 b! y% J! r' b; C |
|