|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《Spark高级数据分析》7 N, a8 ?! T C# }
java电子书推荐理由:Cloudera公司数据科学家团队携手打造,教你用Spark进行大规模数据分析.本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。
* [( q8 E8 z$ z* }" D0 G* \ N) X* S9 o9 ^! y
作者:[美] 里扎(Sandy Ryza)[美] 莱瑟森(Uri Laserson)[英] 欧文(Sean Owen)[美] 威尔斯(JoshWills)
! b! z4 l2 _: q0 u* K+ ~8 C出版社:人民邮电出版社
: x% n3 g/ X1 {4 P出版时间:2015年11月. C% M3 L) b& J2 {" H: q: u
d7 D% {# ?+ R
# l7 ]: e8 W" ?- k% }% G: U& a4 I4 N
+ d( x- W4 s [" ?
# w% M! h; [" Z( r% y( d$ ? A# A
java电子书目录:
, B5 _% z+ c' ]2 I0 o! Q4 t8 \; f$ W' }
第1 章 大数据分析
, o. w- A' L1 L! Z1.1 数据科学面临的挑战 4 [; i; V7 h6 U( a! c$ V
1.2 认识Apache Spark 2 t' w- x# v, F2 h- y8 {
1.3 关于本书
5 @8 M+ f# {) Z% n第2 章 用Scala 和Spark 进行数据分析
. o+ E" l" H; w$ S2.1 数据科学家的Scala 7 { K* ^' P6 L- Y
2.2 Spark 编程模型
, s$ m8 d; X- w. x9 A9 x7 h2.3 记录关联问题 " |& M' a5 i6 c9 o$ L
2.4 小试牛刀:Spark shell 和SparkContext
! u% z! @2 @* w8 l ?2.5 把数据从集群上获取到客户端
; [6 T: Y2 O; Q3 A' l' H$ |2.6 把代码从客户端发送到集群 ( e2 j4 }2 |1 d% \( m2 F, E' b' r. b; r$ `
2.7 用元组和case class 对数据进行结构化
1 q4 T5 r' x! P8 y' p0 i7 f' Q/ Y2.8 聚合
+ w7 _ N' x a! k% M) [2.9 创建直方图
' _4 b: O. l: Z* x. X: t" b2.10 连续变量的概要统计
% P# ~9 x/ R. F. h! f2.11 为计算概要信息创建可重用的代码
- G; g$ d! j2 `" j1 ]7 x& @; U2.12 变量的选择和评分简介
' z* S. a& v" e1 m( R2.13 小结
- i2 e& ?$ W: l' y! V8 O第3 章 音乐推荐和Audioscrobbler 数据集
4 Z, C7 ]# S- G, w# R8 ^! `9 K# k3.1 数据集
5 @$ S4 k. {) t3.2 交替*小二乘推荐算法 ) h1 D, N) c3 ~: p6 I7 ]
3.3 准备数据
! ]. }% G$ [! u. }# H* O! z; W3.4 构建**个模型
' }" h) X7 b+ t5 o3.5 逐个检查推荐结果 ( U+ C* y1 r8 j: i, e- H. B
3.6 评价推荐质量 # @$ M7 a4 c& _
3.7 计算AUC + m" H7 [" _2 d1 D
3.8 选择超参数
8 m! A7 }+ P9 p+ f" {3.9 产生推荐 4 b9 h: K5 t4 |' N& ?- z( y8 \
3.10 小结 , p6 O9 N3 c9 m* ~$ n9 d
第4 章 用决策树算法预测森林植被
. _/ e7 T& n( ^( i$ L4.1 回归简介
% L# |7 u: N/ U3 q4.2 向量和特征 % ]- ^) t" P3 [) \7 u
4.3 样本训练
7 F2 T( U( N0 I# H4.4 决策树和决策森林
" N$ l# M# G7 k( l' @3 Y+ f4.5 Covtype 数据集 9 S+ d* W7 R5 X$ ?8 k
4.6 准备数据
$ \" Y& N; q, l2 a! ~: L* W4.7 **棵决策树 # s, g, |; M" D& J
4.8 决策树的超参数
( V4 c# D9 r* J4.9 决策树调优
, i s+ J( c+ `" \4.10 重谈类别型特征 # `" W. D0 F: Q+ k& t* V
4.11 随机决策森林
1 U1 ]8 k' ]* T9 S4.12 进行预测
0 \$ V. Q9 y$ C/ @* ^% t, S4.13 小结
' u$ f- y# Q; ~7 W x1 e( F第5 章 基于K 均值聚类的网络流量异常检测
& S3 G% b. I" B) H9 u5 X7 I& [: E5.1 异常检测
+ y' k# Z4 L/ t+ t' `: _ {( B& Q5.2 K 均值聚类
. b4 C7 g5 g1 B- c2 V5.3 网络入侵
, C8 R* j! F2 [$ p+ C [' k0 i! `5.4 KDD Cup 1999 数据集
( z( W. C; P0 W1 h5 w" @& }5.5 初步尝试聚类
* p* C# m: H% r. D- W5.6 K 的选择
6 d e2 A$ g/ [6 k7 o5 u' m5.7 基于R 的可视化 ! E7 \. G7 Q# G7 Z0 s7 Z( Z
5.8 特征的规范化
3 M& R8 \' A, g" v5.9 类别型变量
# c Z* e- Y4 p. A+ |0 B' S5.10 利用标号的熵信息 0 V! _% m" Z5 {: T
5.11 聚类实战 8 I& x! W! W/ g# \
5.12 小结 * _6 P" Z- P8 C0 h6 @( k
第6 章 基于潜在语义分析算法分析维基百科
' H4 V! {0 `9 w4 {. f6.1 词项- 文档矩阵 ; `+ f) M; l6 b; S% V8 z
6.2 获取数据 : \3 `1 q6 O" B6 t1 s
6.3 分析和准备数据 4 j5 ?0 X- a% A( L7 X* f2 w
6.4 词形归并 E' R5 ?) `4 Y; g
6.5 计算TF-IDF
4 r) i& L7 |6 _0 m6 t# j6.6 奇异值分解 $ M7 _/ j8 e+ y) I" T3 f- _
6.7 找出重要的概念 ! L, Z) w3 H9 U! x
6.8 基于低维近似的查询和评分
; ?5 c* M _. m6 ~) d4 u2 q6 ~6.9 词项- 词项相关度
1 o4 t+ Q5 S2 D/ A K6.10 文档- 文档相关度
4 ?- H1 Q" r8 U5 k; ^$ Q/ n6.11 词项- 文档相关度
/ g3 J9 R! X) B2 L7 w6 u' C5 ?6.12 多词项查询
3 M, ^+ ^$ N* ^6.13 小结 ) t9 V/ i' `: ]0 p
第7 章 用GraphX 分析伴生网络
$ n, w: t" M0 p* r& C7.1 对MEDLINE 文献引用索引的网络分析 2 \, T: T7 a. |) N% R9 s. `+ H
7.2 获取数据
0 F% |" w& W: t7.3 用Scala XML 工具解析XML 文档
3 K" U" C- p6 v9 y, J$ |7.4 分析MeSH 主要主题及其伴生关系
$ i9 f; M8 A2 N9 Y' R7.5 用GraphX 来建立一个伴生网络 * b5 r* z- W" F* E. t) E# \) B! ~
7.6 理解网络结构 2 J. j( v( P9 a' Q! A' s
7.6.1 连通组件
% S! R! J9 O3 g; @3 h7.6.2 度的分布 1 q5 N {+ A9 o) z
7.7 过滤噪声边
2 H* A' t4 s' h5 k1 I7.7.1 处理EdgeTriplet
% T/ T, E. `* a8 Y7.7.2 分析去掉噪声边的子图
$ E5 H! m% k5 V* e1 h* K) s) e3 `7.8 小世界网络
+ ^ `- g) \: y; N! [2 G7.8.1 系和聚类系数 4 m& A7 Q2 ~. F( d1 @
7.8.2 用Pregel 计算平均路径长度
! G; X/ x2 s; D+ M! j6 H/ k7.9 小结
/ R: x3 P) c# P5 @( o第8 章 纽约出租车轨迹的空间和时间数据分析 8 a# j- s" B9 {2 O$ |' g ]
8.1 数据的获取
) I% L( [2 x1 i) I* @8.2 基于Spark 的时间和空间数据分析 6 b) d+ r9 }5 }% S+ N% s0 J( C
8.3 基于JodaTime 和NScalaTime 的时间数据处理 - o8 B" X# ]4 q: [/ r; d
8.4 基于Esri Geometry API 和Spray 的地理空间数据处理 0 z. G9 t/ T) p" I* C
8.4.1 认识Esri Geometry API 8 j' J0 B( y0 P+ g
8.4.2 GeoJSON 简介
0 P, Q% H! O+ t8 t! G/ {5 K. d8.5 纽约市出租车客运数据的预处理
7 T( t6 K/ i1 d. Q5 W* |8.5.1 大规模数据中的非法记录处理 - j5 M6 _4 N) ~/ x& g; M
8.5.2 地理空间分析 ) E* R ^5 x4 I; g+ E6 ]6 u8 w# f
8.6 基于Spark 的会话分析 , A0 p# P4 k5 A
8.7 小结 $ A( l+ `" P4 G- L0 E
第9 章 基于蒙特卡罗模拟的金融风险评估
" M4 {# e! e: ~& Z/ ^6 x9.1 术语
' q0 K* d$ Z! g- }. ?6 n5 {/ p9.2 VaR 计算方法 , h3 u4 W2 K; c* h+ }3 v
9.2.1 方差- 协方差法
# f6 o7 Q+ y) L. a9 U) _" C3 {9.2.2 历史模拟法
2 a) _( U9 V y# Z& ?9.2.3 蒙特卡罗模拟法
/ |) x0 `6 t" v) i& u8 l, {9.3 我们的模型
+ [# D& `0 [' B4 U- L9.4 获取数据
6 {! w9 b$ a) U' @9.5 数据预处理
- u3 K: Y; Y1 O# l4 d9.6 确定市场因素的权重 , T7 N; M4 A$ @
9.7 采样 " W. @2 A* v2 X) N! Z$ q
9.8 运行试验
4 E6 g4 f3 i. s( h. A! t- i9.9 回报分布的可视化 2 z8 x$ F& S8 S' P* p
9.10 结果的评估 # i( w8 M' m& m0 L' ?
9.11 小结
2 A+ H* @4 z. g8 P. t% S第10 章 基因数据分析和BDG 项目 - p% ]+ K9 q0 }1 i" w0 ^: H# r/ h2 t
10.1 分离存储与模型
: `$ O0 J8 e9 J/ o9 ]% {/ F10.2 用ADAM CLI 导入基因学数据
d* ]+ x5 J8 O' n8 q10.3 从ENCODE 数据预测转录因子结合位点
5 z' N1 u# s% J/ S) F* }10.4 查询1000 Genomes 项目中的基因型
% a: P3 O7 g$ T& U10.5 小结 8 c8 f5 u% n" ^
第11 章 基于PySpark 和Thunder 的神经图像数据分析 / a7 M! ^' f* z0 Z u
11.1 PySpark 简介 4 A, O) Z! z6 K* \
11.2 Thunder 工具包概况和安装 5 y% x# S5 U+ q3 z7 S' ?$ r7 T
11.3 用Thunder 加载数据 ( V+ a2 J2 N. G! ?
11.4 用Thunder 对神经元进行分类
$ F( _: j4 B. F6 r1 j, M2 O11.5 小结
Z2 u' x- E8 B0 P1 s% w6 [. E
4 g Q1 K1 x. O
百度网盘下载地址链接(百度云):java自学网(javazx.com)Spark高级数据分析 PDF 高清 电子书 百度云.rar【密码回帖可见】, B8 k; [7 w/ e) ^# e. R6 X) n
- ]' A, d8 {- u. y3 C& c
8 h( V4 i- u0 B: x( R V) p+ B% t8 y# P2 {6 G9 y, |6 g0 A% J6 ]+ R
|
|