|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《Spark高级数据分析》
% Q: g, T; H; ujava电子书推荐理由:Cloudera公司数据科学家团队携手打造,教你用Spark进行大规模数据分析.本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。
! N* E, S9 w, ~$ I
5 D* \+ }$ q4 E( Y9 u9 \. E: t作者:[美] 里扎(Sandy Ryza)[美] 莱瑟森(Uri Laserson)[英] 欧文(Sean Owen)[美] 威尔斯(JoshWills)& D* L+ O7 ^* h* ]/ a% F6 S
出版社:人民邮电出版社! N3 f4 `( y) X8 s
出版时间:2015年11月
0 W7 q# E6 b9 T( k6 m9 Q
+ V; V: P* P, F1 w
n5 X8 ^, W, Z# v. v
6 P* Y5 A# ?) _2 ?
/ ^# x1 X% P6 {java电子书目录:0 X' h e* _0 V4 P+ b8 Q/ c1 y
3 f2 N; c$ \, m第1 章 大数据分析
; y! c5 b- w" B0 O4 R* d, E1.1 数据科学面临的挑战
0 G( {- \; S; Q0 b' L' l' u1 o1.2 认识Apache Spark / a% g$ g [; r
1.3 关于本书 3 o# L, V4 B# n0 F. O+ Y# a
第2 章 用Scala 和Spark 进行数据分析
4 l, w+ o1 w+ }" o( |+ U! [2.1 数据科学家的Scala
5 b4 B- Z' Z- @1 i* p; y2.2 Spark 编程模型
0 g0 s- a2 a. q9 L( s2.3 记录关联问题
- q% Y' {( {% k1 G3 n( M2.4 小试牛刀:Spark shell 和SparkContext $ ~+ w9 t/ M1 r# y
2.5 把数据从集群上获取到客户端 2 _1 h" c# O1 e D0 {
2.6 把代码从客户端发送到集群 - _9 U: V$ e" I+ Q4 [! ]
2.7 用元组和case class 对数据进行结构化
9 D* S: f) K4 J& @. o2.8 聚合
; F1 ]0 _: F8 c( ]2.9 创建直方图
; `# K- B+ H( ?. B2.10 连续变量的概要统计 ' m g% X) T( ]# f8 O. S, {
2.11 为计算概要信息创建可重用的代码 ; P* b" ^+ D" A
2.12 变量的选择和评分简介
$ Q& f) z. M- U" [0 [0 x F2.13 小结 5 X! e- B0 l/ U
第3 章 音乐推荐和Audioscrobbler 数据集
* w9 o( F6 I7 F; N' Y$ R% t, U( Y$ D3.1 数据集 # }- q ? d. P# |# D4 E# m
3.2 交替*小二乘推荐算法
, t. j3 w w- I" H3.3 准备数据 ( i$ T" O/ X/ X+ P& z- ]3 r
3.4 构建**个模型 0 S( N; }3 ~! T0 y
3.5 逐个检查推荐结果 ( Y2 M6 x2 S+ x; l' l7 X
3.6 评价推荐质量
6 T$ T0 \$ W9 e( Q) m* |3.7 计算AUC
e8 S% i2 \$ m0 H9 \/ r( ^3.8 选择超参数 ; m% h7 o/ t( o) _, m1 C' m5 s
3.9 产生推荐
; j* A* O/ L. f' }7 ^/ m5 f4 W3.10 小结
8 ^4 H) t+ k" C# C2 V$ U' o第4 章 用决策树算法预测森林植被
" e# X$ x+ U" g8 M1 t4.1 回归简介
5 s* o1 A; d, C* G4.2 向量和特征
( T* z: o0 E9 n4 N# s4.3 样本训练 , v4 Y: |) ]2 o
4.4 决策树和决策森林
3 N( M* q( M) Z% D1 b( h3 j0 g: Z4.5 Covtype 数据集 ; H! Y m( G7 o5 w/ o4 \8 J! d
4.6 准备数据 ; s+ H" t1 q% d" a
4.7 **棵决策树 $ r3 j. F$ T+ t3 x1 s6 G
4.8 决策树的超参数
# C2 z0 x" F1 v2 q% J4.9 决策树调优
- a0 E3 U, e% ]! r/ k( X, Z; ^4.10 重谈类别型特征 + H& K2 {5 U2 R. q
4.11 随机决策森林 & `/ b( G9 o( `! T0 V
4.12 进行预测 , |' ^. [# i. e( ]* n0 F6 e) _; O
4.13 小结 / e* ]+ a+ }! X R2 |: m- S
第5 章 基于K 均值聚类的网络流量异常检测
: @4 }4 T9 p1 i' U, H5.1 异常检测 ; j7 A8 I* g# n
5.2 K 均值聚类 : `5 @( E' [, b- k7 X9 V2 |. ] B
5.3 网络入侵
2 d& B6 i4 U$ V- ]# ]2 G9 X W8 A5.4 KDD Cup 1999 数据集
% c3 ~8 [ m/ I7 f: ~5.5 初步尝试聚类 8 I K4 A7 O; z2 Y2 V! ~( R7 `
5.6 K 的选择
* W# ?: }, R+ }3 b5 c& x1 e5.7 基于R 的可视化 $ A; R5 J0 k9 a# m! b0 V
5.8 特征的规范化
6 U. ^+ I3 C7 `7 i; z5.9 类别型变量
$ b6 w1 t, t& v$ f/ k$ o" [% K5.10 利用标号的熵信息
' A3 x8 R, y. y C5.11 聚类实战 9 i+ @6 t3 r2 k0 {! X& b$ V
5.12 小结
2 Z8 U ~% h1 x! \4 {5 l第6 章 基于潜在语义分析算法分析维基百科 4 i8 p' i& W$ Z7 K" Q
6.1 词项- 文档矩阵 6 }; L: X$ h3 q' V8 j2 m
6.2 获取数据
r% l) K% x0 X$ m* y/ O' }; c6.3 分析和准备数据 ( I8 V( `- D) X7 D; q/ ^! E
6.4 词形归并
4 ~5 B; a5 N. N4 ?" W2 k6.5 计算TF-IDF U i* q* e9 i
6.6 奇异值分解 * ~' Q2 Y' u' i6 k7 B& Y
6.7 找出重要的概念
" V9 v; Q/ X G! w$ b6.8 基于低维近似的查询和评分 / P/ J& B& @0 G+ \
6.9 词项- 词项相关度 / F% J6 X( v& ?- P% D
6.10 文档- 文档相关度
5 A4 K* H7 S% |/ m3 S# u6.11 词项- 文档相关度 c, V2 Z9 k$ ?, @$ Y* g
6.12 多词项查询 " C. \5 Y+ P, m# q3 z
6.13 小结 0 n. ^# x+ ^7 S S3 I
第7 章 用GraphX 分析伴生网络 ' G% d: X! h( V, G5 c. x
7.1 对MEDLINE 文献引用索引的网络分析 ; e' N3 z/ d, @: c7 B
7.2 获取数据
' `- M6 n. d# w8 ^, M" q$ \7.3 用Scala XML 工具解析XML 文档 " Q& S: n6 ?4 K/ w1 w; \5 }
7.4 分析MeSH 主要主题及其伴生关系 ( e7 }7 D6 z, _' `9 h
7.5 用GraphX 来建立一个伴生网络
/ y( h& w: |; K. A7.6 理解网络结构
; G: c) p# Q; A7.6.1 连通组件 ' h, n( P' j t
7.6.2 度的分布
Q6 n' @) z4 u4 Z/ ~4 N1 Y/ M7.7 过滤噪声边
3 w( c1 K5 ~! d( v' P% ?5 T- C7.7.1 处理EdgeTriplet & m) q! ?3 y) O& e
7.7.2 分析去掉噪声边的子图
: \3 h4 q- `3 ^$ T4 V# Z* w/ p& {7.8 小世界网络
5 K' ~% C3 j; D, W+ O- Y' o7.8.1 系和聚类系数
- f0 X3 y, X2 t+ |. r8 L, u. S7.8.2 用Pregel 计算平均路径长度 7 J2 O, I$ b# d
7.9 小结
) f7 h! [$ {9 |$ h8 A第8 章 纽约出租车轨迹的空间和时间数据分析 3 V& `9 [* p( t; \2 _/ K I' L7 I
8.1 数据的获取
2 h" Z/ R+ T- q% k; L8 [8.2 基于Spark 的时间和空间数据分析 % {- m7 i& j8 o" o/ `$ A
8.3 基于JodaTime 和NScalaTime 的时间数据处理
! E- Y' ?" Z' ?4 G3 m' Z8.4 基于Esri Geometry API 和Spray 的地理空间数据处理
) M' z: t, T+ j/ `6 Q( w8.4.1 认识Esri Geometry API & z9 {! l- |1 P
8.4.2 GeoJSON 简介 8 m1 R, _5 K( v3 M
8.5 纽约市出租车客运数据的预处理 ; {: B" Q7 S' Y8 W
8.5.1 大规模数据中的非法记录处理
& a' ^& l) V& `% }8.5.2 地理空间分析
3 x5 d G8 r& z, \7 U6 |8.6 基于Spark 的会话分析
1 s6 h( J0 _; I& s. u8.7 小结 / {, j0 b4 K4 e; H, ?1 T+ u
第9 章 基于蒙特卡罗模拟的金融风险评估 / d9 v+ L% M2 J1 X% k7 g3 z
9.1 术语
! H( q2 Y. m3 X" Z9 ?: b6 }8 a% ]. S9.2 VaR 计算方法
d% ?7 N! b: ~ [" d; r9.2.1 方差- 协方差法 6 q+ r$ R7 ?. D: l" G
9.2.2 历史模拟法
7 p8 U# ~1 y. z+ p9.2.3 蒙特卡罗模拟法 6 H( A# d1 A% p
9.3 我们的模型
2 R( m) p# V8 z4 M; W9.4 获取数据
' ]' b7 y5 [* R( f$ M9 T, v9.5 数据预处理
$ ]1 x3 O& ~6 R1 ?# c9 ?9.6 确定市场因素的权重 / D+ ]8 A- P3 m# P4 e9 g
9.7 采样 % k' [: T8 N, n: c- d
9.8 运行试验
& y4 k! R# [+ G. h2 ^# G9.9 回报分布的可视化 % _5 o+ w" O7 y' s o8 J
9.10 结果的评估 . v% E! S" l. L0 Q4 k) y+ x
9.11 小结
1 U9 {" `8 T* m0 G$ v3 X第10 章 基因数据分析和BDG 项目
) r) r2 _: W# f+ x; q10.1 分离存储与模型 3 u! y& D2 W) a2 P3 \) K
10.2 用ADAM CLI 导入基因学数据 4 h: _2 e& g0 i& {8 p0 V) p
10.3 从ENCODE 数据预测转录因子结合位点
& | S: [& \3 Z' |$ t3 ~1 N+ d) s8 F10.4 查询1000 Genomes 项目中的基因型 ! e) ?2 c8 x& y1 Y+ Z ?5 U
10.5 小结
, t2 c* s( k( d第11 章 基于PySpark 和Thunder 的神经图像数据分析
% ~0 t' R" D/ D* _# p- }6 B11.1 PySpark 简介 " c9 Q0 I! F. {& C1 w" x' X* F4 u
11.2 Thunder 工具包概况和安装 0 w: n/ W& R' N: d
11.3 用Thunder 加载数据 ; \% ~- k* ]/ M" N% {
11.4 用Thunder 对神经元进行分类
6 q: s9 h: O9 L# j% c' w- K$ @2 n* N11.5 小结
( t- Q9 B9 d$ \4 W
6 D: ]& p+ x- V b$ ?( {: {& B: s& O. u3 T0 M0 ~% U5 O2 z
百度网盘下载地址链接(百度云):java自学网(javazx.com)Spark高级数据分析 PDF 高清 电子书 百度云.rar【密码回帖可见】
" B7 X5 N( X7 A* l( @5 h! s. y
& b+ U) X4 O! N, s* T
/ R0 `3 w4 U* D* Z; V. F2 c; R0 L" L' s) e1 i3 B7 v
|
|