|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《Spark高级数据分析》9 B( ]( D; o: j; |# }' @3 L) T
java电子书推荐理由:Cloudera公司数据科学家团队携手打造,教你用Spark进行大规模数据分析.本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。
" U* Y$ Q: \; M" B/ s% y( G9 e3 K1 W9 N. Q6 U" E1 b7 X8 d
作者:[美] 里扎(Sandy Ryza)[美] 莱瑟森(Uri Laserson)[英] 欧文(Sean Owen)[美] 威尔斯(JoshWills)
! d% Y5 D8 r- R/ }出版社:人民邮电出版社$ d) {5 b! @6 K& W0 q6 h
出版时间:2015年11月0 p1 l U. S }% b+ w# }) {
3 u4 \( V+ e( W }* ^, u
) N& g0 ?6 `6 w
6 s4 O T% A5 d \9 V7 t0 F# @0 U( g' p- A
java电子书目录:
" y1 K# ?1 g5 ^0 H, `8 [# M5 \* \0 `, V
第1 章 大数据分析 1 N# O( M1 | b1 R, _, o7 m! @
1.1 数据科学面临的挑战
9 x! _* d9 |! H4 E3 M% h1.2 认识Apache Spark
% y/ j$ O* p( z- J, x% J1.3 关于本书 + t3 I) D3 V: d" y
第2 章 用Scala 和Spark 进行数据分析
4 u$ V; `+ B0 a. p2.1 数据科学家的Scala
?) b; {" f9 s+ R5 _2.2 Spark 编程模型 0 i4 x8 J5 T: n G# x. n5 L: _
2.3 记录关联问题 6 V) m3 i3 |- T7 K8 n- \5 O( Y* O
2.4 小试牛刀:Spark shell 和SparkContext
# }* s# @2 v& ] G0 v; T2.5 把数据从集群上获取到客户端 5 ?! v8 }6 a# f, ?. W0 D8 j
2.6 把代码从客户端发送到集群
& V- ~3 w' K9 Y+ ~2.7 用元组和case class 对数据进行结构化 # Y1 E% @, V1 h* g/ `; I1 b
2.8 聚合
5 x6 k8 J/ H0 A+ z; J+ c6 U1 d& s2.9 创建直方图
3 P; ]: b& d; u6 @2.10 连续变量的概要统计 % @7 l! {+ M1 C
2.11 为计算概要信息创建可重用的代码 3 z; e- w8 g4 q2 @& Q' W1 ?
2.12 变量的选择和评分简介 ( a6 [2 u. u8 A/ D A7 ^
2.13 小结 % N" w. p v' z7 B) S" N7 a1 V
第3 章 音乐推荐和Audioscrobbler 数据集
g0 b9 e6 E ?$ @: s; V* b3.1 数据集 4 e+ k0 z# [4 g. }
3.2 交替*小二乘推荐算法 ! x# V/ z3 y6 R) P- D& d3 v2 @9 g0 ]
3.3 准备数据 0 b7 h; X7 `. f. b5 [! m" N
3.4 构建**个模型 5 y1 M4 G4 i) ~# { P. i7 h0 u
3.5 逐个检查推荐结果 8 A0 V( h1 c# X m
3.6 评价推荐质量
9 Y3 U- C7 `, u7 C3.7 计算AUC
# E& e3 h% e! c+ c) i2 D: X5 T7 S3.8 选择超参数 0 B7 M! z1 p/ A6 q
3.9 产生推荐 3 i6 U; D B4 K' ~7 l$ w
3.10 小结
4 E" P( w9 r* w& u. M- n$ j第4 章 用决策树算法预测森林植被
. {# {' N8 }' y6 b+ R7 Z4 F4.1 回归简介
; f/ Q7 p& D, K0 J) G' N6 a4.2 向量和特征 9 W4 k; d- Q0 k9 F
4.3 样本训练
! c& |4 P ?2 Y2 X8 s) O4.4 决策树和决策森林 / t% n! v* h N) @$ f( b" [
4.5 Covtype 数据集 8 D. W5 o9 k- _. {1 _
4.6 准备数据
/ g: E0 r% v+ Z, g( K4.7 **棵决策树
3 ^* J( }9 D' l% N# c4.8 决策树的超参数
1 g/ r( l% x5 q( V& e, `9 m& j4.9 决策树调优
* j. E4 w: o" n; s. h$ g7 p4.10 重谈类别型特征
" d7 t9 X; J' w4.11 随机决策森林
5 ^0 @" q1 d7 m' F! e6 g( K4 l1 o: _4 y4.12 进行预测 & e& d+ k) r$ I+ V5 {
4.13 小结 " M0 R7 B" J( F4 G7 U
第5 章 基于K 均值聚类的网络流量异常检测 " e, ~2 x; @4 u9 D% r
5.1 异常检测
' h% h/ w0 u' I4 U6 [' o5 I( [5.2 K 均值聚类
. P4 a6 w3 T! p, B! o5.3 网络入侵
, A) U/ L! ^9 A# e N! v( M9 p5.4 KDD Cup 1999 数据集
9 S9 w2 U7 s6 _% K4 r4 V7 o4 @* o5.5 初步尝试聚类
! y, G. b/ c4 U" G, a# P5.6 K 的选择 % A! S- X: j* C/ c# s7 V
5.7 基于R 的可视化
( f, d- m9 N2 l P7 ?3 N' U5.8 特征的规范化
- X' v+ X4 b! d$ n) X# M6 l# T: s5.9 类别型变量
! e5 k8 S! n M1 i# ^! d5.10 利用标号的熵信息
6 U; I3 D, C: k+ c3 |3 K# g5.11 聚类实战
S4 C$ }( S) f( d, g: M4 n5.12 小结 4 ^/ q1 ?# |3 F( W1 y, `% N. U+ ~
第6 章 基于潜在语义分析算法分析维基百科
0 u9 [0 s+ J8 o. s$ Y7 ^6.1 词项- 文档矩阵
5 d% d/ U' ?8 o( O. ~! }% x, Q6.2 获取数据
- v" d3 p. r$ ?6.3 分析和准备数据 # ?% w+ v; g" U$ ?% r. F) k% p
6.4 词形归并
+ z% a1 S9 B! ?5 A/ ]6 F6.5 计算TF-IDF Y4 [! e6 d. q _* J" k
6.6 奇异值分解 , {7 Y% y+ T$ I
6.7 找出重要的概念
; o3 C8 ?1 o/ L8 d: ]( M6 B% u6.8 基于低维近似的查询和评分 * Q0 w; u9 O# |! {6 U7 R3 J5 p
6.9 词项- 词项相关度 7 F( S+ g+ H7 D
6.10 文档- 文档相关度
" l4 W8 M( Z- t8 n( v9 V# |6.11 词项- 文档相关度
& j2 ~- h% q6 }) U6.12 多词项查询 3 y7 ]3 K" i' o
6.13 小结
# l0 u7 d5 O& `; I$ |8 E第7 章 用GraphX 分析伴生网络
/ l; @4 n+ v+ ^6 P) Q. t: R7.1 对MEDLINE 文献引用索引的网络分析 0 c; Y% U6 R7 ]+ A
7.2 获取数据
+ L6 D4 m/ D! d3 s3 [. K, G0 ~8 u7.3 用Scala XML 工具解析XML 文档 # w! E: Y. c8 `+ x5 ?% k1 a8 {4 B( x
7.4 分析MeSH 主要主题及其伴生关系
; m& ~% D8 I. k4 z/ w8 U- O* P7.5 用GraphX 来建立一个伴生网络 ' g+ E" q% g% _0 x5 a9 k% E
7.6 理解网络结构 - o# Q0 M; `& z% Z. W, l
7.6.1 连通组件 ) G+ D5 h+ R( H0 j* y
7.6.2 度的分布 % m* o$ \9 s* l! B
7.7 过滤噪声边 - U8 Z& `! O5 t, ]
7.7.1 处理EdgeTriplet
1 ~; L1 n( g T) u) G( ~" R7.7.2 分析去掉噪声边的子图
1 Y9 H* Q- j9 [. K' P9 x% h7.8 小世界网络 + c/ s9 V4 ^/ a
7.8.1 系和聚类系数
, C! Q! L7 `4 q/ E2 l' E4 l7.8.2 用Pregel 计算平均路径长度 7 H% G$ S# ~2 f3 [, o ]! z4 r* k' t
7.9 小结
1 h1 p2 z+ s& h第8 章 纽约出租车轨迹的空间和时间数据分析 / }' r4 F0 k& V( n5 W$ Y! d
8.1 数据的获取 ' z& l' [5 |0 j. i. i
8.2 基于Spark 的时间和空间数据分析
& n% D( e; h2 A; V ?1 X0 j8.3 基于JodaTime 和NScalaTime 的时间数据处理
/ r& h, g# `" J$ _: Y5 Z- v5 d8.4 基于Esri Geometry API 和Spray 的地理空间数据处理
+ B: a& t, P( O8.4.1 认识Esri Geometry API ; W& Y2 f/ J4 F% V7 \$ J" G
8.4.2 GeoJSON 简介 2 N, i* |, z7 x( L
8.5 纽约市出租车客运数据的预处理 $ R3 a& [5 F. H; U' V1 W |
8.5.1 大规模数据中的非法记录处理 3 @# @6 C+ C) Z" ~. p: Q1 ` w' X8 I# N
8.5.2 地理空间分析 6 L7 y! m& L5 b- g4 S+ f* W
8.6 基于Spark 的会话分析
8 h+ P' u& F3 v8.7 小结 9 [, y( u. n: R& O$ |1 J% x
第9 章 基于蒙特卡罗模拟的金融风险评估 ' p1 q' C- D. L9 ]
9.1 术语
* v7 \" _6 d" _. F9.2 VaR 计算方法 8 r, @. C1 T& X
9.2.1 方差- 协方差法 ; e4 W" k0 I$ |7 C( I+ S& Y: H
9.2.2 历史模拟法
- n4 z2 I5 p' [6 y" h9 n" u3 [9.2.3 蒙特卡罗模拟法 5 v7 \- n/ k. p, I7 I
9.3 我们的模型 9 n( l! Z* k* y' L& v4 G( o9 e
9.4 获取数据
1 p' L7 }$ V7 g0 h' y1 x5 X9.5 数据预处理 $ U9 z" u0 t8 {4 K, ]4 |
9.6 确定市场因素的权重 8 C# E2 H4 i* R/ j8 w3 R
9.7 采样 & g; Q- i6 K+ ]& A3 U0 K# M
9.8 运行试验
! S' |: t/ G3 l/ V8 ^9.9 回报分布的可视化
2 i x5 j) C& |5 ], N- c: U9.10 结果的评估 # h! s. { P( G, h
9.11 小结 & w* P: g; _+ _- |, c+ v
第10 章 基因数据分析和BDG 项目
- |! P; u! K$ z0 ], z& G& F1 I. r$ f10.1 分离存储与模型
" o. B R* |7 i4 ~, n10.2 用ADAM CLI 导入基因学数据
. R3 t' l3 w2 ~4 _10.3 从ENCODE 数据预测转录因子结合位点 8 c) {: l# \5 N0 L% l
10.4 查询1000 Genomes 项目中的基因型 & }$ v$ s4 T9 m- K2 o; L+ F
10.5 小结
8 p! b+ U; E9 c% V1 J第11 章 基于PySpark 和Thunder 的神经图像数据分析 - `1 o0 E* f* b0 O" \
11.1 PySpark 简介
+ }& y5 A! j: b' _! I% W+ O9 f11.2 Thunder 工具包概况和安装 ( ]( c% i/ m+ G0 y* G1 Z5 n7 y4 |+ l
11.3 用Thunder 加载数据 2 Q( f1 w1 r7 c# f5 d$ v5 m
11.4 用Thunder 对神经元进行分类 " z$ c4 y4 m$ F" S ^9 S' G) h
11.5 小结
: w. r" W+ N. q2 D5 B/ e: S% p* } C. C5 N: |0 F g2 _9 A2 E# h4 L' c- P
7 J% r, k! j) K) C& n+ N2 g百度网盘下载地址链接(百度云):java自学网(javazx.com)Spark高级数据分析 PDF 高清 电子书 百度云.rar【密码回帖可见】
! @9 S2 J5 n5 v. L7 z4 v2 G7 ?
$ s' |2 J8 M: F$ H/ _$ u: l& Q' z% Q4 b9 m' d! w
: o" Z. u5 | O8 I, S' J; ?
|
|