java自学网VIP

Java自学网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 12239|回复: 51

【java电子书】Spark高级数据分析 PDF 电子书 百度云 百度网盘下载

  [复制链接]
  • TA的每日心情
    开心
    2021-5-25 00:00
  • 签到天数: 1917 天

    [LV.Master]出神入化

    2039

    主题

    3697

    帖子

    6万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    66471

    宣传达人突出贡献优秀版主荣誉管理论坛元老

    发表于 2017-2-10 12:30:08 | 显示全部楼层 |阅读模式
    java自学网(www.javazx.com)-java论坛,java电子书推荐:《Spark高级数据分析》9 B( ]( D; o: j; |# }' @3 L) T
    java电子书推荐理由:Cloudera公司数据科学家团队携手打造,教你用Spark进行大规模数据分析.本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。
    " U* Y$ Q: \; M" B/ s% y( G9 e3 K1 W9 N. Q6 U" E1 b7 X8 d
    作者:[美] 里扎(Sandy Ryza)[美] 莱瑟森(Uri Laserson)[英] 欧文(Sean Owen)[美] 威尔斯(JoshWills)
    ! d% Y5 D8 r- R/ }出版社:人民邮电出版社$ d) {5 b! @6 K& W0 q6 h
    出版时间:2015年11月
    0 p1 l  U. S  }% b+ w# }) {
    3 u4 \( V+ e( W  }* ^, u
    ) N& g0 ?6 `6 w
    QQ截图20170210122600.jpg
    6 s4 O  T% A5 d  \9 V7 t0 F# @0 U( g' p- A
    java电子书目录:
    " y1 K# ?1 g5 ^0 H, `8 [# M5 \* \0 `, V
    第1 章 大数据分析 1 N# O( M1 |  b1 R, _, o7 m! @
    1.1 数据科学面临的挑战
    9 x! _* d9 |! H4 E3 M% h1.2 认识Apache Spark
    % y/ j$ O* p( z- J, x% J1.3 关于本书 + t3 I) D3 V: d" y
    第2 章 用Scala 和Spark 进行数据分析
    4 u$ V; `+ B0 a. p2.1 数据科学家的Scala
      ?) b; {" f9 s+ R5 _2.2 Spark 编程模型 0 i4 x8 J5 T: n  G# x. n5 L: _
    2.3 记录关联问题 6 V) m3 i3 |- T7 K8 n- \5 O( Y* O
    2.4 小试牛刀:Spark shell 和SparkContext
    # }* s# @2 v& ]  G0 v; T2.5 把数据从集群上获取到客户端 5 ?! v8 }6 a# f, ?. W0 D8 j
    2.6 把代码从客户端发送到集群
    & V- ~3 w' K9 Y+ ~2.7 用元组和case class 对数据进行结构化 # Y1 E% @, V1 h* g/ `; I1 b
    2.8 聚合
    5 x6 k8 J/ H0 A+ z; J+ c6 U1 d& s2.9 创建直方图
    3 P; ]: b& d; u6 @2.10 连续变量的概要统计 % @7 l! {+ M1 C
    2.11 为计算概要信息创建可重用的代码 3 z; e- w8 g4 q2 @& Q' W1 ?
    2.12 变量的选择和评分简介 ( a6 [2 u. u8 A/ D  A7 ^
    2.13 小结 % N" w. p  v' z7 B) S" N7 a1 V
    第3 章 音乐推荐和Audioscrobbler 数据集
      g0 b9 e6 E  ?$ @: s; V* b3.1 数据集 4 e+ k0 z# [4 g. }
    3.2 交替*小二乘推荐算法 ! x# V/ z3 y6 R) P- D& d3 v2 @9 g0 ]
    3.3 准备数据 0 b7 h; X7 `. f. b5 [! m" N
    3.4 构建**个模型 5 y1 M4 G4 i) ~# {  P. i7 h0 u
    3.5 逐个检查推荐结果 8 A0 V( h1 c# X  m
    3.6 评价推荐质量
    9 Y3 U- C7 `, u7 C3.7 计算AUC
    # E& e3 h% e! c+ c) i2 D: X5 T7 S3.8 选择超参数 0 B7 M! z1 p/ A6 q
    3.9 产生推荐 3 i6 U; D  B4 K' ~7 l$ w
    3.10 小结
    4 E" P( w9 r* w& u. M- n$ j第4 章  用决策树算法预测森林植被
    . {# {' N8 }' y6 b+ R7 Z4 F4.1 回归简介
    ; f/ Q7 p& D, K0 J) G' N6 a4.2 向量和特征 9 W4 k; d- Q0 k9 F
    4.3 样本训练
    ! c& |4 P  ?2 Y2 X8 s) O4.4 决策树和决策森林 / t% n! v* h  N) @$ f( b" [
    4.5 Covtype 数据集 8 D. W5 o9 k- _. {1 _
    4.6 准备数据
    / g: E0 r% v+ Z, g( K4.7 **棵决策树
    3 ^* J( }9 D' l% N# c4.8 决策树的超参数
    1 g/ r( l% x5 q( V& e, `9 m& j4.9 决策树调优
    * j. E4 w: o" n; s. h$ g7 p4.10 重谈类别型特征
    " d7 t9 X; J' w4.11 随机决策森林
    5 ^0 @" q1 d7 m' F! e6 g( K4 l1 o: _4 y4.12 进行预测 & e& d+ k) r$ I+ V5 {
    4.13 小结 " M0 R7 B" J( F4 G7 U
    第5 章 基于K 均值聚类的网络流量异常检测 " e, ~2 x; @4 u9 D% r
    5.1 异常检测
    ' h% h/ w0 u' I4 U6 [' o5 I( [5.2 K 均值聚类
    . P4 a6 w3 T! p, B! o5.3 网络入侵
    , A) U/ L! ^9 A# e  N! v( M9 p5.4 KDD Cup 1999 数据集
    9 S9 w2 U7 s6 _% K4 r4 V7 o4 @* o5.5 初步尝试聚类
    ! y, G. b/ c4 U" G, a# P5.6 K 的选择 % A! S- X: j* C/ c# s7 V
    5.7 基于R 的可视化
    ( f, d- m9 N2 l  P7 ?3 N' U5.8 特征的规范化
    - X' v+ X4 b! d$ n) X# M6 l# T: s5.9 类别型变量
    ! e5 k8 S! n  M1 i# ^! d5.10 利用标号的熵信息
    6 U; I3 D, C: k+ c3 |3 K# g5.11 聚类实战
      S4 C$ }( S) f( d, g: M4 n5.12 小结 4 ^/ q1 ?# |3 F( W1 y, `% N. U+ ~
    第6 章 基于潜在语义分析算法分析维基百科
    0 u9 [0 s+ J8 o. s$ Y7 ^6.1 词项- 文档矩阵
    5 d% d/ U' ?8 o( O. ~! }% x, Q6.2 获取数据
    - v" d3 p. r$ ?6.3 分析和准备数据 # ?% w+ v; g" U$ ?% r. F) k% p
    6.4 词形归并
    + z% a1 S9 B! ?5 A/ ]6 F6.5 计算TF-IDF   Y4 [! e6 d. q  _* J" k
    6.6 奇异值分解 , {7 Y% y+ T$ I
    6.7 找出重要的概念
    ; o3 C8 ?1 o/ L8 d: ]( M6 B% u6.8 基于低维近似的查询和评分 * Q0 w; u9 O# |! {6 U7 R3 J5 p
    6.9 词项- 词项相关度 7 F( S+ g+ H7 D
    6.10 文档- 文档相关度
    " l4 W8 M( Z- t8 n( v9 V# |6.11 词项- 文档相关度
    & j2 ~- h% q6 }) U6.12 多词项查询 3 y7 ]3 K" i' o
    6.13 小结
    # l0 u7 d5 O& `; I$ |8 E第7 章 用GraphX 分析伴生网络
    / l; @4 n+ v+ ^6 P) Q. t: R7.1 对MEDLINE 文献引用索引的网络分析 0 c; Y% U6 R7 ]+ A
    7.2 获取数据
    + L6 D4 m/ D! d3 s3 [. K, G0 ~8 u7.3 用Scala XML 工具解析XML 文档 # w! E: Y. c8 `+ x5 ?% k1 a8 {4 B( x
    7.4 分析MeSH 主要主题及其伴生关系
    ; m& ~% D8 I. k4 z/ w8 U- O* P7.5 用GraphX 来建立一个伴生网络 ' g+ E" q% g% _0 x5 a9 k% E
    7.6 理解网络结构 - o# Q0 M; `& z% Z. W, l
    7.6.1 连通组件 ) G+ D5 h+ R( H0 j* y
    7.6.2 度的分布 % m* o$ \9 s* l! B
    7.7 过滤噪声边 - U8 Z& `! O5 t, ]
    7.7.1 处理EdgeTriplet
    1 ~; L1 n( g  T) u) G( ~" R7.7.2 分析去掉噪声边的子图
    1 Y9 H* Q- j9 [. K' P9 x% h7.8 小世界网络 + c/ s9 V4 ^/ a
    7.8.1 系和聚类系数
    , C! Q! L7 `4 q/ E2 l' E4 l7.8.2 用Pregel 计算平均路径长度 7 H% G$ S# ~2 f3 [, o  ]! z4 r* k' t
    7.9 小结
    1 h1 p2 z+ s& h第8 章 纽约出租车轨迹的空间和时间数据分析 / }' r4 F0 k& V( n5 W$ Y! d
    8.1 数据的获取 ' z& l' [5 |0 j. i. i
    8.2 基于Spark 的时间和空间数据分析
    & n% D( e; h2 A; V  ?1 X0 j8.3 基于JodaTime 和NScalaTime 的时间数据处理
    / r& h, g# `" J$ _: Y5 Z- v5 d8.4 基于Esri Geometry API 和Spray 的地理空间数据处理
    + B: a& t, P( O8.4.1 认识Esri Geometry API ; W& Y2 f/ J4 F% V7 \$ J" G
    8.4.2 GeoJSON 简介 2 N, i* |, z7 x( L
    8.5 纽约市出租车客运数据的预处理 $ R3 a& [5 F. H; U' V1 W  |
    8.5.1 大规模数据中的非法记录处理 3 @# @6 C+ C) Z" ~. p: Q1 `  w' X8 I# N
    8.5.2 地理空间分析 6 L7 y! m& L5 b- g4 S+ f* W
    8.6 基于Spark 的会话分析
    8 h+ P' u& F3 v8.7 小结 9 [, y( u. n: R& O$ |1 J% x
    第9 章 基于蒙特卡罗模拟的金融风险评估 ' p1 q' C- D. L9 ]
    9.1 术语
    * v7 \" _6 d" _. F9.2 VaR 计算方法 8 r, @. C1 T& X
    9.2.1 方差- 协方差法 ; e4 W" k0 I$ |7 C( I+ S& Y: H
    9.2.2 历史模拟法
    - n4 z2 I5 p' [6 y" h9 n" u3 [9.2.3 蒙特卡罗模拟法 5 v7 \- n/ k. p, I7 I
    9.3 我们的模型 9 n( l! Z* k* y' L& v4 G( o9 e
    9.4 获取数据
    1 p' L7 }$ V7 g0 h' y1 x5 X9.5 数据预处理 $ U9 z" u0 t8 {4 K, ]4 |
    9.6 确定市场因素的权重 8 C# E2 H4 i* R/ j8 w3 R
    9.7 采样 & g; Q- i6 K+ ]& A3 U0 K# M
    9.8 运行试验
    ! S' |: t/ G3 l/ V8 ^9.9 回报分布的可视化
    2 i  x5 j) C& |5 ], N- c: U9.10 结果的评估 # h! s. {  P( G, h
    9.11 小结 & w* P: g; _+ _- |, c+ v
    第10 章 基因数据分析和BDG 项目
    - |! P; u! K$ z0 ], z& G& F1 I. r$ f10.1 分离存储与模型
    " o. B  R* |7 i4 ~, n10.2 用ADAM CLI 导入基因学数据
    . R3 t' l3 w2 ~4 _10.3 从ENCODE 数据预测转录因子结合位点 8 c) {: l# \5 N0 L% l
    10.4 查询1000 Genomes 项目中的基因型 & }$ v$ s4 T9 m- K2 o; L+ F
    10.5 小结
    8 p! b+ U; E9 c% V1 J第11 章 基于PySpark 和Thunder 的神经图像数据分析 - `1 o0 E* f* b0 O" \
    11.1 PySpark 简介
    + }& y5 A! j: b' _! I% W+ O9 f11.2 Thunder 工具包概况和安装 ( ]( c% i/ m+ G0 y* G1 Z5 n7 y4 |+ l
    11.3 用Thunder 加载数据 2 Q( f1 w1 r7 c# f5 d$ v5 m
    11.4 用Thunder 对神经元进行分类 " z$ c4 y4 m$ F" S  ^9 S' G) h
    11.5 小结
    : w. r" W+ N. q2 D5 B/ e: S% p* }  C. C5 N: |0 F  g2 _9 A2 E# h4 L' c- P

    7 J% r, k! j) K) C& n+ N2 g百度网盘下载地址链接(百度云):java自学网(javazx.com)Spark高级数据分析  PDF 高清 电子书 百度云.rar【密码回帖可见】
    ! @9 S2 J5 n5 v. L7 z4 v2 G7 ?
    游客,如果您要查看本帖隐藏内容请回复

    $ s' |2 J8 M: F$ H/ _$ u: l& Q' z% Q4 b9 m' d! w
    : o" Z. u5 |  O8 I, S' J; ?
    回复

    使用道具 举报

  • TA的每日心情
    郁闷
    2020-12-13 15:17
  • 签到天数: 299 天

    [LV.8]已臻大成

    0

    主题

    445

    帖子

    5016

    积分

    普通会员

    Rank: 2

    积分
    5016
    发表于 2017-2-12 14:47:01 | 显示全部楼层
    谢谢,好书,谢谢
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    2017-3-20 10:33
  • 签到天数: 2 天

    [LV.1]初学乍练

    0

    主题

    4

    帖子

    27

    积分

    普通会员

    Rank: 2

    积分
    27
    发表于 2017-2-14 11:19:48 | 显示全部楼层
    请说一下提取密码 谢谢
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2017-2-15 00:10
  • 签到天数: 2 天

    [LV.1]初学乍练

    0

    主题

    8

    帖子

    46

    积分

    普通会员

    Rank: 2

    积分
    46
    发表于 2017-2-15 00:29:51 | 显示全部楼层
    好好学习了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-11-19 08:58
  • 签到天数: 4 天

    [LV.2]登堂入室

    0

    主题

    19

    帖子

    91

    积分

    普通会员

    Rank: 2

    积分
    91
    发表于 2017-2-16 22:30:29 | 显示全部楼层
    谢谢,好书,谢谢
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2017-2-24 10:56
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    4

    帖子

    17

    积分

    普通会员

    Rank: 2

    积分
    17
    发表于 2017-2-24 11:02:51 | 显示全部楼层
    000000000000000000
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2021-5-3 06:14
  • 签到天数: 451 天

    [LV.9]功行圆满

    1

    主题

    845

    帖子

    30万

    积分

    终身VIP

    Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60

    积分
    307967
    发表于 2017-2-24 14:57:16 | 显示全部楼层
    111111111111111111111111111111111111
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    郁闷
    2017-3-4 17:44
  • 签到天数: 2 天

    [LV.1]初学乍练

    0

    主题

    19

    帖子

    52

    积分

    普通会员

    Rank: 2

    积分
    52
    发表于 2017-2-27 17:39:07 | 显示全部楼层
    进来学习的,分享及伟大。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2017-3-1 13:33
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    42

    帖子

    95

    积分

    普通会员

    Rank: 2

    积分
    95
    发表于 2017-3-1 14:31:08 | 显示全部楼层
    :):):):):):):):):):)
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2017-3-16 00:02
  • 签到天数: 2 天

    [LV.1]初学乍练

    0

    主题

    22

    帖子

    72

    积分

    普通会员

    Rank: 2

    积分
    72
    发表于 2017-3-15 23:30:53 | 显示全部楼层
    感谢分享,谢谢
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|Archiver|手机版|小黑屋|Java自学网

    GMT+8, 2025-1-22 12:52 , Processed in 0.272832 second(s), 39 queries .

    Powered by Javazx

    Copyright © 2012-2022, Javazx Cloud.

    快速回复 返回顶部 返回列表