|
课程介绍:
. @8 E. K$ w% d r! p ^' @) }大数据,这是一个言必谈及大数据的时代,到处是大数据论坛,连很多企业都要准备搞大数据,在不学习大数据你就out了。9 A! Q0 g7 w0 `& R1 V
从Hadoop兴起的短短几年中,计算速度和效率已经不能适应的数据增长,从而出现了更为流行分布式计算框架,Storm和Spark, 分布式计算框架从离线计算到现在的实时计算和内存计算。Spark自从成为Apache顶级项目以来,版本更新越来越快,短短两年来就发布了十个版本,目前最新的版本是1.4,Spark SQL的成熟,DataFrame API出现,以及R API引入Spark,Spark的体系结构也越来越完整。技术更新越来越快,你想跟上时代的步伐,那么跟我来吧,一起学习Spark源代码导读,从代码入手,在实际的项目中能更快的解决问题,更深入的理解Spark。本课程从主要是分析Spark 1.4的源代码。1 G* X$ A/ X7 g
& f/ c6 K- F/ K' a3 W
目标人群:
' w) U1 h1 }$ w4 l7 _3年及以上Java开发经验或Scala开发经验,偏向后台开发的Java工程师,以及Java软件架构师,需要懂分布式系统,Hadoop,Hive等经验,具备较强的编码能力。课程对于Spark初学者,Spark开发人员及Spark运维人员都具有比较大的学习价值,特别是对于想从源代码深入研究的人员有更大的帮助,可以快速理解Spark的运行原理。
( H7 W, r- @$ h: y( g( D# Q" z& r O7 ?, Z
课程大纲:# P2 B# p1 r# s( m4 H- R7 P
第一课 Spark源码概述和开发环境准备5 b$ }9 N7 L& p+ m
第二课 从WordCount引发的代码入口( [# }; T4 i6 P' C4 G9 C8 S
第三课 作业提交及执行(Stage,DAGScheduler,TaskScheduler) ?; H; F6 y' c: B [4 W |: \: n3 C
第四课 分布式缓存,WEB UI和Standalone
3 |( `: W; e( ^, D1 t2 |第五课 Spark Streaming/ d" i% e4 ^+ R) S/ j
第六课 DStream流数据处理及容错分析$ Q0 j: z! @ q& x, M
第七课 Spark Streaming的实例应用
( w1 x* i y7 g8 M第八课 Spark SQL,DataFrame
4 h5 G6 F' ~" L第九课 SQL解析引擎,优化和执行引擎3 I! Y% t) {! f0 X. t/ K) D# O
第十课 Spark SQL CLi and Thrift JDBC/ODBC server
! {# ^; x ? u+ w* w第十一课 Graph计算框架- u% m( q1 D# {6 Z. i( |+ T6 {
第十二课 SparkR和MLlib机器学习所需基础:
2 m3 W3 r% n% C; f! O6 ^+ Fjava4 c8 i( I: x8 T% y2 a' ?
scala
; r f5 m Y ~5 D" r3 H# mhadoop- E$ f6 C" e& X4 t
! y6 G }" C# Z' R9 O
准备环境:
5 @: M7 w+ p: I4 i- n& GCentOS或Red Hat,eclipse或IntelliJ IDEA, Scala,JDK,Maven,sbt,Hadoop& a1 i. t; x6 Q9 `, Q
0 V" _8 W- u! @. s4 R3 `
收获预期:+ I. n- k; I, N& T$ Y
深入理解和研究Spark及修改Spark代码的能力。
$ Y E K3 c3 w
" q# l: u7 r6 x& d5 Z9 ^+ C% C4 U' m- @1 c
6 W' ~) I; ?9 t q0 [+ c9 k& W6 T! h
& ~5 R$ k+ Z8 a' G0 W' ]资源下载地址和密码(百度云盘): [/hide] 百度网盘信息回帖可见
, C" H2 v) ~5 L7 D5 P: x$ B% O. N4 R* \3 N1 Q
; \5 c6 G, `8 j' {" i
* S! L, q. }7 m9 ]本资源由Java自学网收集整理【www.javazx.com】 |
|