|
spark介绍:, @0 t3 d+ h4 a' }( B" A z
2015年, Spark只用了一年多时间,已实现开源到火爆 ,亦逐渐显露出与通用大数据平台Hadoop的分庭抗争之势。在这个大背景下,在大数据领域时代,谁将是独领风骚?Spark无疑是最大的竞争者,无论是 2015 Spark技术峰会 ,还是国内的大数据大会,可以看到中国力量正在崛起,Spark最大的集群来自腾讯——8000个节点,单个Job最大分别是阿里巴巴和Databricks——1PB,震撼人心!同时,截止2015年6月,Spark的Contributor比2014年涨了3倍,达到730人;总代码行数也比2014年涨了2倍多,达到40万行,不但大量的互联网企业已经在使用或者正准备使用Spark,而且大量的电信、金融、证券和传统企业已经开始引入了Spark。& j& [5 K3 P% \
授课对象:6 L2 ~) [- I* O$ [
有Java开发经验或Scala开发经验,最好了解Hadoop,Hive等使用经验。课程对于Spark初学者,Spark开发人员及Spark运维人员都具有比较大的学习价值。
3 M9 Q9 `! e6 w1 a& d+ {/ [! R y9 c! K+ X
收获预期:
/ B0 p+ X9 q' ?8 V* Z" N7 b! X深入理解Spark的运行原理/ `- l3 o& x- |" I0 j7 ~
学会搭建Spark,hadoop集群环境, I: `% f' y) f! c1 f4 L
完全掌握Spark编程基础,了解Spark运维的基础知识5 n) {& q$ y; Q$ }
完成大数据入门,可逐渐转岗大数据相关职位。
# {3 i5 h1 I2 C- i5 v1 h& o6 v, N8 r+ b8 i
课程环境:
$ F0 J. d) o. XSpark版本:Spark1.4" J3 Z9 x* u* C @; U' s, y9 i
准备环境:CentOS,eclipse或IntelliJ IDEA, Scala,JDK,Maven,sbt,Hadoop,hive,建议三台虚拟机。/ A/ Q) t J3 f% q) ]
然而作为一个高速发展中的开源项目,其部署过程中存在的门槛和挑战亦不可谓不大,本课程将主要介绍Spark1.4.0,引领大家进入大数据Spark入门。
3 X' Z$ J! p1 J4 r' ?" _. l" S( ?
课程目录:2 U. U5 `$ U$ O! B, ~
t: Y$ Q) L) P4 D: {- N2 Y6 P
1、Spark生态和安装部署
3 |) y7 I. ]9 g& L什么是Spark
/ r$ T y0 a- y) C' s/ qSpark有什么
! k. g* {7 ^' y2 N: Z8 V3 d安装部署5 D9 g. u0 ^. h$ ^7 v/ ~3 f
Spark安装简介
% Q' J6 j% |4 q! | Spark的源码编译
/ D$ T2 K2 ]6 T6 a Spark Standalone安装1 k9 O- ?; Q9 V7 [7 Y7 M' ~) d
Spark Standalone HA安装 : M; p b4 A y1 K% ?5 z
Spark工具
( z, I4 {' _0 p/ P: E Spark交互式工具spark-shell! u( }4 v, R" L+ ~: Z) d. m: B) E1 W' S
Spark应用程序部署工具spark-submit! f2 f/ V5 ?5 |# H1 U+ }" a- w
1 {" I! O' n+ H- L5 p1 R) u
2、Spark编程模型和解析7 W2 U. ]# H1 I( q) s* w7 p
Spark的编程模型 + J4 |! ^7 t; u8 l/ H8 Z, }
RDD的特点、操作、依赖关系
, c1 q( q: Q4 Z7 C 缓存策略
( I8 o# K/ y. n& m6 D 广播变量和累加器
0 s& { ]5 O; e( O1 n% gSpark编程环境搭建9 c) y4 ^: t; [ _) H/ F
Spark编程实例% `% t/ U4 x; C
: e% `( W s# ^! Y( x0 R3、Spark运行架构和解析' p! j4 u, U( N( V4 v
Spark的运行架构2 E7 O$ G: U# P2 O& `
基本术语/ m) ]- C; o# S$ k/ t
运行架构(DAGScheduler、TaskSeduler、Task、容错性、推测机制、数据本地性)
( Q! d! \4 B, [' Z( k# u5 ^ Spark on Standalone运行过程
; ]: f% `5 n2 k: }' @ Spark on YARN 运行过程/ P3 S+ _' l/ d3 K6 T
Spark实例演示) Q6 U$ }& f5 E, ?" x; g3 X
Spark on Standalone实例演示
: _+ j9 V, o" W0 |9 f Spark on YARN实例演示
6 D. a/ M0 |+ v x. A, R , n6 Y3 X! }' {
4、不得不说的hive
5 X8 w5 L8 p6 j* S9 K; ~" Phive的运行架构
2 e9 Y/ [" `1 X- ehive的安装
% ]% W8 y5 D( B' W* |& j' z9 Ghive的实例演示
7 `5 m9 r; d6 H& Fshark的简介# W, S, S9 {- @ R) Y+ ?$ u
- i! N' ~9 H4 a; ~$ I
5、SparkSQL原理和实践% @" Z' I. m$ W( {$ ^" y! U1 ^
Spark的运行架构
( u; q( n! o' Z& ?6 P, P/ h! i4 V Catalyst
5 U+ L/ i! H/ M/ a5 K4 d- l: f, R sqlontext- J- x8 D' O$ d% D7 X1 Y* Q
hiveContext" ^3 I( m1 g( u( x
ThriftServer和CLI
# q2 \4 M! u( w ThriftServer- u9 p5 ?' C! _5 b3 Z' G$ A! n
CLI5 p! U: V2 ]& M+ t: Z4 X2 I
SparkSQL的实例演示和编程
6 \6 m: B- ?3 b( ?9 A- k spark-shell实例演示
1 D. L1 Q+ W! A: T spark-sql实例演示
# `* B# n' U7 `" M* N) j SparkSQL的编程
+ e7 I0 B/ ?9 \+ {2 e: W
3 h) x: G" x7 A, `9 E7 d5 C% _% L( i6、SparkStreaming原理和实践
' U! g) Y" J3 r6 z# A5 E2 o9 MSparkStreaming原理
1 p* \$ C3 \6 P0 Z9 E7 I SparkStreaming的原理3 Y$ O% ]6 m4 P+ r
SparkStreaming的运行方式
; K- }4 X( w% X4 z DStream的特点和操作) X2 \# \ S, T+ m. t7 j( X8 L
SparkStreaming实例演示
6 K3 Q( c; j: C" ` 网络数据演示5 G; J8 T# m( B
文本实例演示
3 |" P/ V& Q4 b9 i% P Window操作演示
+ U: Q |! {+ o# C5 B$ ?
+ D8 n/ Q$ P3 y3 g7、MLlib入门
$ Q9 X X3 ?( O- w1 J# i, l什么是机器学习# ]9 K1 b- Z3 p9 }1 R8 t3 N
MLlib的架构2 I4 S4 I. d s8 y9 a' |; u
Mllib实例演示4 q: q9 D2 y- N7 W: y8 N
聚类算法演示
- _' T4 f: W) W% ? 推荐系统演示
* c' _$ {+ ~& X! T' n# X) C6 J" ]# w1 Q: n# f
8、GraphX入门$ M+ T9 _" n3 I6 q+ U- l" {
图论基础4 Y. j6 G$ I& w3 t7 s
GraphX的架构
2 C% i0 Q: i0 J9 @8 e% Q3 v0 pGraphX实例演示
; e$ ?8 x9 a. N/ b( c 图的基本操作' Z3 O! B% d4 e! W
PageRank演示
+ J. u8 r! P4 Q0 Y. C! c! R# H2 s# O( `& `
* R7 p$ f2 d& ?% }* l7 k3 j0 N
" I" X( O2 _; N
( E& j& C- ^# \$ ]& M8 B# D# t) M, p$ w9 _/ w9 v, F2 X
$ S. o5 X- M* Y
资源下载地址和密码(百度云盘): [/hide] 百度网盘信息回帖可见4 Y$ c$ P c/ {: B2 O) @3 T
6 [5 @( O8 i; n7 G, @1 Q" d0 U
6 Z1 W8 p F2 u; F
& G( e$ D: E7 a2 L# G9 v7 R2 e本资源由Java自学网收集整理【www.javazx.com】 |
|