Java自学网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 7512|回复: 42

使用python3实现Spark大数据分析引擎和任务调度

[复制链接]

该用户从未签到

9

主题

151

帖子

311

积分

普通会员

Rank: 2

积分
311
发表于 2022-6-14 04:18:01 | 显示全部楼层 |阅读模式
本课程使用python3实战讲解了Spark核心功能组件,并结合调度爆款框架Azkaban,来对作业进行调度,最后以天气数据分析做为实战项目,让你学会对大数据进行处理与分析,让Python开发人员也能对Spark应用程序进行开发及调优。
$ |" t: Q, @5 `5 E% f
: U0 }$ M" C- M$ D  ^. \0 e0 T课程目录:
$ j# `: |4 e' o! R0 Z/ O& l第1章 课程介绍4 r+ W8 B4 [" g$ A
课程介绍0 `6 b* ]# ^, Q& y% e

4 v$ V0 X  E1 ~; o+ _1-1 PySpark导学
& ^/ t1 R  _/ b$ ?1-2 OOTB环境演示' G& N/ z7 x6 n( S$ U6 x
第2章 实战环境搭建- e/ J: r8 g2 ?$ H9 ~: f
工欲善其事必先利其器,本章讲述JDK、Scala、hadoop、Maven、Python3以及Spark源码编译及部署
8 K1 r+ ^  `! q- y$ O( m
& f; @$ z- v7 j4 Y. \" M2-1 -课程目录
+ S. i" I  ]0 d& k3 n# n2-2 -java环境搭建! f1 J# V% p  ?7 t: ]
2-3 -Scala环境搭建# i: p' W! E& v, f6 Y
2-4 -Hadoop环境搭建, L* t! l5 U6 s7 X) V
2-5 -Maven环境搭建
) m/ ?$ ~% Y' t$ Q7 E6 p2-6 -Python3环境部署
* X) k3 a# n1 ~/ M5 R9 A% u2-7 -Spark源码编译及部署+ \4 Z0 `' z% G$ ^
第3章 Spark Core核心RDD
$ a9 H2 q3 @! ~: U; E' G- x3 c本章详细讲解RDD是什么以及特性(面试常考)、Spark中两个核心类SparkContext和SparkConf、pyspark启动脚本分析、RDD的创建方式以及如何使用IDE开发Python Spark应用程序并提交到服务器上运行( |7 ^* ^: q# R/ i# |
  P+ O0 L" b7 i5 Y& s+ o& e; v0 [3 ?
3-1 -课程目录) J& x2 @0 C7 k5 I) V4 V7 i
3-2 -RDD是什么
0 {) F1 z1 N0 a! s2 E3-3 -通过电影描述集群的强大之处! u5 y; ^6 @3 z- Z! h! n
3-4 -RDD的五大特性1 }; b/ U1 z4 J* s* P: W
3-5 -RDD特性在源码中的体现
( {' `2 N: c# A: Q1 r# E3-6 -图解RDD
% t& v8 P/ x6 t( C. Y8 Z, Z' g3-7 -SparkContext&SparkConf详解' t- \& ]* c2 v  d; I; L* A
3-8 -pyspark. H. H6 G8 f7 K/ n
3-9 -RDD创建方式一8 Q6 l7 U6 V4 d2 W  Z  ^/ N9 ]' Y
3-10 -RDD创建方式二
: r5 \6 [& v5 `2 \/ g+ u# V- L+ W3-11 -使用IDE开发pyspark应用程序
# b  h/ n& |! I' I- O3-12 -提交pyspark作业到服务器上运行
- I( |/ D1 r- T第4章 Spark Core RDD编程
* e7 C& ~2 W: K$ e本章将针对RDD中常用的算子进行详细案例讲解,并进行综合案例实战( {& ^$ y: P' V# u" ^- e% i' I
; [) M. m, F3 ~3 Y0 L# y% q  ~
4-1 -课程目录* G9 \! e2 x# I! l6 c; D" P  j
4-2 -RDD常用操作
' q5 j! R. x% p+ G5 q! i0 `, n4-3 -map算子使用详解
$ S& h" w# b4 z6 D8 ~2 P+ _7 S8 E( @4-4 -filter算子详解% t7 v% {& D4 P1 p  v
4-5 -flatMap算子详解* E7 b8 U  m, Y4 v
4-6 -groupByKey算子详解
& x1 q7 j' A6 J( |0 H* i4-7 -reduceByKey算子详解
1 Q( @+ P$ F- W: W4-8 -sortByKey算子详解
: z. V9 ?" D9 m3 `4-9 -union算子使用详解! m$ c9 M/ M0 r/ C$ {4 M! i! A
4-10 -distinct算子使用详解3 Z$ D$ L. ^; X( h+ n! ?
4-11 -join算子详解8 u5 H7 ^  U3 t( D) G4 N
4-12 -action常用算子详解0 w5 t9 ^4 I( B; b
4-13 -算子综合案例实战一词频统计7 b2 M/ [* q0 f9 t' U) I; `
4-14 -算子综合案例实战之词频统计重构0 j3 q* q" S  _6 B% q
4-15 -算子综合案例实战之TopN统计9 v. L7 ~# ~  g& N( @! i
4-16 -算子综合案例实战之平均数统计1 |! e0 {$ k' ~5 s6 E) v
第5章 Spark运行模式
, m5 l& \" ?, z2 m  c本章将介绍Spark的几种运行模式,需要重点掌握on Yarn模式
5 l; |8 p& o, |- n& W, C+ b( L+ Q
5-1 -课程目录7 \3 D3 W. \2 t  E( X
5-2 -local模式运行
. E- v: V+ e8 W% `8 J3 y6 Q5-3 -standalone模式环境搭建及pyspark运行
7 O* P, R7 j; {5-4 -standalone模式spark-submit运行
1 S2 _0 d0 j2 I  d" H% N; d" u5-5 -yarn运行模式详解
4 V7 D( f1 A* ~1 V0 t4 ~# i3 A第6章 Spark Core进阶* ]; r9 C3 X* R
本章将介绍Spark中的核心术语、运行架构、并对比Spark和MapReduce的概念区分、存储策略及选择方式、宽窄依赖及Shuffle
4 E. ~# C( j8 C5 z7 }9 F
+ m+ m0 z, z9 ~- M6-1 -课程目录
. _4 {5 Y8 q: R, O! {, j- i6-2 -Spark核心概念详解
% g9 C$ @4 X# @( ?6-3 -结合Spark UI详解Spark核心概念
7 M0 h( W& @, j$ D. B$ x7 E6-4 -Spark运行架构及注意事项; p5 v) I, r3 q3 ^+ Q
6-5 -Spark和Hadoop重要概念区分9 g& y. T: V; [# ~
6-6 -Spark缓存的作用9 z0 h6 ~: ^3 K2 }2 y8 f
6-7 -Spark缓存概述
: q4 R/ q7 `2 |1 a( b% N6-8 -Spark缓存策略详解
1 |, g1 U. T$ h: D# |$ w: l6-9 -Spark缓存策略选择依据, m8 B9 f) B5 t- q  [+ @1 D
6-10 -Spark Lineage机制/ p1 C6 V2 j: v% V
6-11 -Spark窄依赖和宽依赖
& T: R& c) ~1 i0 S- r6-12 -Spark Shuffle概述" H, ~8 {; d  _* B) S
6-13 -图解RDD的shuffle以及依赖关系; D9 n, ]4 R; u
第7章 Spark Core调优
( [- ]; k; c% \: a" v5 y8 P本章将从Spark作业性能指标、序列化、内存管理、广播变量及数据本地化这几个方面来介绍Spark作业的调优
  a% {& L0 {& i' b
  D. c+ V1 I* y& M7-1 -课程目录7 m* \/ D3 w. D& c) u: U9 a/ u) b
7-2 -优化之HistoryServer配置及使用" r+ w7 i, r- t/ n1 C  B
7-3 -优化之序列化
3 O; t$ a5 q- d: J  F7-4 -优化之内存管理
7 o  m5 K* C" S" \  v' `, L7-5 -优化之广播变量
! M3 b* z5 b+ T: |' X: a# ?7-6 -优化之数据本地性: A+ X6 ]- J  ]7 o
第8章 Spark SQL) S7 b: G' |  ]( _
本章将讲解Spark SQL的架构、DataFrame&Dataset、以及如何使用Python API来对DataFrame进行编程. r+ S& B& d! K3 X
5 i6 p, N( I, x- L6 O
8-1 -课程目录
4 ^* g8 `0 Q) G! v; \$ N8-2 -Spark SQL前世今生: L8 E3 z- P1 W7 Z0 y0 `
8-3 -Spark SQL概述&错误认识纠正
' X! c8 ^& }& S$ p" v! h, D( E8-4 -Spark SQL架构
4 i, }$ F0 X! X6 z5 L8-5 -DataFrame&Dataset详解
" o* N4 C8 F1 f# u. ?" z5 m8-6 -DataFrame API编程
# B: }8 ?9 z) }/ R) v8-7 -RDD与DataFrame互操作方法一6 y9 x. a1 f! Y8 R+ A
8-8 -RDD与DataFrame互操作方法二3 Z( \) ]  t6 u: f- E! z+ t
8-9 -Spark SQL其他
9 F0 k& P1 U3 h& g. s8 L6 p第9章 Spark Streaming9 N# G# `) q0 f, L* `
本章将讲解Spark Streaming的核心概念、执行原理、以及如何Python API来对Spark Streaming进行编程3 Q* s) f% B) P0 o% k
, q+ E7 i6 ~. H( w, [, S$ U
9-1 -课程目录$ t. ]! Z3 ^3 i
9-2 -Spark Streaming概述/ u$ {3 v# F- s. x6 p. \0 {. ]7 a
9-3 -实时流处理框架对比; q& o4 x# X8 {/ b. s3 K: c
9-4 -Spark Streaming执行原理
# V' Z+ ^! u+ F1 x( ~7 `0 m0 M- |9-5 -从词频统计案例来了解SparkStreaming& W! e! V* ]" E/ p9 `1 ?' [% m( l* k
9-6 -核心概念之StreamingContext
+ \% a5 t4 I7 e# D7 g5 z9-7 -核心概念之DStream及常用操作
; f! E$ j" }" Q) O9-8 -SparkStreaming操作文件系统数据实战) E/ X0 J" T) b- J: `. ^# g5 ^$ I# g2 I
第10章 Azkaban基础篇- w3 a$ ?, h/ R$ d
本章将讲解Azkaban的特性、架构、运行模式、源码编译及部署、快速入门
4 U( H, L5 q0 ?
" b; M5 s4 N  ]  v3 n; R! R3 Y10-1 Azkaban基础篇课程目录
4 W3 @1 H' k0 a# W! F: v( h10-2 -工作流概述+ B2 R- Z' Q: v# P3 d6 t
10-3 -工作流在大数据处理中的重要性, h+ C: y0 H  v: \0 W2 {& o
10-4 -常用调度框架介绍
* D$ z) E7 w/ C9 E, t; g& r10-5 -Azkaban概述及特性
/ k7 v6 n% T$ E. s8 t0 N6 |- h10-6 -Azkaban架构
& f  ?8 \$ m: p" K. `: E10-7 -Azkaban运行模式详解% x+ O. Y3 p* l6 g. [
10-8 -Azkaban源码编译
3 }& C1 i3 P& s7 y1 x8 e10-9 -Azkaban solo server环境部署  G6 @0 r4 w  ~
10-10 -Azkaban快速入门案例
/ L- J4 M1 Z1 {' j第11章 Azkaban实战篇
  U" U4 E% p7 s5 E: @本章将讲解如何使用Azkaban来完成HDFS、MapReduce、Hive作业的调度、定时作业调度以及邮件告警$ Z4 U- ^5 z( f7 s% J. d

7 D/ g6 M# j8 l11-1 -Azkaban实战篇课程目录
) p0 j6 D  E/ x  s, d* s$ f11-2 -依赖作业在Azkaban中的使用
3 v+ H/ C. A6 E) P11-3 -HDFS作业在Azkaban中的使用
% T, G. R6 v! H! Y; r. D1 J11-4 -MapReduce作业在Azkaban中的使用2 K: h7 B" n* A. w2 v3 {
11-5 -Hive作业在Azkaban中的使用( d5 |' h) T! a
11-6 -定时调度作业在Azkaban中的使用
7 {" C  r5 E8 P+ k- [7 U8 ]11-7 -邮件告警及SLA在Azkaban中的使用& B' t; L# J  F5 w/ Y) E/ C$ \' O
第12章 Azkaban进阶篇+ \! E  D2 F8 c( Q) C2 o- t$ J
本章将讲解Azkaban在生产上的部署、权限管理、Ajax API、Plugin、以及短信和调度框架的二次开发
, s4 _4 U: P" p6 y/ [+ M8 [$ ?5 o. ?8 T! ?7 F
12-1 -Azkaban进阶篇课程目录
3 g9 M* ]8 _9 j4 S& _5 t2 l# n12-2 -Two Server Mode之数据库准备工作6 n9 `# K& ~' }& B) g2 h& d/ R& ?% t# j5 d- z
12-3 -Two Server Mode之AzkabanWebServer搭建
) z* ^/ j/ ~+ U12-4 -Two Server Mode之AzkabanExecServer搭建
# \) f3 u- Z2 ?+ V% E1 }12-5 -Two Server Mode之使用实战) }/ e1 F( J  l
12-6 -Azkaban权限管理
9 m1 k/ c1 b7 O( q12-7 -Azkaban中AJAX API使用+ q8 L% x! O4 ]# `
12-8 -Azkaban Plugin的使用
4 K" B$ U6 a. M% |7 r0 W: \12-9 -Azkaban中短信告警改造思路
9 K! M. [1 S: ]  A* Z0 M$ [0 Z( z12-10 Azbakan在生产上使用的改造思路* u! E2 m1 X# ^, [9 N  C( E
第13章 项目实战
1 l+ T1 C# F& {, c" n本章将讲解在构建大数据平台的技术选型、集群升级资源评估,并使用Spark对气象数据进行分析,讲分析结果写入ES,并通过kibana进行统计结果的可视化展示
, M) W, |! P! g# C/ F
2 F5 F6 s* ~' E5 P) E, x13-1 -课程目录' z$ N1 }2 k# v  T
13-2 -大数据项目开发流程
' M# I' o3 K' B. \) W13-3 -大数据企业级应用! n6 E# w; g- K# m. ~
13-4 -企业级大数据分析平台" g; E6 Y, J' }! K
13-5 -集群数据量预估+ ]: C) b, F1 o9 ~# e' U
13-6 -集群机器规模&资源&作业规划
1 l  }9 V0 N8 Q( u13-7 -项目需求
: ~: y. a4 N! j# |, k0 X13-8 -数据加载成DataFrame并选出需要的列  _* G3 R3 d2 T0 V: M- J
13-9 -SparkSQL UDF函数开发4 a9 R3 G4 g7 \$ d; K$ @4 G0 J) @
13-10 -每年Grade出现的次数统计# p% Q7 @- a/ w# u6 D5 o5 G& C
13-11 -Grade在每年中的占比统计
1 q/ q7 q- D: w7 U: _, q  E13-12 -ES部署及使用
- X5 Z/ L5 p- u& E- g" V13-13 -Kibana部署及使用
1 V. u# G( }3 S  S13-14 -将作业运行到YARN上( c. k3 Q+ r4 Q1 r
13-15 -统计分析结果写入ES测试: d8 D( V- q  `6 W6 r+ O. n
13-16 -统计分析结果入ES并通过Kibana图形化展示6 f$ Y% a1 J' W. Y# z7 h
13-17 -作业
& [3 \" Q* A: ^+ z13-18 -通过Azkaban调度整个流程# {  j& S  W; m4 w
13-19 -课程总结及展望(重点关注)& h  r$ V4 \" n4 f3 L& C

! h7 j. O9 y! b. e: b4 w. r6 U* W) ~) {

; T/ E0 N6 B4 W- q4 f: X1 w1 a1 ]4 ^. V7 a. r, a" l2 Q$ h; \7 @! l

8 U2 a7 p5 Z4 m  H2 L# e& o- n2 n
资源下载地址和密码(百度云盘):
游客,如果您要查看本帖隐藏内容请回复
[/hide] 百度网盘信息回帖可见
# w& \% H4 O. [( [: \# C3 B) }2 g$ r6 z. ]& u" b* C
3 y% n$ g1 ]# r( [/ T8 h

; y6 M4 A* a6 S4 v" L) K, w# J本资源由Java自学网收集整理【www.javazx.com】
回复

使用道具 举报

该用户从未签到

9

主题

192

帖子

391

积分

普通会员

Rank: 2

积分
391
发表于 2022-6-14 03:31:13 | 显示全部楼层
谢谢了!!!
回复 支持 反对

使用道具 举报

该用户从未签到

9

主题

165

帖子

337

积分

普通会员

Rank: 2

积分
337
发表于 2022-6-14 03:37:23 | 显示全部楼层
666666666666666
回复 支持 反对

使用道具 举报

该用户从未签到

9

主题

170

帖子

341

积分

普通会员

Rank: 2

积分
341
发表于 2022-6-14 03:45:44 | 显示全部楼层
不错好资源 可以用
回复 支持 反对

使用道具 举报

该用户从未签到

10

主题

152

帖子

314

积分

普通会员

Rank: 2

积分
314
发表于 2022-6-14 03:48:15 | 显示全部楼层
不错好资源 可以用
回复 支持 反对

使用道具 举报

该用户从未签到

6

主题

170

帖子

346

积分

普通会员

Rank: 2

积分
346
发表于 2022-6-14 03:57:53 | 显示全部楼层
谢谢分享。。。。。。。。。。。
回复 支持 反对

使用道具 举报

该用户从未签到

10

主题

147

帖子

300

积分

普通会员

Rank: 2

积分
300
发表于 2022-6-14 04:09:58 | 显示全部楼层
好东西支持66666
回复 支持 反对

使用道具 举报

该用户从未签到

6

主题

168

帖子

318

积分

普通会员

Rank: 2

积分
318
发表于 2022-6-14 04:13:44 | 显示全部楼层
使用python3实现Spark大数据分析引擎和任务调
回复 支持 反对

使用道具 举报

该用户从未签到

4

主题

176

帖子

342

积分

普通会员

Rank: 2

积分
342
发表于 2022-6-14 04:18:48 | 显示全部楼层
仄仄仄仄仄仄仄仄仄啧啧啧
回复 支持 反对

使用道具 举报

  • TA的每日心情
    开心
    2015-6-21 16:07
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    4462

    帖子

    8946

    积分

    普通会员

    Rank: 2

    积分
    8946
    发表于 2022-6-16 16:42:54 | 显示全部楼层
    太难找了 居然在这里
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|Archiver|手机版|小黑屋|Java自学网

    GMT+8, 2025-2-25 23:58 , Processed in 0.110063 second(s), 25 queries .

    Powered by Javazx

    Copyright © 2012-2022, Javazx Cloud.

    快速回复 返回顶部 返回列表