|
2.6 多角度理解YARN
: p) V6 N: E1 o% P/ O _, N下面我从并行编程、 资源管理、 云计算等三个角度帮助读者理解YARN。! O5 H0 e. S( J( p1 \' `
2.6.1 并行编程* q1 ?- f1 V$ y' F% Q7 \
在单机程序设计中, 为了快速处理一个大的数据集, 通常采用多线程并行编程, 如图2-12所示, 大体流程如下: 先由操作系
. d/ |+ g) k3 E' W0 D9 |8 W统启动一个主线程, 由它负责数据切分、 任务分配、 子线程启动和销毁等工作, 而各个子线程只负责计算自己的数据, 当所有子. V3 x G& K# o
线程处理完数据后, 主线程再退出。 类比理解, YARN上的应用程序运行过程与之非常相近, 只不过它是集群上的分布式并行编
5 F2 p; o! U9 [, v5 P& E8 e程。 可将YARN看做一个云操作系统, 它负责为应用程序启动ApplicationMaster( 相当于主线程) , 然后再由ApplicationMaster负责
& q9 d# Y6 h' M数据切分、 任务分配、 启动和监控等工作, 而由ApplicationMaster启动的各个Task( 相当于子线程) 仅负责自己的计算任务。 当所
$ }1 \) Z+ J* {1 O! M- g |# C有任务计算完成后, ApplicationMaster认为应用程序运行完成, 然后退出。
: v$ w A& f; Z4 w+ G0 f1 U2.6.2 资源管理系统
8 g8 V$ ^. V" `+ y2 j! {资源管理系统的主要功能是对集群中各类资源进行抽象, 并根据各种应用程序或者服务的要求, 按照一定的调度策略, 将资" a3 W: ]$ r6 d7 k( P2 E' x
源分配给它们使用, 同时需采用一定的资源隔离机制防止应用程序或者服务之间因资源抢占而相互干扰。 YARN正是一个资源管
; N5 v5 M8 T9 V& t" u+ d. j0 X B理系统, 它的出现弱化了计算框架之争, 引入YARN这一层后, 各种计算框架可各自发挥自己的优势, 并由YARN进行统一管" r" i* O6 U M$ F8 B
理, 进而运行在一个大集群上。 截至本书出版时, 各种开源系统都在开发YARN版本, 包括MapReduce、 Spark、 Storm、 HBase
5 `, _7 x- T: U8 V* t9 ^3 N等。0 q' a! \. i3 {( w
图2-12 从并行编程角度理解YARN
9 V$ e: l6 `9 O( \' E4 F2.6.3 云计算
4 {9 G+ y* Y0 w! t3 K2 Z普遍认为, 云计算包括以下几个层次的服务: IaaS、 PaaS和SaaS。 这里所谓的层次, 是分层体系架构意义上的“层次”。
9 ^# r% }6 x+ W" J& o h; x. [IaaS、 PaaS、 SaaS分别实现在基础设施层、 软件开放运行平台层、 应用软件层。+ M' L6 P1 }% O' ?1 C7 f$ c
IaaS(Infrastructure-as-a-Service): 基础设施即服务。 消费者通过Internet可以从完善的计算机基础设施获得服务。 Iaas通过网络向
" ^7 @) `( L, K用户提供计算机( 物理机和虚拟机) 、 存储空间、 网络连接、 负载均衡和防火墙等基本计算资源; 用户在此基础上部署和运行各) x+ g% Z1 M# b* K
种软件, 包括操作系统和应用程序等。: m/ r0 ?" f, M# U+ D2 U
PaaS(Platform-as-a-Service): 平台即服务。 PaaS是将软件研发的平台作为一种服务, 以SaaS的模式提交给用户。 平台通常包括
+ n: g, N5 X/ T" o* o操作系统、 编程语言的运行环境、 数据库和Web 服务器等, 用户可以在平台上部署和运行自己的应用。 通常而言, 用户不能管0 T5 ], ], [, \3 C
理和控制底层的基础设施, 只能控制自己部署的应用。
% h9 P2 A; k$ {SaaS(Software-as-a-Service): 软件即服务。 它是一种通过Internet提供软件的模式, 用户无需购买软件, 而是向提供商租用基
1 h, _, J5 B, L于Web的软件, 来管理企业经营活动。 云提供商在云端安装和运行应用软件, 云用户通过云客户端( 比如Web 浏览器) 使用软
- F* p( O" C! b% F5 o件。
& X7 e ]5 x( T C
" A( A/ |. T: h* w
- `% Q3 z& L* Y |
|