|
第二部分 YARN 核心设计篇
1 V7 o: P N7 z/ Z- JYARN是一个通用资源管理系统, 可为上层应用提供统一的资源管理和调度, 它的引入为集群在利用率、 资源统一管理和数
. F' R' l0 [; z据共享等方面带来了巨大好处。 本书第二部分将从底层基础库、 应用程序编程接口、 运行时环境等方面深入剖析YARN的内部原 W" R0 ]2 X" T# F8 m4 U$ }% A& f
理和实现, 读者通过对这部分的学习应可编写出运行在YARN上的应用程序, 且能根据实际项目需求完成对YARN的二次开发。
4 _5 _& C2 U0 v3 v% n- W第3章 YARN基础库# T1 w t" t6 k- }
与MRv1的实现相比, YARN的实现要复杂得多。 YARN借用了MRv1的一些底层基础库( 如RPC库) , 因为引入了很多新的
( u8 R# H9 ]% ~4 ~软件设计方式, 它的基础库更多, 例如直接使用开源序列化框架Protocol Buffers和Apache Avro, 及自定义的服务库、 事件库和状
' q: O5 r b4 @ g! C; n1 h态机等。" ?" M2 g- ]8 Z+ ?- T& c) B/ Z, w1 Y
本章介绍的YARN基础库是理解后面几章内容的基础, 重要性不言而喻。 其中有些基础库是开源的, 并且被广泛使用, 读者& g! o" }, H" {& w
可根据自己的情况选择性阅读。$ r& H' o7 u( n9 d7 w' j7 C
3.1 概述
" d5 T& q. B4 f; }8 J( WYARN基础库是其他一切模块的基础, 它的设计直接决定了YARN的稳定性和扩展性, 概括起来, YARN的基础库主要有以& M8 \: q4 L$ O
下几个。
5 B! b! |: _) u❑Protocol Buffers: Protocol Buffers是Google开源的序列化库, 具有平台无关、 高性能、 兼容性好等优点。 YARN将Protocol
' E, B* ~& P p+ b4 {" T# }8 NBuffers用到了RPC通信中, 默认情况下, YARN RPC中所有参数采用Protocol Buffers进行序列化/反序列化, 相比于MRv1中基于自0 V" A/ {4 J" X$ M; H
定义Writable框架的方式, YARN在向后兼容性、 扩展性等方面提高了很多。1 M- \' n6 J7 ^( s/ Z9 t. i6 ~
❑Apache Avro: Avro是Hadoop生态系统中的RPC框架, 具有平台无关、 支持动态模式( 无需编译) 等优点, Avro的最初设1 R8 D3 q% T" ]& J
计动机是解决YARN RPC兼容性和扩展性差等问题, 目前, YARN采用Avro记录MapReduce应用程序日志( 用于故障后应用程序
3 e2 x: J; R1 }5 m0 L/ A6 W恢复) , 今后可能代替Protocol Buffers作为RPC辅助库( 至少会作为一个可选方案) 。 r% @4 x% T0 T f! I
❑RPC库: YARN仍采用了MRv1中的RPC库, 但其中采用的默认序列化方法被替换成了Protocol Buffers。
- p3 W& V9 v6 N" L❑服务库和事件库: YARN将所有的对象服务化, 以便统一管理( 比创建、 销毁等) , 而服务之间则采用事件机制进行通
. _& X% u1 ~4 R$ f1 {信, 不再使用类似MRv1中基于函数调用的方式。
% `, A3 K9 P8 C( ~7 j( _6 R❑状态机库: 状态机是一种表示有限个状态以及在这些状态之间的转移和动作等行为的数学模型。 在YARN中, 很多对象都# @) O7 Y3 z# I
是由若干状态组成的, 且当有事件发生时, 状态之间会发生转移, 比如作业、 任务、 Container等, 而YARN正是采用有限状态机' k* o; V5 o1 A. V/ S+ @; r
描述一些对象的状态以及状态之间的转移。 引入状态机模型后, 相比MRv1, YARN的代码结构更加清晰易懂了。. y2 r& c+ [$ {) J6 t' d
理解以上这几个库是阅读后面几章的基础, 本章将详细介绍这几个库。 4 F+ f9 Z1 S) s% y0 z; S0 m
c/ S, F; _4 @" X/ k
: U- ^. f) u1 T9 ]8 {* Y |
|