java自学网VIP

Java自学网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2464|回复: 0

《大规模分布式存储系统》 第4章 分布式文件系统【4.2】

[复制链接]
  • TA的每日心情
    开心
    2021-5-25 00:00
  • 签到天数: 1917 天

    [LV.Master]出神入化

    2025

    主题

    3683

    帖子

    6万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    66353

    宣传达人突出贡献优秀版主荣誉管理论坛元老

    发表于 2017-3-3 20:23:20 | 显示全部楼层 |阅读模式
    4.2 Taobao File System
    * E( V5 t' M; a$ ~  j互联网应用经常需要存储用户上传的文档、图片、视频等,比如Facebook相
    ! {3 w9 j5 A4 `0 i+ ]册、淘宝图片、Dropbox文档等。文档、图片、视频一般称为Blob数据,存储Blob数. o5 E3 s! ?+ m) p
    据的文件系统也相应地称为Blob存储系统。每个Blob数据一般都比较大,而且多个' m% l' k" @* K& O2 j5 [# d
    Blob之间没有关联。Blob文件系统的特点是数据写入后基本都是只读,很少出现更
    : a0 O: k+ B+ G4 u* q' Y4 G新操作。这两节分别以Taobao File System和Facebook Haystack为例说明Blob文件系统
    / E! ~" x9 Z0 [& F1 g3 J3 `. H的架构。8 Q4 {! Z4 O3 C1 N" r  r$ E
    2007年以前淘宝的图片存储系统使用了昂贵的NetApp存储设备,由于淘宝数据
    0 I& k5 |  S7 _6 v8 s量大且增长很快,出于性能和成本的考虑,淘宝自主研发了Blob存储系统Tabao File
    6 A6 P" ]0 c: ^7 i) {( cSystem(TFS)。目前,TFS中存储的图片规模已经达到百亿级别。6 s& c. l. H2 C7 b5 l7 I3 y: [
    TFS架构设计时需要考虑如下两个问题:& a4 [& f' W( O2 A* b
    ●Metadata信息存储。由于图片数量巨大,单机存放不了所有的元数据信息,假
      R" O0 K9 s; _9 V" @; n6 y- Y设每个图片文件的元数据占用100字节,100亿图片的元数据占用的空间为
    9 {! }5 }6 P; d1 A2 ^7 y10G×0.1KB=1TB,单台机器无法提供元数据服务。
    - E/ {* x& I, _9 B●减少图片读取的IO次数。在普通的Linux文件系统中,读取一个文件包括三次
      a: ]7 [0 X9 X" i* |- U2 Y磁盘IO:首先读取目录元数据到内存,其次把文件的inode节点装载到内存,最后读
    " @0 g9 P. B: t1 s6 U  G取实际的文件内容。由于小文件个数太多,无法将所有目录及文件的inode信息缓存
    , P! b) }* Z% D" S6 _到内存,因此磁盘IO次数很难达到每个图片读取只需要一次磁盘IO的理想状态。, D1 e' F0 J, a' s0 ]1 h/ Z
    因此,TFS设计时采用的思路是:多个逻辑图片文件共享一个物理文件。
    - x0 p+ m( R: |$ U- X" B* `; z) Y1 L  e4.2.1 系统架构6 X$ S, }( ]% W) |  t
    TFS架构上借鉴了GFS,但与GFS又有很大的不同。首先,TFS内部不维护文件. S3 g8 B% p! d5 U
    目录树,每个小文件使用一个64位的编号表示;其次,TFS是一个读多写少的应用,
    ( c0 d2 k8 |3 q% b3 c2 S$ M; p7 C相比GFS,TFS的写流程可以做得更加简单有效。
    & x: w7 C& q4 R. `  b( M( `6 j如图4-4所示,一个TFS集群由两个NameServer节点(一主一备)和多个
    * g1 E" `9 C) X5 e( \& J1 ^DataServer节点组成,NameServer通过心跳对DataSrver的状态进行监测。NameServer: ~8 l! a# o1 I- s" l9 Q& d" n
    相当于GFS中的Master,DataServer相当于GFS中的ChunkServer。NameServer区分为主( w  R: D5 \+ X$ e0 V
    NameServer和备NameServer,只有主NameServer提供服务,当主NameServer出现故障1 X- n. f. K+ B) v' r
    时,能够被心跳守护进程检测到,并将服务切换到备NameServer。每个DataServer上
    ; I# ^. B" K: e4 P! m, B2 R会运行多个dsp进程,一个dsp对应一个挂载点,这个挂载点一般对应一个独立磁盘,
      g. p0 o4 {; h  Y9 E! `- }0 v9 m从而管理多块磁盘。
    7 K* D9 o8 c- Z; J1 A6 Y' G) D图 4-4 TFS整体架构
    9 e* R& s5 [: z5 |6 u5 b在TFS中,将大量的小文件(实际数据文件)合并成一个大文件,这个大文件称( x, Q5 \: g9 m8 {5 {
    为块(Block),每个Block拥有在集群内唯一的编号(块ID),通过<块ID,块内偏1 H: h$ C0 N8 l. F& n; k+ M- K* x/ i
    移>可以唯一确定一个文件。TFS中Block的实际数据都存储在DataServer中,大小一
    2 N" I% e2 u9 B2 E' S9 L! y2 ^1 `# G般为64MB,默认存储三份,相当于GFS中的chunk。应用客户端是TFS提供给应用程& q9 o4 _4 c0 @, N$ \) z, L, `
    序的访问接口,应用客户端不缓存文件数据,只缓存NameServer的元数据。8 j+ m9 }- J, H. ^& M
    1.追加流程
    2 I) G' a: v9 VTFS中的追加流程相比GFS要简单有效很多。GFS中为了减少对Master的压力,* e- x8 r  ]9 e
    引入了租约机制,从而将修改权限下放到主ChunkServer,很多追加操作都不需要2 U$ L  b0 b6 [$ i* ]
    Master参与。然而,TFS是写少读多的应用,即使每次写操作都需要经过NameNode
    3 ^6 J+ s& `1 F% F也不会出现问题,大大简化了系统的设计。另外,TFS中也不需要支持类似GFS的多
    : U6 U' A. Y, d客户端并发追加操作,同一时刻每个Block只能有一个写操作,多个客户端的写操作/ R0 v3 b8 F( r$ w& ]8 j- i# g
    会被串行化。
    # A  j; H2 x7 g( ]4 z# U7 ~如图4-5所示,客户端首先向NameServer发起写请求,NameServer需要根据
    6 {  l) w, l1 C# j; E0 G7 ^6 ?DataServer上的可写块、容量和负载加权平均来选择一个可写的Block,并且在该
    , k- N, p3 ]' K1 l1 [2 ~, ^Block所在的多个DataServer中选择一个作为写入的主副本(Primary),其他的作为8 e. {, j) P1 r# b# a: D
    备副本(Secondary)。接着,客户端向主副本写入数据,主副本将数据同步到多个$ y6 f& |6 h% n$ s, H
    备副本。如果所有的副本都修改成功,主副本会首先通知NameServer更新Block的版
    , f  ?- Q1 l" I0 p( f3 T# J本号,成功以后才会返回客户端操作结果。如果中间发生任何错误,客户端都可以; f' H( T0 @" |" u" Y3 _( G7 X
    从第一步开始重试。相比GFS,TFS的写流程不够优化,第一,每个写请求都需要多次5 O4 W1 O8 g7 k0 D* K+ t3 b
    访问NameServer;第二,数据推送也没有采用流水线方式减小延迟。淘宝的系统是( x- M6 _8 x0 v  C
    需求驱动的,用最简单的方式解决用户面临的问题。# O' ~5 D8 `3 n6 Q
    图 4-5 TFS追加流程
    1 B2 l' P- h6 O, f2 V每个写操作返回后,会返回客户端两个信息,小文件在TFS中的Block编号1 n1 p/ m2 a3 s  K- l. _% p
    (Block id)以及Block偏移(Block offset)。应用系统会将这些信息保存到数据库& d& b- v: _# v, ~
    中,图片读取的时候首先根据Block编号从NameServer查找Block所在的DataServer,7 O4 P, Q8 O6 s8 S+ J
    然后根据Block偏移读取图片数据。TFS的一致性模型保证所有返回给客户端的<& F3 K9 r9 a% y2 u( x2 J# v
    Blockid,Block offset>标识的图片数据在TFS中的所有副本都是有效的。) t0 V  f0 Q1 l9 [
    2.NameServer
    8 d' U% J' g* e, [NameServer主要功能是:Block管理,包括创建、删除、复制、重新均衡;Data-
    1 }& Y6 X4 {" o- F. ^4 o& iServer管理,包括心跳、DataServer加入及退出;以及管理Block与所在DataServer之
    ! U" ]6 c) h: W1 \间的映射关系。与GFS Master相比,TFS NameServer最大的不同就是不需要保存文件8 I0 n" f7 X/ n' Z, L" h& @
    目录树信息,也不需要维护文件与Block之间的映射关系。& e5 ^  a8 o% k# U8 v* j
    NameServer与DataServer之间保持心跳,如果NameServer发现某台DataServer发# K) y+ r) v" n1 x* W2 b5 Q& Q
    生故障,需要执行Block复制操作;如果新DataServer加入,NameServer会触发Block5 k  P/ }0 [3 E
    负载均衡操作。和GFS类似,TFS的负载均衡需要考虑很多因素,如机架分布、磁盘3 M9 a+ K4 W* X: P# K
    利用率、DataServer读写负载等。另外,新DataServer加入集群时也需要限制同时迁/ l# F# Q: Z# }5 k, r9 _3 w% q
    入的Block数量防止被压垮。
    2 Y* R1 T$ D7 e. A: A4 GNameServer采用了HA结构,一主一备,主NameServer上的操作会重放至备/ O. M- e  C8 Y! k+ M7 e
    NameServer。如果主NameServer出现问题,可以实时切换到备NameServer。5 |5 {4 J0 U& }: s# h" I& }( W
    4.2.2 讨论/ g: d4 R3 E) v; t
    图片应用中有几个问题,第一个问题是图片去重,第二个问题是图片更新与删
    % Z: T6 K9 V3 T" o8 G除。
    3 m2 F( \# Z& C4 i& b9 ~8 X: _  H  D由于用户可能上传大量相同的图片,因此,图片上传到TFS前,需要去重。一般+ j/ Q) \& b' e, ?6 V7 B0 J
    在外部维护一套文件级别的去重系统(Dedup),采用MD5或者SHA1等Hash算法为5 d9 V$ l, D* V, D4 e( I& V
    图片文件计算指纹(FingerPrint)。图片写入TFS之前首先到去重系统中查找是否存
    . p% ?* e; f1 _2 _/ J$ R( o在指纹,如果已经存在,基本可以认为是重复图片;图片写入TFS以后也需要将图片
    ) B6 x+ f6 L0 [, M$ f% c的指纹以及在TFS中的位置信息保存到去重系统中。去重是一个键值存储系统,淘宝" f' {2 M# W2 t& y* @/ I: v1 Q
    内部使用5.2节中的Tair来进行图片去重。$ e% f0 `* U& C4 B
    图片的更新操作是在TFS中写入新图片,并在应用系统的数据库中保存新图片的$ S* |- U7 [3 y: C4 ~
    位置,图片的删除操作仅仅在应用系统中将图片删除。图片在TFS中的位置是通过<! T( }2 g2 F% f3 D0 w/ }. q1 P* P% D
    Block id,Block offset>标识的,且Block偏移是在Block文件中的物理偏移,因此,每
    . n6 T1 A$ T, ^: ]' Z% ~个Block中只要还有一个有效的图片文件就无法回收,也无法对Block文件进行重整。2 N  X! \& l+ a  T
    如果系统的更新和删除比较频繁,需要考虑磁盘空间的回收,这点会在Facebook! v" M, r6 z" n. O6 l2 Q
    Haystack系统中具体说明。
    5 {9 s: u- @- e1 {, o6 [  V) s( b; ~+ z( H
    8 x1 j0 D5 U4 K1 g+ ~
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|Archiver|手机版|小黑屋|Java自学网

    GMT+8, 2024-12-4 01:59 , Processed in 0.079119 second(s), 28 queries .

    Powered by Javazx

    Copyright © 2012-2022, Javazx Cloud.

    快速回复 返回顶部 返回列表