java自学网VIP

Java自学网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2561|回复: 0

《大规模分布式存储系统》 第4章 分布式文件系统【4.2】

[复制链接]
  • TA的每日心情
    开心
    2021-5-25 00:00
  • 签到天数: 1917 天

    [LV.Master]出神入化

    2096

    主题

    3754

    帖子

    6万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    66788

    宣传达人突出贡献优秀版主荣誉管理论坛元老

    发表于 2017-3-3 20:23:20 | 显示全部楼层 |阅读模式
    4.2 Taobao File System$ P; V' r4 Y: m* w8 D2 m
    互联网应用经常需要存储用户上传的文档、图片、视频等,比如Facebook相- g7 ^8 A6 l/ v4 `- a: c
    册、淘宝图片、Dropbox文档等。文档、图片、视频一般称为Blob数据,存储Blob数
    ' g8 C4 p- G1 u) U* V据的文件系统也相应地称为Blob存储系统。每个Blob数据一般都比较大,而且多个
    - j- t) w. A' t7 oBlob之间没有关联。Blob文件系统的特点是数据写入后基本都是只读,很少出现更0 W( w0 o8 d2 ^2 O8 Y: V
    新操作。这两节分别以Taobao File System和Facebook Haystack为例说明Blob文件系统7 o/ F+ m9 }5 S8 }7 b, c2 q
    的架构。  C3 ]2 Y( N' [1 G- N
    2007年以前淘宝的图片存储系统使用了昂贵的NetApp存储设备,由于淘宝数据
    5 P& j( H& i; D$ k2 \! z( A' B+ R量大且增长很快,出于性能和成本的考虑,淘宝自主研发了Blob存储系统Tabao File0 i. J- r% u% a' }9 z$ V, |
    System(TFS)。目前,TFS中存储的图片规模已经达到百亿级别。
    7 n1 ]6 [' X+ V5 }8 x2 _5 QTFS架构设计时需要考虑如下两个问题:* l8 X& y1 N3 Q& z: R# @; T
    ●Metadata信息存储。由于图片数量巨大,单机存放不了所有的元数据信息,假' ]( P+ F+ H: k* o- J
    设每个图片文件的元数据占用100字节,100亿图片的元数据占用的空间为
    / j- j6 Z) E: v* B10G×0.1KB=1TB,单台机器无法提供元数据服务。1 C- F* a; Y  l8 {; |
    ●减少图片读取的IO次数。在普通的Linux文件系统中,读取一个文件包括三次
    7 A$ S- Y; u" [& P& T( ]( P磁盘IO:首先读取目录元数据到内存,其次把文件的inode节点装载到内存,最后读* h% d5 \' _  f& o. V
    取实际的文件内容。由于小文件个数太多,无法将所有目录及文件的inode信息缓存2 [. I+ I1 @$ ?- h% z3 R
    到内存,因此磁盘IO次数很难达到每个图片读取只需要一次磁盘IO的理想状态。
    & P% @" b' L9 ?# d因此,TFS设计时采用的思路是:多个逻辑图片文件共享一个物理文件。
    2 [2 p, O9 e' `# Y/ U6 ]4.2.1 系统架构
    ) T8 T( x8 b3 c0 t. t$ V" E4 ITFS架构上借鉴了GFS,但与GFS又有很大的不同。首先,TFS内部不维护文件! M9 z  j( C3 q# w* M% _
    目录树,每个小文件使用一个64位的编号表示;其次,TFS是一个读多写少的应用,- P/ f0 ^) N; [2 P3 Z' I
    相比GFS,TFS的写流程可以做得更加简单有效。' ?) |/ f6 o* M7 N! o: m5 E5 O' ~. v
    如图4-4所示,一个TFS集群由两个NameServer节点(一主一备)和多个
    ; U. W5 O2 `0 }8 Y% Y1 [3 K$ TDataServer节点组成,NameServer通过心跳对DataSrver的状态进行监测。NameServer1 P6 U1 A( f  v% @) J2 t) W
    相当于GFS中的Master,DataServer相当于GFS中的ChunkServer。NameServer区分为主, X$ l' C. @7 s0 `
    NameServer和备NameServer,只有主NameServer提供服务,当主NameServer出现故障
    * u# \% G  V: K5 U$ }! p$ S, b时,能够被心跳守护进程检测到,并将服务切换到备NameServer。每个DataServer上
    1 P0 I- H/ s3 j/ ?* l+ u会运行多个dsp进程,一个dsp对应一个挂载点,这个挂载点一般对应一个独立磁盘,, t1 u- |& `' d, ~+ _
    从而管理多块磁盘。" ?3 O; g$ w& d6 T5 n. e! {, `
    图 4-4 TFS整体架构
    . m; z* c' k0 H% K  @+ l( ^% d  s在TFS中,将大量的小文件(实际数据文件)合并成一个大文件,这个大文件称7 q' `; M$ `6 U) z/ z  P8 X' h/ ~
    为块(Block),每个Block拥有在集群内唯一的编号(块ID),通过<块ID,块内偏0 d& w) K2 c$ G& G  [/ R9 W
    移>可以唯一确定一个文件。TFS中Block的实际数据都存储在DataServer中,大小一" s/ p7 P- G$ u* D5 \2 T* O4 E
    般为64MB,默认存储三份,相当于GFS中的chunk。应用客户端是TFS提供给应用程+ r0 a7 v0 u( V5 T! E( o3 r  Y
    序的访问接口,应用客户端不缓存文件数据,只缓存NameServer的元数据。) U% ~" h0 C! j, _/ |7 i0 ~) g
    1.追加流程* S8 D, M; i7 Q# M( @3 M
    TFS中的追加流程相比GFS要简单有效很多。GFS中为了减少对Master的压力,' R/ w& P9 K( x4 N
    引入了租约机制,从而将修改权限下放到主ChunkServer,很多追加操作都不需要9 u1 q7 u' U% @6 C- H: f
    Master参与。然而,TFS是写少读多的应用,即使每次写操作都需要经过NameNode9 t3 {) b* e% [- ]7 N* J' B6 T8 a
    也不会出现问题,大大简化了系统的设计。另外,TFS中也不需要支持类似GFS的多& V; x9 T. Q: o. J4 A, ~! Z
    客户端并发追加操作,同一时刻每个Block只能有一个写操作,多个客户端的写操作
    % H6 a( `. ^$ R会被串行化。5 ?; d3 W, z9 c, o- P; L/ ^  _
    如图4-5所示,客户端首先向NameServer发起写请求,NameServer需要根据) F2 @) Z8 ^3 O: M3 m
    DataServer上的可写块、容量和负载加权平均来选择一个可写的Block,并且在该; j; F8 O( e' O( P3 h
    Block所在的多个DataServer中选择一个作为写入的主副本(Primary),其他的作为  ~7 |/ V, `' L/ ^  l; X
    备副本(Secondary)。接着,客户端向主副本写入数据,主副本将数据同步到多个3 j6 [( q/ c4 a/ I6 S) t0 T: e
    备副本。如果所有的副本都修改成功,主副本会首先通知NameServer更新Block的版
    . C3 ]8 h* M( g% Y/ P" T本号,成功以后才会返回客户端操作结果。如果中间发生任何错误,客户端都可以  o; G& ^; u9 q
    从第一步开始重试。相比GFS,TFS的写流程不够优化,第一,每个写请求都需要多次
    4 w. y, K9 z, p+ D' a访问NameServer;第二,数据推送也没有采用流水线方式减小延迟。淘宝的系统是
    # h# \5 b% d/ H: @需求驱动的,用最简单的方式解决用户面临的问题。
    " i' s  i1 b* v; @4 ]: v: F( g图 4-5 TFS追加流程2 I0 o" a0 F+ J8 e
    每个写操作返回后,会返回客户端两个信息,小文件在TFS中的Block编号* b8 s+ X+ ~' q. f; u4 r8 f
    (Block id)以及Block偏移(Block offset)。应用系统会将这些信息保存到数据库/ d; [- x2 F4 n- `
    中,图片读取的时候首先根据Block编号从NameServer查找Block所在的DataServer,
    9 X( R; \, u# T7 m9 |) u" t% W然后根据Block偏移读取图片数据。TFS的一致性模型保证所有返回给客户端的<& g# d' s6 f, B
    Blockid,Block offset>标识的图片数据在TFS中的所有副本都是有效的。$ j. k' j6 e9 N8 u* ?+ v# b1 N
    2.NameServer
    5 J* e% O6 S/ C0 x5 {7 w; S) W! d% ~. fNameServer主要功能是:Block管理,包括创建、删除、复制、重新均衡;Data-1 q: ^  \9 l  G0 `) ?
    Server管理,包括心跳、DataServer加入及退出;以及管理Block与所在DataServer之% `6 {/ ~: i+ F* {" G1 d) H
    间的映射关系。与GFS Master相比,TFS NameServer最大的不同就是不需要保存文件
    . G) S' t; h( ]; G& t! L目录树信息,也不需要维护文件与Block之间的映射关系。. n9 S8 T" X! M9 G, ?
    NameServer与DataServer之间保持心跳,如果NameServer发现某台DataServer发
    8 c7 n: Y8 B( J生故障,需要执行Block复制操作;如果新DataServer加入,NameServer会触发Block8 a7 [% ^, ^" J1 U1 t3 n
    负载均衡操作。和GFS类似,TFS的负载均衡需要考虑很多因素,如机架分布、磁盘& i- T5 ]1 F4 ?6 k; h
    利用率、DataServer读写负载等。另外,新DataServer加入集群时也需要限制同时迁
    7 N( Q9 v6 b2 ~) @; G- l入的Block数量防止被压垮。, W  G' z/ d6 G8 z' f  U: m
    NameServer采用了HA结构,一主一备,主NameServer上的操作会重放至备
    5 R3 v2 s- h- i& jNameServer。如果主NameServer出现问题,可以实时切换到备NameServer。. a& W: i+ T7 n( H# T7 m2 m
    4.2.2 讨论' T6 T+ n* S: h- D/ n
    图片应用中有几个问题,第一个问题是图片去重,第二个问题是图片更新与删+ C& T$ r  f' y: X' @8 E4 l
    除。, I% m) D! L6 O+ [3 H
    由于用户可能上传大量相同的图片,因此,图片上传到TFS前,需要去重。一般9 Q7 }! q" A% `  B" U; e/ O
    在外部维护一套文件级别的去重系统(Dedup),采用MD5或者SHA1等Hash算法为/ j5 P, D2 e0 N5 d9 f* [4 K
    图片文件计算指纹(FingerPrint)。图片写入TFS之前首先到去重系统中查找是否存
    , U7 m' F9 }' \+ c8 B0 ^0 J在指纹,如果已经存在,基本可以认为是重复图片;图片写入TFS以后也需要将图片$ o/ h2 b6 S7 s/ s( O( M
    的指纹以及在TFS中的位置信息保存到去重系统中。去重是一个键值存储系统,淘宝
    , H# p' P, Y: I6 S4 z0 C' C6 j内部使用5.2节中的Tair来进行图片去重。5 k1 w/ _" c9 ^5 ]* n3 }5 E# X! T' `
    图片的更新操作是在TFS中写入新图片,并在应用系统的数据库中保存新图片的) @; D7 ]% [: |, J
    位置,图片的删除操作仅仅在应用系统中将图片删除。图片在TFS中的位置是通过<3 I# q+ ?% w$ d2 q4 u+ R' M6 {+ N
    Block id,Block offset>标识的,且Block偏移是在Block文件中的物理偏移,因此,每
    ; V% B8 N6 y+ p/ y个Block中只要还有一个有效的图片文件就无法回收,也无法对Block文件进行重整。
    3 G# c5 l: m" x0 n如果系统的更新和删除比较频繁,需要考虑磁盘空间的回收,这点会在Facebook
    8 v' d& N" N! xHaystack系统中具体说明。
    9 |- M  _% Z2 W' O6 Q3 Z
    1 b5 A4 S8 @" T. B( E
    9 u+ D  A& `8 c' ~! n$ a& q
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|Archiver|手机版|小黑屋|Java自学网

    GMT+8, 2025-4-1 13:45 , Processed in 0.124527 second(s), 32 queries .

    Powered by Javazx

    Copyright © 2012-2022, Javazx Cloud.

    快速回复 返回顶部 返回列表