|
12.6 云存储技术体系
! s+ w9 k6 \0 P# [# ^4 i* P云存储涉及的知识面很广,既涉及云存储服务端的技术,又涉及终端设备应用6 ^4 g: @4 P9 W3 _4 `
开发相关的技术。本书关注云存储系统服务端技术,其技术体系如图12-8所示。
& D9 R m2 ~+ g# ^) v/ @图 12-8 云存储技术体系
! V$ R7 _. J: i' m, Y& A云存储技术体系结构分为四层:硬件层、单机存储层、分布式存储层、存储访
- h* X: |. S! r6 b问层,下面分别介绍。' O; ^1 [8 F4 U5 ]+ H3 W/ j: D
(1)硬件层
6 m/ i2 s; x( c. Q" V& V硬件层包括存储、网络以及CPU。在存储方面,除了传统的SAS或者SATA磁
* u: n' q/ w, d4 X! e3 ?盘,SSD技术发展迅猛;在网络方面,千兆网卡已经普及,万兆网卡离我们越来越. V3 C% R6 o8 n, h
近,Google这样的互联网巨头已经开始尝试通过软件自定义交换机;在CPU层面,
; M4 r) r3 y# l7 [4 ? dIntel x86架构成为主流,低功耗逐步成为研究热点。为了降低成本和能耗,云存储服4 k5 K/ L: g0 w, l; i
务提供商往往会定制服务器,甚至自建数据中心,需要考虑电源、冷却、
8 ~ K, ]) M) P2 ]$ V) \5 b" M) ?PUE(Power Usage Efficiency,能源使用效率)等各种问题。
6 \/ C' `/ h& {5 C( ]& `(2)单机存储层( L, {8 C6 J# V% X/ r2 q
云存储系统的底层大多为定制的Linux操作系统,服务提供商需要在文件系统、 n+ C5 H# a) k* P% M& @2 h; s- f
网络协议以及CPU和内存使用上对Linux系统进行大量的定制化工作。单机存储系统
; M5 h5 ?2 E! ~( M5 v4 `% c' V大致分为两类:传统的关系数据库以及NoSQL存储系统。关系数据库支持二维的关7 q) \! b' K% M+ V! H# C
系模式,并提供关系数据库查询语言SQL,支持事务,索引等操作,使用比较方便。
L1 O, w5 j5 S8 P* _5 Z6 t3 ?NoSQL存储系统则百花齐放,常见的NoSQL系统包括仅支持根据主键进行/ D' |( A% P& k; Z7 o6 ]. B
CRUD(Create,Read,Update,Delete)操作的键值(Key-Value)存储系统,也有基于传
. ~& Q) y+ k; \0 O. Q, d. `统的B树或者LSM树(Log-Structured Merge Tree)的存储系统。3 X9 j" L; q) A/ \' d2 x1 j0 I$ C
(3)分布式存储层
+ y+ W. H8 N* I6 F l分布式存储层是云存储技术的核心,也是最难实现的部分。分布式存储系统需
4 h8 a; K0 r8 L+ d$ u, j+ h要能够将数据均匀地分散到多个存储节点上,另外,为了保证高可靠性和高可用
4 P+ C* a6 i: v- j) S性,需要将数据复制到多个存储节点并保证一致性。当存储节点出现故障时,需要
( Y0 j5 X) @+ e7 g! o ]能够自动检测到节点故障并将服务迁移到其他正常工作的节点。分布式存储层依赖4 f$ W$ z: l9 I2 {4 w7 P |) H
一些基础服务,常见的包括分布式锁服务(例如Google Chubby系统),以及集群资
! h2 j2 g8 n- ^% T( n8 q# l源管理服务(例如Google Borg系统)。另外,分布式存储层包含分布式缓存以及服& _) V' Q3 d/ {! `6 F
务总线,分布式缓存用于提高访问性能,服务总线用于云平台应用逻辑解耦。云存
! ?' ~% I0 K3 B, Y9 m; K储系统既存储无结构化数据,又存储半结构化以及结构化数据,分别对应分布式文
5 e% d1 x$ |0 X1 T& ?件系统、分布式表格系统以及分布式数据库,而CDN以及P2P技术将云存储系统中的* a& Q$ o7 N8 J1 J# [3 ~
热点数据缓存到离用户较近的边缘节点或者临近的其他用户的客户端,从而起到访
2 S, ~7 p7 [$ Y* ^4 ], A问加速的作用,并且节省云存储服务提供商的网络带宽成本。
, D% s$ L% G$ j" m- q& l$ J(4)存储访问层
, [' @& ^& N5 ~" s% \1 Q0 j云存储系统通过存储访问层被个人用户的终端设备直接访问,或者被云存储平
0 E+ J- B d# v2 i4 r台中托管的应用程序访问。云存储访问层的功能包括:Web服务、负载均衡、安全服! U' X6 x$ c+ `
务以及计费。云存储系统对外提供统一的访问接口,常见的接口是REST或者SOAP5 {# k1 S8 c$ o! D( k+ v
这样的Web服务,需要通过Apache或者Nginx这样的Web服务器进行协议转化,Web服
6 l# c- |1 w0 p5 q* s; K9 L: H务器前端经常使用LVS(Linux Virtual Server)、HaProxy这样的软件或者专业的负载+ C* F' [* L) ?, Z5 T, S; D3 R! c
均衡设备(如F5负载均衡器)进行负载均衡。存储访问层需要提供安全和计费服
9 o! b$ J% M! R2 V务,安全服务包括身份认证、访问授权、综合防护、安全审计、DDos攻击预防/防火
. }& t5 n+ k1 U$ w/ P墙等。! @8 b; c8 B0 w( x
用户的应用程序可能会托管在应用运行平台中,应用场景大致分为三类:9 s% O8 T# P& Z- ^" Q$ [
●弹性计算平台。典型的弹性计算平台为Amazon EC2以及Microsoft的各种虚拟机
7 O" c% \9 K! S# P5 q' a* v# z实例,底层涉及的技术包括虚拟机、自动伸缩。弹性计算平台通过虚拟机自身的机* L1 e3 \1 [0 H8 b! \+ x6 `
制来保证云安全,比如虚拟机安全隔离、虚拟机防火墙。基于虚拟机的弹性计算平4 G4 w% r; q5 z/ ]. D
台的优势在于兼容性,支持各种编程语言和平台。4 C$ ~. \0 C L" H
●云引擎。典型的云引擎为Google App Engine,底层设计的涉及的技术主要是应% O$ I1 V2 A( [9 `* _8 L
用容器(比如Java Tomcat、Jetty,Python Runtime)以及应用容器自动伸缩。当应用的
! i, {2 P' A/ x1 c( \# q负载过高时,自动增加应用的运行容器数;反之,自动减少应用的运行容器数。云
, n) u0 |# S- ~+ S& X5 B; N引擎通过应用容器的沙箱机制来保证安全性,App Engine的沙箱环境通过限制每个请1 P" q: y! m5 \7 r% F
求的执行时间来防止多租户之间干扰,另外,限制应用程序对网络、文件进行一些; `4 t0 k+ B, u/ k
危险操作。云引擎与云存储服务提供商结合较好,但是对于每种不同的编程语言都- D2 {' b, n' F2 _
需要定制相应的应用容器,对编程语言和平台支持比较有限。
; M. a. l+ ?* w8 Y' w. }" k& d: ]●分布式计算。云平台往往会支持分布式计算,通过后台的计算实例执行耗时较. x8 ^, ]5 [2 }! \* a6 t! r
长的计算任务。MapReduce是最为常见的分布式计算模型,云平台一般都支持开源的# m2 S) n4 p- e; I$ |
Hadoop MapReduce计算框架。除了MapReduce之外,还有很多针对特定应用场景的; }* Y2 C, L/ P0 x5 C
计算模型,例如MPI(Message Passing Interface)、BSP(Bulk Synchronous Parallel)8 Y1 F l2 x/ u& n+ n
等。) N! T. s4 S7 f$ [% w7 m
& @6 n0 ^' Y6 o2 E4 N
+ B( U; x( Z0 o% f7 H3 r. R5 w9 o |
|