|
第7章 分布式数据库* n+ K: U7 h( K0 V1 M
关系数据库理论汇集了计算机科学家几十年的智慧,Oracle、Microsoft SQL
$ b& x" f, F8 I) [8 rServer、MySQL等关系数据库系统广泛应用在各行各业中。可以说,没有关系数据
5 Y7 W1 q+ X; N3 H3 o6 d; V( f1 w库,就没有今天的IT或者互联网行业。然而,关系数据库设计之初并没有预见到IT行
/ Q$ s. U2 C2 d# y9 f业发展如此之快,总是假设系统运行在单机这一封闭系统上。! S9 J) e+ B/ C+ C& ~0 Z8 h6 n+ ~
有很多思路可以实现关系数据库的可扩展性。例如,在应用层划分数据,将不
' Q( \0 l# h* Z+ h" M% A1 r同的数据分片划分到不同的关系数据库上,如MySQL Sharding;或者在关系数据库内: `7 Q3 P r/ s# }+ r
部支持数据自动分片,如Microsoft SQL Azure;或者干脆从存储引擎开始重写一个全
; U [. c: I+ y/ b/ {7 U新的分布式数据库,如Google Spanner以及Alibaba OceanBase。% P, d* g) y0 R3 b) G
本章首先介绍数据库中间层架构,接着介绍Microsoft SQL Azure,最后介绍
+ t( K1 p, ]0 `8 V; sGoogle Spanner。
" z, a9 p* h" W6 b9 A0 J4 F7.1 数据库中间层; Q. f9 t, x$ K0 x% y! g3 g) Z
为了扩展关系数据库,最简单也是最为常见的做法就是应用层按照规则将数据
# _( I3 C! }4 ?8 ]拆分为多个分片,分布到多个数据库节点,并引入一个中间层来对应用屏蔽后端的1 S8 Y' [: v* B" \) k% h
数据库拆分细节。
1 T& z6 D: P5 s3 | z$ a7.1.1 架构- m% q. y+ ]: W- {- o( N+ S: k% ~
以MySQL Sharding架构为例,分为几个部分:中间层dbproxy集群、数据库组、/ r3 X8 {0 I3 T6 M# ~
元数据服务器、常驻进程,如图7-1所示。& S x* h, `& ]; T
图 7-1 数据库中间层架构6 a- ~4 r9 P; h f2 }
(1)MySQL客户端库
% y0 k: V( {# P应用程序通过MySQL原生的客户端与系统交互,支持JDBC,原有的单机访问数/ E! z- r4 d5 j* Z5 k1 q3 g
据库程序可以无缝迁移。* w# |) z+ W2 o% |. {2 B0 ^, X
(2)中间层dbproxy
1 p. U* B' p1 Y. v1 P( g中间层解析客户端SQL请求并转发到后端的数据库。具体来讲,它解析MySQL9 t8 i p+ p, ?5 H1 }7 P
协议,执行SQL路由,SQL过滤,读写分离,结果归并,排序以及分组,等等。中间
3 r7 j, I* P: C6 m: ~层由多个无状态的dbproxy进程组成,不存在单点的情况。另外,可以在客户端与中
4 h3 n% n- S* Z8 Q2 s间层之间引入LVS(Linux Virtual Server)对客户端请求进行负载均衡。需要注意的4 L) K( D6 y2 J' I+ S" n8 i
是,引入LVS后,客户端请求需要额外增加一层通信开销,因此,常见的做法是直接" P5 e6 _! y$ M7 Z8 {2 q2 Z& ?
在客户端配置中间层服务器列表,由客户端处理请求负载均衡以及中间层服务器故1 B) _ a' R; W$ e* |) M3 Y. I
障等情况。
9 ? z! d8 B* N$ f8 l5 O) _% ~% s(3)数据库组dbgroup
{; O+ @; X) K; f# A6 d每个dbgroup由N台数据库机器组成,其中一台为主机(Master),另外N-1台为
4 H3 o$ N7 I$ K: j5 G. K7 k备机(Slave)。主机负责所有的写事务及强一致读事务,并将操作以binlog的形式复" L6 H3 @; s- [4 z, u$ f! d7 ]
制到备机,备机可以支持有一定延迟的读事务。
: b% A# t2 ]) B8 ~(4)元数据服务器
& a/ Y; @$ F8 C" O! v( |元数据服务器主要负责维护dbgroup拆分规则并用于dbgroup选主。dbproxy通过元
# E4 u+ T% Z# H. U/ a7 W数据服务器获取拆分规则从而确定SQL语句的执行计划。另外,如果dbgroup的主机
# B' Z2 b4 _& F% A出现故障,需要通过元数据服务器选主。元数据服务器本身也需要多个副本实现# m( G& v2 j/ u+ s) i( f. h
HA,一种常见的方式是采用Zookeeper实现。) p. p) o8 j( D6 p- v
(5)常驻进程agents3 S( ]5 Q# a+ Z5 t
部署在每台数据库服务器上的常驻进程,用于实现监控,单点切换,安装,卸, _- _& B3 x" v7 y; M- y
载程序等。dbgroup中的数据库需要进行主备切换,软件升级等,这些控制逻辑需要9 p" C! K* a) N! Z
与数据库读写事务处理逻辑隔离开来。
# }7 A0 f" m# y$ T4 j假设数据库按照用户哈希分区,同一个用户的数据分布在一个数据库组上。如5 X' r) X5 c6 V1 U& z$ u! w
果SQL请求只涉及同一个用户(这对于大多数应用都是成立的),那么,中间层将请
" L& k; V {- `' |' U# |4 M" K求转发给相应的数据库组,等待返回结果并将结果返回给客户端;如果SQL请求涉及
$ _: C9 z& K0 s( }多个用户,那么中间层需要转发给多个数据库组,等待返回结果并将结果执行合
, U. ]$ x$ e6 W0 y并、分组、排序等操作后返回客户端。由于中间层的协议与MySQL兼容,客户端完. L2 X& c5 A' P' |7 h
全感受不到与访问单台MySQL机器之间的差别。
$ ?! l1 X) @2 U# }, o7.1.2 扩容' n4 S6 F- p& n% t
MySQL Sharding集群一般按照用户id进行哈希分区,这里面存在两个问题:
# u0 Q8 j0 U8 \7 _( B. B- H1)集群的容量不够怎么办?
! j0 u0 U B# t3 ~; N& T/ [2)单个用户的数据量太大怎么办?
4 D% D# r: e5 }+ w1 e5 \: Y对于第1个问题,MySQL Sharding集群往往会采用双倍扩容的方案,即从2台服务
$ R* _; ]# h- s B& q0 d9 S% s9 d器扩到4台,接着再扩到8台……,依次类推。
8 h/ `0 U/ V* q( Z) a假设原来有2个dbgroup,第一个dbgroup的主机为A0,备机为A1,第二个dbgroup, X4 o+ a! h# [
的主机为B0,备机为B1。按照用户id哈希取模,结果为奇数的用户分布在第一个. M! A' n/ N/ D: G- T
dbgroup,结果为偶数的用户分布在第二个dbgroup。常见的一种扩容方式如下:
2 ^% J" n' \1 z2 R1)等待A0和B0的数据同步到其备服务器,即A1和B1。: S6 F% R5 h! k8 O. E9 Y9 n9 u
2)停止写服务,等待主备完全同步后解除A0与A1、B0与B1之间的主备关系。
4 ~. V9 u! C9 x' n3)修改中间层的映射规则,将哈希值模4等于1的用户数据映射到A1,哈希值模! V2 H9 W4 a- o( n! Q/ K
4等于3的用户数据映射到B1。
, `9 E; x5 d; ~4)开启写服务,用户id哈希值模4等于0、1、2、3的数据将分别写入到A0、; q* ^0 F( j6 Y
A1、B0、B1。这就相当于有一半的数据分别从A0、B0迁移到A1、B1。
. u& ?3 S3 p" g: T& [$ x' t5)分别给A0、A1、B0、B1增加一台备机。
6 Z! M9 w7 n9 x最终,集群由2个dbgroup变为4个dbgroup。可以看到,扩容过程需要停一小会儿, c$ q7 q5 y1 C
服务,另外,扩容进行过程中如果再次发生服务器故障,将使扩容变得非常复杂,# F: r% g& l( X9 r3 `
很难做到完全自动化。, M: I' I, o2 m4 Y8 S
对于第2个问题,可以在应用层定期统计大用户,并且将这些用户的数据按照数
6 _1 l' E7 `. F9 e据量拆分到多个dbgroup。当然,定期维护这些信息对应用层是一个很大的代价。
9 |9 j: r5 C! l; {7.1.3 讨论
7 L2 o; E7 t7 C引入数据库中间层将后端分库分表对应用透明化在大型互联网公司内部很常% w8 x! w' e+ ?! T- ~4 t- Q* j
见。这种做法实现简单,对应用友好,但也面临一些问题:+ B& N; |. u/ Y* ^
●数据库复制:MySQL主备之间只支持异步复制,而且主库压力较大时可能产生
7 d5 W$ O# l: p/ Y0 ^4 H# ^% o很大的延迟,因此,主备切换可能会丢失最后一部分更新事务,这时往往需要人工' |) o; |! m; L1 h! y, o, U
介入。, @9 U2 E. V& B: `
●扩容问题:如果系统压力过大需要增加新的机器,这个过程涉及数据重新划
- Q; V. ]' N( s8 |2 K0 E分,整个过程比较复杂,且容易出错。
o% ?% T' b8 v, @3 x●动态数据迁移问题:如果某个数据库组压力过大,需要将其中部分数据迁移出
~0 h9 ^9 X: U3 U$ A( O x: {7 O) n去,迁移过程需要总控节点整体协调,以及数据库节点的配合。这个过程很难做到
7 q- \5 b. K' l$ G0 o9 s' l+ E) c自动化。# \: Z/ M2 `- ]' j5 W6 |
1 r! V3 L4 D( G, W
9 w; D/ J( t. W9 K! {
|
|