|
10.3 写事务
/ [: N' S. O% z% w写事务,包括更新(UPDATE)、插入(INSERT)、删除(DELETE)、替换
/ y( y: t3 n" x) X8 |$ R(REPLACE,插入或者更新,如果行不存在则插入新行;否则,更新已有行),由
: e! z" w( k" ?5 ~0 {/ _MergeServer解析后生成物理执行计划,这个物理执行计划最终将发给UpdateServer执
1 D7 D* V6 ^% ^# ^; X行。写事务可能需要读取基线数据,用于判断更新或者插入的数据行是否存在,判- Z- r G) p/ |5 b4 c. ~
断某个条件是否满足,等等,这些基线数据也会由MergeServer传给UpdateServer。* x9 Z, ]) e5 P1 r
10.3.1 写事务执行流程) E! m3 @& n6 g7 `+ F) C
大部分写事务都是针对单行的操作,如果单行事务不带其他条件:
2 G0 M5 R h* m) y●REPLACE:REPLACE事务不关心写入行是否已经存在,因此,MergeServer直 |" l: ^! F- Y- }) u% V2 z
接将修改操作发送给UpdateServer执行。6 b. F- U6 z# i l9 W% M: ^
●INSERT:MergeServer首先读取ChunkServer中的基线数据,并将基线数据中行
; M* a2 m' C* O是否存在信息发送给UpdateServer,UpdateServer接着查看增量数据中行是否被删除或
8 `6 j/ V& f# c- ]* I Y" J6 D者有新的修改操作,融合基线数据和增量数据后,如果行不存在,则执行插入操+ c* O3 O1 V) w
作;否则,返回行已存在错误。2 |' O) z) m& O! J3 }
●UPDATE:与INSERT事务执行步骤类似,不同点在于,行已存在则执行更新操: ~- E- l3 h9 j- s' @
作;否则,什么也不做。# G8 q5 \4 L3 P1 u
●DELETE:与UPDATE事务执行步骤类似。如果行已存在则执行删除操作;否' g# [2 L# k, s/ o. Z0 Y8 z0 B
则,什么也不做。
m4 f C4 {% O4 F7 ]. H如果单行写事务带有其他条件:9 U& I$ w; u! f c
●UPDATE:如果UPDATE事务带有其他条件,那么,MergeServer除了从基线数2 `7 ^3 U; V1 c( R) N. p
据中读取行是否存在,还需要读取用于条件判断的基线数据,并传给UpdateServer。0 `/ y* G. M! s4 w. O. H% d
UpdateServer融合基线数据和增量数据后,将会执行条件判断,如果行存在且判断条
% C; @+ e9 ~. n; l* B件成立则执行更新操作。否则,返回行已存在或者条件不成立错误。
0 V$ z/ f4 G9 ?: n●DELETE:与UPDATE事务执行步骤类似。$ U2 [; a- D- G% \$ R/ b. W1 l. x- V! l
例10-6 有一张表格item(user_id,item_id,item_status,item_name),其中,<
" u( l1 d+ C5 ]3 y# ?user_id,item_id>为联合主键。
/ _" _5 _7 y7 \9 [, FMergeServer首先解析图10-6的SQL语句产生执行计划,确定待修改行的主键为
+ x0 F7 Z8 C; t. k<1,2>,接着,请求主键<1,2>所在的ChunkServer,获取基线数据中行是否存
" |3 T) ?) m. G" ]- T# Q: }9 q8 p在,最后,将SQL执行计划和基线数据中行是否存在一起发送给UpdateServer。' o3 |. `2 [: F: v* {; Y4 T* C
UpdateServer融合基线数据和增量数据,如果行已存在且未被删除,UPDATE和
2 \6 _' J" N* T! U5 I5 W( {) b: jDELETE语句执行成功,INSERT语句执行返回“行已存在”;如果行不存在或者最后) l0 V r% ~' g' e2 g: S
被删除,INSERT语句执行成功,UPDATE和DELETE语句返回“行不存在”。6 T1 D5 L( y: g1 m
图 10-6 单行写事务(不带条件)
1 g" D7 w2 g& F- Z8 k: t6 L) v图10-7中的UPDATE和DELETE语句还带有item_name="item1"的条件,
# B% i9 x* w. p9 lMergeServer除了请求ChunkServer获取基线数据中行是否存在,还需要获取item_name& a8 |$ n4 H4 z
的内容,并将这些信息一起发送给UpdateServer。UpdateServer融合基线数据和增量. ? W8 M2 J+ m- g; ]$ X1 x
数据,判断最终结果中行是否存在,以及item_name的内容是否为"item1",只有两个
; f; c- _7 n: z+ L. h( R7 g条件同时成立,UPDATE和DELETE语句才能够执行成功;否则,返回“行不存在或者
$ W2 s8 X. K% h' G2 c3 q3 Ritem_name列的内容不符合预期”。 J4 ?) [5 V# I6 R2 e" `) _
图 10-7 单行写事务(带条件); y0 p, O1 F( k! [- T- h, I2 n0 J
当然,并不是所有的写事务都这么简单。复杂的写事务可能需要修改多行数
' g9 x5 U, z' [* r% `6 }1 b( K据,事务执行过程也可能比较复杂。
/ I- Z7 Z5 d d% @例10-7 有两张表格item(user_id,item_id,item_status,item_name)以及
8 J' l4 J) A& p3 W/ j3 ]8 vuser(user_id,user_name)。其中,<user_id,item_id>为item表格的联合主键,
- X: w# q3 \# l# X5 T% m) d/ v: muser_id为user表格的主键。2 k( _( K N$ G, W+ N. l! Z
图10-8的UPDATE语句可能会更新多行。MergeServer首先从ChunkServer获取编$ `6 h; e* Q, a* n# |. B0 ]
号为1的用户包含的全部item(可能包含多行),并传给UpdateServer。接着,- q1 P6 G9 g( B7 Q9 H
UpdateServer融合基线数据和增量数据,更新每个存在且未被删除的item的item_status o$ ~& Q2 z: h* |9 _$ z% [
列。
F- T( ]+ o' Z6 u: _图 10-8 复杂写事务举例! } ]+ s3 F" \- y
图10-8的DELETE语句更加复杂,执行时需要首先获取user_name为“张三”的用户; {+ a5 I, j' i' |
的user_id,考虑到事务隔离级别,这里可能需要锁住user_name为“张三”的数据行
' J2 ]# k0 L! y(防止user_name被修改为其他值)甚至锁住整张user表(防止其他行的user_name修
0 r2 k8 \/ U9 e6 b2 h3 A改为“张三”或者插入user_name为“张三”的新行)。接着,获取用户名为“张三”的所 I8 [' Q! m' f; |& D" g- k* K
有用户的所有item,最后,删除这些item。这条语句执行的难点在于如何降低锁粒度
5 b; Z6 I- Q. C& H( u以及锁占用时间,具体的做法请读者自行思考。
+ S* D+ F$ @7 l4 z: c8 ]6 z10.3.2 多版本并发控制, p) N+ F2 R; r/ [* L8 C+ @# u
OceanBase的MemTable包含两个部分:索引结构及行操作链。其中,索引结构存& A. y" q% V/ E4 k O
储行头信息,采用9.1.2节中的内存B树实现;行操作链表中存储了不同版本的修改操+ s2 D' C/ j; S
作,从而支持多版本并发控制。6 a1 d/ H9 X. ~8 F4 E! b
OceanBase支持多线程并发修改,写操作拆分为两个阶段:
0 o, s9 H" m/ j! Y3 i( U/ `4 w6 N●预提交(多线程执行):事务执行线程首先锁住待更新数据行,接着,将事务
* ]5 o& X" l3 `" I+ i0 ^中针对数据行的操作追加到该行的未提交行操作链表中,最后,往提交任务队列中9 \ G; e4 ]" r3 R! a! R6 Y2 B
加入一个提交任务。7 O; z. G5 e- I7 y0 R, }7 }) e8 v
●提交(单线程执行):提交线程不断地扫描并取出提交任务队列中的提交任
4 E# v+ Q/ F. u' ]务,将这些任务的操作日志追加到日志缓冲区中。如果日志缓冲区到达一定大小,
3 c3 i; x) y4 d& [4 a1 P将日志缓冲区中的数据同步到备机,同时写入主机的磁盘日志文件。操作日志写成
Z! ]! O% o) z9 z5 S/ l: x, ~- D: t功后,将未提交行操作链表中的cell操作追加到已提交行操作链表的末尾,释放锁并/ l2 M# A, r/ K3 |, R/ Z; p
回复客户端写操作成功。3 @+ n' z/ q; r' X$ `
如图10-9所示,MemTable行操作链表包含两个部分:已提交部分和未提交部: `4 w0 h* R* R
分。另外,每个事务管理结构记录了当前事务正在操作的数据行的行头,每个数据- r9 w% Z+ E) r- }
行的行头包含已提交和未提交行操作链表的头部指针。在预提交阶段,每个事务会
9 U; V7 S" O. ?将cell操作追加到未提交行操作链表中,并在行头保存未提交行操作链表的头部指针
# N- p$ `5 P' v* q& k; W7 Y. y以及锁信息,同时,将行头信息记录到事务管理结构中;在提交阶段,根据事务管# [' z6 p4 }, ~7 S/ s; N% g
理结构中记录的行头信息找到未提交行操作链表,链接到已提交行操作链表的末
: C! \; v5 t: P: p0 f& W' o尾,并释放行头记录的锁。& b4 m1 [5 }, m3 y4 Z
Class ObTransExecutor
' p6 A" [1 _! `6 C{
5 Y8 q \$ g! g, w8 mpublic:7 d3 d# c* @( E2 p# Z& u
//处理预提交任务- N& W& G7 G* n; y) m0 X
void handle_trans(void*ptask,void*pdata);/ H) G: D" H2 U! o7 O; j
//处理提交任务
; \# f" q& T! E8 X: c+ [ _void handle_commit(void*ptask,void*pdata);1 h& r1 Z4 f3 x; a- i8 s U
};9 n Y& I) b& G& _1 Q
图 10-9 MemTable实现MVCC" o4 |5 p. e# s0 a
ObTransExecutor是UpdateServer读写事务处理的入口类,它主要包含两个方法:; k0 t* Q2 k/ e
handle_trans以及handle_commit。其中,handle_trans处理预提交任务,handle_commit# f8 e/ N: \) e) v9 b
处理提交任务。handle_trans首先将写事务预提交到MemTable中,接着将写事务加入
, t! l9 A5 S; ~) a( @$ Q; a9 i3 _3 Z到提交任务队列。提交线程不断地从提交任务队列中取出提交任务,并调用) f6 `: [6 J; m
handle_commit进行处理。
3 m# l' C1 [1 z5 P2 g8 S& d, Y每个写事务会根据提交时的系统时间生成一个事务版本,读事务只会读取在它
u4 {- L9 {; c7 {& A S2 |1 G- W之前提交的写事务的修改操作。
$ \& n* p! c6 R9 A7 d" s如图10-10所示,对主键为1的商品有2个写事务,事务T1(提交版本号为2)将
& `* G. l! B+ A! Y5 ] r5 G( ~8 @商品购买人数修改为100,事务T2(提交版本号为4)将商品购买人数修改为50。那
; S9 P5 _$ I2 n: ~- W3 Y0 L么,事务T2预提交时,T1已经提交,该商品的已提交行操作链包含一个cell:<; D7 M2 r' d5 E0 W/ [3 }. K
update,购买人数,100>,未提交操作链包含一个cell:<update,购买人数,50 a1 H1 W9 z- @" d% c/ @1 ]& z1 k
>。事务T2成功提交后,该商品的已提交行操作链将包含两个cell:<update,购买
( E7 S4 R* f9 A1 M人数,100>以及<update,购买人数,50>,未提交行操作链为空。对于只读事
2 _& ^( d% F- o2 `0 \/ p务:
" H$ I& F9 y1 m9 g) d图 10-10 读写事务并发执行实例
; c6 B( b) M8 V/ O●T3:事务版本号为1,T1和T2均未提交,该行数据为空。
8 [% [: L1 c2 p% [% J- G8 g●T4:事务版本号为3,T1已提交,T2未提交,读取到<update,购买人数, 100
' Y, c7 ?+ W+ Q4 q>。尽管T2在T4执行过程中将购买人数修改为50,T4第二次读取时会过滤掉T2的修
$ N/ B; B6 u( @+ `5 c改操作,因而两次读取将得到相同的结果。
1 F6 I) I. s. ^& _& q/ ~●T5:事务版本号为5,T1和T2均已提交,读取到<update,购买人数,100>以
: F: K' P! p3 B% r. j! g: L及<update,购买人数,50>,购买人数最终值为50。
+ E% i8 Q/ e% Q; U \1 M1.锁机制6 N/ M, a* ?$ u: n: m
OceanBase锁定粒度为行锁,默认情况下的隔离级别为读取已提交(read" g+ D. g0 H. ^' Y8 e' z
committed)。另外,读操作总是读取某个版本的快照数据,不需要加锁。
6 T+ Z1 P" T. m# C●只写事务(修改单行):事务预提交时对待修改的数据行加写锁,事务提交时+ P' `6 n; a/ [+ E* c
释放写锁。
+ V2 E7 G' m) R1 l●只写事务(修改多行):事务预提交时对待修改的多个数据行加写锁,事务提- v) ]6 c; n" o9 B2 v' r
交时释放写锁。为了保证一致性,采用两阶段锁的方式实现,即需要在事务预提交* n5 g: P$ C1 |" g+ Z
阶段获取所有数据行的写锁,如果获取某行写锁失败,整个事务执行失败。: B. n+ C5 [" g4 F
●读写事务(read committed):读写事务中的读操作读取某个版本的快照,写操" S2 s% Q$ `4 r }4 i
作的加锁方式与只写事务相同。
/ ], j' v9 K. t5 S, ~为了保证系统并发性能,OceanBase暂时不支持更高的隔离级别。另外,为了支
5 i# N0 S: [! b2 ^* ]持对一致性要求很高的业务,OceanBase允许用户显式锁住某个数据行。例如,有一
7 P Q4 U2 w" T4 r0 @8 ~; Q4 Y张账务表account(account_id,balance),其中account_id为主键。假设需要从A账户
+ n) c' ^3 J/ d5 p0 @& L7 {* G' C" N(account_id=1)向B账户(account_id=2)转账100元,那么,A账户需要减少100
5 r: L; L* z/ B$ b s2 U元,B账户需要增加100元,整个转账操作是一个事务,执行过程中需要防止A账户
. E) X. K. W( Z& Z/ }7 j5 L和B账户被其他事务并发修改。 V- n2 w1 R0 a! _1 N/ l
如图10-11所示,OceanBase提供了"select...for update"语句用于显示锁住A账户或
# ~3 h( d" f+ w" c者B账户,防止转账过程中被其他事务并发修改。
; s- W6 c+ U! L* C图 10-11 select……for update示例0 W9 w! ]8 d' @# V: i" t
事务执行过程中可能会发生死锁,例如事务T1持有账户A的写锁并尝试获取账户
+ R( _: l9 W+ h- w9 {. i) X7 aB的写锁,事务T2持有账户B的写锁并尝试获取账户A的写锁,这两个事务因为循环
# N1 Y. F0 e. W1 E0 g; \$ h等待而出现死锁。OceanBase目前处理死锁的方式很简单,事务执行过程中如果超过
0 D7 N3 Y, X5 F% a9 [: e一定时间无法获取写锁,则自动回滚。- h& d: @* i0 z* {4 o5 Z
2.多线程并发日志回放0 M5 v2 C+ t; n1 \+ n: ?; k/ z+ Q
9.2.3节介绍了主备同步原理,引入多版本并发控制机制后,UpdateServer备机支# d. J* w5 E9 [) ]$ Y+ J6 W
持多线程并发回放日志功能。如图10-12所示,有一个日志分发线程每次从日志源读7 ~: d& o, G- f2 q0 z
取一批日志,拆分为单独的日志回放任务交给不同的日志回放线程处理。一批日志
, u, y' ?; y5 e: |回放完成时,日志提交线程会将对应的事务提交到内存表并将日志内容持久化到日
& M( G, d/ }' W0 ?+ V志文件。1 z% W5 r- U( q! g: g0 C% e
图 10-12 备机多线程并发日志回放
3 s- B: W+ J' r9 tClass ObLogReplayWorker
( S, O; q) E: G* g2 S( q2 ?0 H: U{$ I/ i. \$ V) R4 _8 l
public:) }8 o; W+ F% U5 D D) {
//提交一批待回放的操作日志
}. ], x b1 y% v//@param[out]task_id最后一条操作日志的编号
* q- {4 M/ y- Y$ L, l4 W//@param[in]buf日志缓冲区
6 _7 z# d* s8 I' n. t) F5 }//@param[in]len日志缓冲区的大小$ j- b: O) }4 k
//@param[in]replay_type日志回放类型,包括RT_LOCAL(回放本地日志)和RT_APPLY(回放通过
7 ]+ B/ |( i' n) [4 x' I& P0 j+ K6 l- Q网络接收到的日志)& t# P+ M* {6 b5 r& o
int submit_batch(int64_t&task_id,const char*buf,int64_t len,const ReplayType( | I, L) p0 g+ N! G
replay_type);$ ^" }8 j9 Z) e7 p" i6 }6 ~
public:; E+ j/ X) y9 G* p
//回放一条操作日志
0 k/ m% ?9 C% R. G8 Zint handle_apply(ObLogTask*task);
, e A u1 ]. X};
& y" x& w8 A* Q+ u0 T在9.3.3节中提到,备UpdateServer有专门的日志回放线程不断地调用ObUpsLog-' b$ [ b, \9 x. r. `) i5 ]' J
Mgr中的replay_log函数获取并回放操作日志。UpdateServer支持多线程并发写事务' \) n" F/ R9 A( P) [$ n
后,replay_log函数实现成调用ObLogReplayWorker中的submit_batch,将一批待回放2 d* L* x0 V9 r/ G4 Y) e. U
的操作日志加入到回放任务队列中。多个日志回放线程会取出回放任务并不断地调
. ]; [: N, A# \# T; Z q用handle_apply回放操作日志,即首先将操作日志预提交到MemTable中,接着加入到
/ y: u# \* f; B提交任务队列。另外,还有一个单独的提交线程会从提交任务队列中一次取出一批
! w7 g1 }8 n, s( \. r) A任务,提交到MemTable并持久化到日志文件中。
1 R4 I% Q/ l) i' G* O* Z- Y* n F: [
" k) u: `9 C) c( P
2 k& P9 K% S* S |
|