《大规模分布式存储系统》第8章OceanBase架构初探【8.3】

javazx · 发表于 2017-3-5 00:36:55

8.3　系统架构
8.3.1　整体架构图
OceanBase的整体架构如图8-1所示。
图　8-1　OceanBase整体架构图
OceanBase由如下几个部分组成：
●客户端：用户使用OceanBase的方式和MySQL数据库完全相同，支持JDBC、 C
客户端访问，等等。基于MySQL数据库开发的应用程序、工具能够直接迁移到
OceanBase。
●RootServer：管理集群中的所有服务器，子表（tablet）数据分布以及副本管
理。 RootServer一般为一主一备，主备之间数据强同步。
●UpdateServer：存储OceanBase系统的增量更新数据。UpdateServer一般为一主
一备，主备之间可以配置不同的同步模式。部署时，UpdateServer进程和RootServer
进程往往共用物理服务器。
●ChunkServer：存储OceanBase系统的基线数据。基线数据一般存储两份或者三
份，可配置。
●MergeServer：接收并解析用户的SQL请求，经过词法分析、语法分析、查询优
化等一系列操作后转发给相应的ChunkServer或者UpdateServer。如果请求的数据分布
在多台ChunkServer上，MergeServer还需要对多台ChunkServer返回的结果进行合并。
客户端和MergeServer之间采用原生的MySQL通信协议，MySQL客户端可以直接访问
MergeServer。
OceanBase支持部署多个机房，每个机房部署一个包含RootServer、
MergeServer、ChunkServer以及UpdateServer的完整OceanBase集群，每个集群由各自
的RootServer负责数据划分、负载均衡、集群服务器管理等操作，集群之间数据同步
通过主集群的主UpdateServer往备集群同步增量更新操作日志实现。客户端配置了多
个集群的RootServer地址列表，使用者可以设置每个集群的流量分配比例，客户端根
据这个比例将读写操作发往不同的集群。图8-2是双机房部署示意图。
图　8-2　OceanBase双机房部署
8.3.2　客户端
OceanBase客户端与MergeServer通信，目前主要支持如下几种客户端：
●MySQL客户端：MergeServer兼容MySQL协议，MySQL客户端及相关工具（如
Java数据库访问方式JDBC）只需要将服务器的地址设置为任意一台Merge-Server的地
址，就可以直接使用。
●Java客户端：OceanBase内部部署了多台MergeServer,Java客户端提供对 MySQL
标准JDBC Driver的封装，并提供流量分配、负载均衡、MergeServer异常处理等功
能。简单来讲，Java客户端首先按照一定的策略定位到某台MergeServer，接着调用
MySQL JDBC Driver往这台MergeServer发送读写请求。Java客户端实现符合JDBC标
准，能够支持Spring、iBatis等Java编程框架。
●C客户端：OceanBase C客户端的功能和Java客户端类似。它首先按照一定的策
略定位到某台MergeServer，接着调用MySQL标准C客户端往这台MergeServer发送读
写请求。C客户端的接口和MySQL标准C客户端接口完全相同，因此，能够通过
LD_PRELOAD的方式将应用程序依赖的MySQL标准C客户端替换为OceanBase C客户
端，而无需修改应用程序的代码。
OceanBase集群有多台MergeServer，这些MergeServer的服务器地址存储在
OceanBase服务器端的系统表（与Oracle的系统表类似，存储OceanBase系统的元数
据）内。OceanBase Java/C客户端首先请求服务器端获取MergeServer地址列表，接着
按照一定的策略将读写请求发送给某台MergeServer，并负责对出现故障的
MergeServer进行容错处理。
Java/C客户端访问OceanBase的流程大致如下：
1）请求RootServer获取集群中MergeServer的地址列表。
2）按照一定的策略选择某台MergeServer发送读写请求。客户端与MergeServer
之间的通信协议兼容原生的MySQL协议，因此，只需要调用MySQL JDBC Driver或者
MySQL C客户端这样的标准库即可。客户端支持的策略主要有两种：随机以及一致
性哈希。一致性哈希的主要目的是将相同的SQL请求发送到同一台MergeServer，方
便MergeServer对查询结果进行缓存。
3）如果请求MergeServer失败，则从MergeServer列表中重新选择一台
MergeServer重试；如果请求某台MergeServer失败超过一定的次数，将这台
MergeServer加入黑名单并从MergeServer列表中删除。另外，客户端会定期请求
RootServer更新MergeServer地址列表。
如果OceanBase部署多个集群，客户端还需要处理多个集群的流量分配问题。使
用者可以设置多个集群之间的流量分配比例，客户端获取到流量分配比例后，按照
这个比例将请求发送到不同的集群。
OceanBase程序升级版本时，往往先将备集群的读取流量调整为0，这时所有的
读写请求都只发往主集群，接着升级备集群的程序版本。备集群升级完成后将流量
逐步切换到备集群观察一段时间，如果没有出现异常，则将所有的流量切到备集
群，并将备集群切换为主集群提供写服务。原来的主集群变为新的备集群，升级新
的备集群的程序版本后重新分配主备集群的流量比例。
8.3.3　RootServer
RootServer的功能主要包括：集群管理、数据分布以及副本管理。
RootServer管理集群中的所有MergeServer、ChunkServer以及UpdateServer。每个
集群内部同一时刻只允许一个UpdateServer提供写服务，这个UpdateServer成为主
UpdateServer。这种方式通过牺牲一定的可用性获取了强一致性。RootServer通过租
约（Lease）机制选择唯一的主UpdateServer，当原先的主UpdateServer发生故障后，
RootServer能够在原先的租约失效后选择一台新的UpdateServer作为主UpdateServer。
另外，RootServer与MergeServer＆ChunkServer之间保持心跳（heartbeat），从而能够
感知到在线和已经下线的MergeServer＆ChunkServer机器列表。
OceanBase内部使用主键对表格中的数据进行排序和存储，主键由若干列组成并
且具有唯一性。在OceanBase内部，基线数据按照主键排序并且划分为数据量大致相
等的数据范围，称为子表（tablet）。每个子表的默认大小是256MB（可配置）。
OceanBase的数据分布方式与Bigtable一样采用顺序分布，不同的是，OceanBase没有
采用根表（RootTable）+元数据表（MetaTable）两级索引结构，而是采用根表一级
索引结构。
如图8-3所示，主键值在[1，100]之间的表格被划分为四个子表：1～25，26～
50，51～80以及81～100。RootServer中的根表记录了每个子表所在的ChunkServer位
置信息，每个子表包含多个副本（一般为三个副本，可配置），分布在多台
ChunkServer中。当其中某台ChunkServer发生故障时，RootServer能够检测到，并且触
发对这台ChunkServer上的子表增加副本的操作；另外，RootServer也会定期执行负载
均衡，选择某些子表从负载较高的机器迁移到负载较低的机器上。
图　8-3　基线数据子表划分
RootServer采用一主一备的结构，主备之间数据强同步，并通过Linux
HA（http://www.linux-ha.org）软件实现高可用性。主备RootServer之间共享VIP，当
主RootServer发生故障后，VIP能够自动漂移到备RootServer所在的机器，备
RootServer检测到以后切换为主RootServer提供服务。
8.3.4　MergeServer
MergeServer的功能主要包括：协议解析、SQL解析、请求转发、结果合并、多
表操作等。
OceanBase客户端与MergeServer之间的协议为MySQL协议。MergeServer首先解
析MySQL协议，从中提取出用户发送的SQL语句，接着进行词法分析和语法分析，
生成SQL语句的逻辑查询计划和物理查询计划，最后根据物理查询计划调用
OceanBase内部的各种操作符。
MergeServer缓存了子表分布信息，根据请求涉及的子表将请求转发给该子表所
在的ChunkServer。如果是写操作，还会转发给UpdateServer。某些请求需要跨多个子
表，此时MergeServer会将请求拆分后发送给多台ChunkServer，并合并这些
ChunkServer返回的结果。如果请求涉及多个表格，MergeServer需要首先从
ChunkServer获取每个表格的数据，接着再执行多表关联或者嵌套查询等操作。
MergeServer支持并发请求多台ChunkServer，即将多个请求发给多台
ChunkServer，再一次性等待所有请求的应答。另外，在SQL执行过程中，如果某个
子表所在的ChunkServer出现故障，MergeServer会将请求转发给该子表的其他副本所
在的ChunkServer。这样，ChunkServer故障是不会影响用户查询的。
MergeServer本身是没有状态的，因此，MergeServer宕机不会对使用者产生影
响，客户端会自动将发生故障的MergeServer屏蔽掉。
8.3.5　ChunkServer
ChunkServer的功能包括：存储多个子表，提供读取服务，执行定期合并以及数
据分发。
OceanBase将大表划分为大小约为256MB的子表，每个子表由一个或者多个
SSTable组成（一般为一个），每个SSTable由多个块（Block，大小为4KB～64KB之
间，可配置）组成，数据在SSTable中按照主键有序存储。查找某一行数据时，需要
首先定位这一行所属的子表，接着在相应的SSTable中执行二分查找。SSTable支持两
种缓存模式，块缓存（Block Cache）以及行缓存（Row Cache）。块缓存以块为单位
缓存最近读取的数据，行缓存以行为单位缓存最近读取的数据。
MergeServer将每个子表的读取请求发送到子表所在的ChunkServer,ChunkServer首
先读取SSTable中包含的基线数据，接着请求UpdateServer获取相应的增量更新数据，
并将基线数据与增量更新融合后得到最终结果。
由于每次读取都需要从UpdateServer中获取最新的增量更新，为了保证读取性
能，需要限制UpdateServer中增量更新的数据量，最好能够全部存放在内存中。
OceanBase内部会定期触发合并或者数据分发操作，在这个过程中，ChunkServer将从
UpdateServer获取一段时间之前的更新操作。通常情况下，OceanBase集群会在每天
的服务低峰期（凌晨1:00开始，可配置）执行一次合并操作。这个合并操作往往也称
为每日合并。
8.3.6　UpdateServer
UpdateServer是集群中唯一能够接受写入的模块，每个集群中只有一个主Update-
Server。UpdateServer中的更新操作首先写入到内存表，当内存表的数据量超过一定
值时，可以生成快照文件并转储到SSD中。快照文件的组织方式与ChunkServer中的
SSTable类似，因此，这些快照文件也称为SSTable。另外，由于数据行的某些列被更
新，某些列没被更新，SSTable中存储的数据行是稀疏的，称为稀疏型SSTable。
为了保证可靠性，主UpdateServer更新内存表之前需要首先写操作日志，并同步
到备UpdateServer。当主UpdateServer发生故障时，RootServer上维护的租约将失效，
此时，RootServer将从备UpdateServer列表中选择一台最新的备UpdateServer切换为主
UpdateServer继续提供写服务。UpdateServer宕机重启后需要首先加载转储的快照文
件（SSTable文件），接着回放快照点之后的操作日志。
由于集群中只有一台主UpdateServer提供写服务，因此，OceanBase很容易地实
现了跨行跨表事务，而不需要采用传统的两阶段提交协议。当然，这样也带来了一
系列的问题。由于整个集群所有的读写操作都必须经过UpdateServer,UpdateServer的
性能至关重要。OceanBase集群通过定期合并和数据分发这两种机制将UpdateServer
一段时间之前的增量更新源源不断地分散到ChunkServer，而UpdateServer只需要服务
最新一小段时间新增的数据，这些数据往往可以全部存放在内存中。另外，系统实
现时也需要对UpdateServer的内存操作、网络框架、磁盘操作做大量的优化。
8.3.7　定期合并＆数据分发
定期合并和数据分发都是将UpdateServer中的增量更新分发到ChunkServer中的手
段，二者的整体流程比较类似：
1）UpdateServer冻结当前的活跃内存表（Active MemTable），生成冻结内存
表，并开启新的活跃内存表，后续的更新操作都写入新的活跃内存表。
2）UpdateServer通知RootServer数据版本发生了变化，之后RootServer通过心跳
消息通知ChunkServer。
3）每台ChunkServer启动定期合并或者数据分发操作，从UpdateServer获取每个
子表对应的增量更新数据。
定期合并与数据分发两者之间的不同点在于，数据分发过程中ChunkServer只是
将UpdateServer中冻结内存表中的增量更新数据缓存到本地，而定期合并过程中
ChunkServer需要将本地SSTable中的基线数据与冻结内存表的增量更新数据执行一次
多路归并，融合后生成新的基线数据并存放到新的SSTable中。定期合并对系统服务
能力影响很大，往往安排在每天服务低峰期执行（例如凌晨1点开始），而数据分发
可以不受限制。
如图8-4，活跃内存表冻结后生成冻结内存表，后续的写操作进入新的活跃内存
表。定期合并过程中ChunkServer需要读取UpdateServer中冻结内存表的数据、融合后
生成新的子表，即：
新子表=旧子表+冻结内存表
图　8-4　定期合并不停读服务
虽然定期合并过程中各个ChunkServer的各个子表合并时间和完成时间可能都不
相同，但并不影响读取服务。如果子表没有合并完成，那么使用旧子表，并且读取
UpdateServer中的冻结内存表以及新的活跃内存表；否则，使用新子表，只读取新的
活跃内存表，即：
查询结果=旧子表+冻结内存表+新的活跃内存表
=新子表+新的活跃内存表

		自动登录	找回密码
密码			立即注册

《大规模分布式存储系统》第8章OceanBase架构初探【8.3】

相关帖子

宣传达人

突出贡献

优秀版主

荣誉管理

论坛元老