《大规模分布式存储系统》第10章　数据库功能【10.4】

javazx · 发表于 2017-3-10 13:50:05

10.4　OLAP业务支持
OLAP业务的特点是SQL每次执行涉及的数据量很大，需要一次性分析几百万行
甚至几千万行的数据。另外，SQL执行时往往只读取每行的部分列而不是整行数据。
为了支持OLAP计算，OceanBase实现了两个主要功能：并发查询以及列式存
储。并行查询功能允许将SQL请求拆分为多个子请求同时发送给多台机器并发执行，
列式存储能够提高压缩率，大大降低SQL执行时读取的数据量。本节首先介绍并发查
询功能，接着介绍OceanBase的列式存储引擎。
10.4.1　并发查询
如图10-13所示，MergeServer将大请求拆分为多个子请求，同时发往每个子请求
所在的ChunkServer并发执行，每个ChunkServer执行子请求并将部分结果返回给
MergeServer。MergeServer合并ChunkServer返回的部分结果并将最终结果返回给客户
端。
图　10-13　OceanBase并发查询
MergeServer并发查询执行步骤如下：
1）MergeServer解析SQL语句，根据本地缓存的子表位置信息获取需要请求的
ChunkServer。
2）如果请求只涉及一个子表，将请求发送给该子表所在的ChunkServer执行；如
果请求涉及多个子表，将请求按照子表拆分为多个子请求，每个子请求对应一个子
表，并发送给该子表所在的ChunkServer并发执行。MergeServer等待每个子请求的返
回结果。
3）ChunkServer执行子请求，计算子请求的部分结果。SQL执行遵从10.2.4节提
到的本地化原则，即能让ChunkServer执行的尽量让ChunkServer执行，包括Filter、
Project、子请求部分结果的GroupBy、OrderBy、聚合运算等。
4）每个子请求执行完成后，ChunkServer将执行结果回复MergeServer,Merge-
Server首先将每个子请求的执行结果保存起来。如果某个子请求执行失败，
MergeServer会将该子请求发往子表其他副本所在的ChunkServer执行。
5）等到所有的子请求执行完成后，MergeServer会对全部数据排序、分组、聚合
并将最终结果返回给客户。OceanBase还支持批量读取（multiget）操作一次性读取多
行数据，且读取的数据可能在不同的ChunkServer上。对于这样的操作，MergeServer
会按照ChunkServer拆分子请求，每个子请求对应一个ChunkServer。假设客户端请求5
行数据，其中第1、3、5行在ChunkServer A上，第2、4行在ChunkServer B上。那么，
该请求将被拆分为（1、3、5）和（2、4）两个子请求，分别发往ChunkServer A和
B。
Class ObMsSqlRequest
{
public:
//唤醒正在等待的工作线程
int signal(ObMsSqlRpcEvent＆event);
//等待某个子请求返回
int wait_single_event(int64_t＆timeout);
//处理某个子请求的返回结果
virtual int process_result(const int64_t timeout,ObMsSqlRpcEvent*event,bool＆
finish)=0;
};
ObMsSqlRequest类用于实现并发查询，相应地，ObMsSqlScanRequest以及ObMs-
SqlGetRequest类分别用于实现并发扫描和并发批量读取。MergeServer将大请求拆分
为多个子请求，每个子请求对应一个子请求事件（ObMsSqlRpcEvent）。工作线程将
子请求发给相应的ChunkServer后开始等待（调用wait_single_event方法），
ChunkServer执行完子请求后应答MergeServer。MergeServer收到应答包后回调signal
函数，唤醒工作线程，工作线程接着调用process_result进行处理。
ObMsSqlScanRequest和ObMsSql-GetRequest实现了process_result接口，将每个子请求
返回的部分结果保存到结果合并器merge_operator_中。如果所有的子请求全部执行完
成，process_result函数返回的finish变量将置为true，这时，merge_operator_中便保存
了并发查询的最终结果。
细心的读者可能会发现，OceanBase这种查询模式虽然解决了绝大部分大查询请
求的延时问题，但是，如果查询的返回结果特别大，MergeServer将成为性能瓶颈。
因此，新版的OceanBase系统将对OLAP查询执行逻辑进行升级，使其能够支持数据
量更大且更加复杂的SQL查询。
10.4.2　列式存储
列式存储主要的目的有两个：1）大部分OLAP查询只需要读取部分列而不是全
部列数据，列式存储可以避免读取无用数据；2）将同一列的数据在物理上存放在一
起，能够极大地提高数据压缩率。
列组（Column Group）
OceanBase通过列组支持行列混合存储，每个列组存储多个经常一起访问的列。
如图10-14所示，OceanBase SSTable首先按照列组存储，每个列组内部再按行存
储。分为几种情况：
图　10-14　OceanBase列组设计
●所有列属于同一个列组。数据在SSTable中按行存储，OLTP应用往往配置为这
种方式。
●每列对应一个列组。数据在SSTable中按列存储，这种方式在实际应用中比较
少见。
●每个列组对应一行数据的部分列。数据在SSTable中按行列混合存储，OLAP应
用往往配置为这种方式。
OceanBase还允许一个列属于多个列组，通过冗余存储这些列，能够提高访问性
能。例如，某表格总共包含5列，用户经常一起访问（1，3，5）或者（1，2，3，
4）列。如果将（1，3，5）和（1，2，3，4）存储到两个列组中，那么，大部分访
问只需要读取一个列组，避免了多个列组的合并操作。
列式存储提高了数据压缩比，然而，实践过程中我们发现，由于OceanBase最初
的几个版本内存操作实现得不够精细，例如数据结构设计不合理，数据在内存中膨
胀很多倍，导致大查询的性能瓶颈集中在CPU，列式存储的优势完全没有发挥出
来。这就告诉我们，列式存储的前提是设计好内存数据结构，把CPU操作优化好，
否则，后续的工作都是无用功。为了更好地支持OLAP应用，新版的OceanBase将重
新设计列式存储引擎。

		自动登录	找回密码
密码			立即注册

《大规模分布式存储系统》第10章　数据库功能【10.4】

相关帖子

宣传达人

突出贡献

优秀版主

荣誉管理

论坛元老

《大规模分布式存储系统》第10章 数据库功能【10.4】

相关帖子

宣传达人

突出贡献

优秀版主

荣誉管理

论坛元老

《大规模分布式存储系统》第10章　数据库功能【10.4】