GBase的数据块分布原理以及数据倾斜度计算

warning: 这篇文章距离上次修改已过1650天,其中的内容可能已经有所变动。

支持三种数据分布方式:Hash分布、随机分布、复制表。

HASH分布
对于HASH分布,数据按照HASH桶分堆的方式进行,对分布列取HASH值后均匀的分为65536个HASH桶,然后将65536个HASH桶再均分到各集群节点。
随机分布
为数据均匀的分布到各集群节点;复制表,为所有节点上都存储一份完整数据。
数据倾斜
通常是由于某些HASH取值的占比较大,造成存储这些HASH取值数据的节点上存储了较多数据。
数据倾斜度计算:按照表在各节点的数据文件大小比值来计算倾斜度。

添加新评论