作者：京东物流 何小坡

1 开篇

面对数据的激增，相信大家也都有分库分表的一些方案，这次的这个分享，算是自己的一个想法，可以当做一个参考方案，也欢迎相互讨论。
话不多说，直接进入主题。
日常开发中，实现数据库的分库分表，在经常使用工具方面，常用的有像 sharding-sphere、TDDL、Mycat等，然后，根据主键key做数据分布，有两种常用的方案，Hash取模方案和Range范围两种方案，两种路由算法，通过指定的key值进行运算后进行数据路由。两种方案也各有各的优缺点，下面做个梳理。

2 Hash取模

这个方案比较好理解，例如，我们假设未来几年内，数据能够增长到3000万，那，我们可以设计3张表，设表名分别为：table_0， table_1, table_2, 每张表存1000万数据，我们利用id作为路由key，进行算法处理，将hash运算后的结果与3进行取模，然后根据所得的值，可以将数据存放到对应的表中。这种方式的优点是，数据可以均匀分散的存储到对应的表中，不会造成数据全部存储到一个表中的情况,造成热点库表；但是缺点的话也很明显，就是如果以后再需要扩容的话，再新增表后，例如又新增了 table_3, table_4, table_5, 新的取模就从3变成了6，那这时候，之前的表中的数据，就需要做全量的数据迁移，因为取模的值发生了变化，按照新值取模，可能就找不到数据了。那面对大量的已有数据，数据迁移就比较麻烦了。

3 Range范围方法

这个方案，也比较好理解，还假设业务后期数据能增长到3000万，也是可以设计3张表，设为：table_0， table_1, table_2，我看可以按照范围，将id在0—1000万的数据，存放在table_0中，id在1000万—2000万，存放在table_1中，id在2000万—3000万，存放在table_2中。这种方案的话，优点很明显，就是即使以后扩容，也很方便，直接增加新的表即可；但是缺点的话，也很明显，数据不能做分散存储，在某一段儿时间内，数据都会集中存储在特定的表中，造成单个表压力过大。