给大佬们请安.......hive 中日跑 2 亿条数据，那么这张表该怎么设计？谢谢了~

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2080 天前的主题，其中的信息可能已经有所发展或是发生改变。

第 1 条附言 · 2020 年 6 月 4 日

银行项目，单表日流水 2 亿左右，整个省份的数据。所以现在在表的设计上要考虑性能问题。目前我能想到的就是分区或者分桶+增量的方式，想看看坛子大佬有没有更好的方法。

Hive

大佬

谢谢

数据

15 条回复 • 2020-06-09 16:40:55 +08:00

yincrow

2020 年 6 月 4 日

表名：hive_zhong_ri_pao_2_yi，不客气

yincrow

2020 年 6 月 4 日

@yincrow 想了想不太合适，hive_china_japan_run_two_Billion 这个比较好

smallpython

2020 年 6 月 4 日

越简单越好

monkeyWie

2020 年 6 月 4 日

用 kudu

Leeci

2020 年 6 月 4 日

@yincrow 我丢~不是问表名怎么取啦，是表的物理结构，我现在只能想到传统的分区，并且做增量的方法，还有没有其他的方法啊？

Leeci

2020 年 6 月 4 日

@monkeyWie KUDU 是什么？因为日跑两亿，所以在建表设计上要考虑性能问题

Leeci

2020 年 6 月 4 日

@monkeyWie KUDU 可能不行，做的银行项目，环境都是定的，不能改 - -！

whx123

2020 年 6 月 4 日

需求不够详细啊

Leeci

2020 年 6 月 4 日

@whx123 银行项目，单表日流水 2 亿左右，整个省份的数据。所以现在在表的设计上要考虑性能问题。目前我能想到的就是分区或者分桶+增量的方式，想看看坛子大佬有没有更好的方法。

imzhazha

2020 年 6 月 4 日 via Android

你就说了日数据量 2 亿，其他啥都没说，别人没法给建议。你啥业务，要出什么数据，出了什么问题，你得把你要干嘛讲清楚。优化是要看业务场景的。

Leeci

2020 年 6 月 4 日

@imzhazha 抱歉大佬，已经更新了，抱歉抱歉

glfpes

2020 年 6 月 4 日

1 天 2 亿行对 hive 来说毛毛雨，按天分区就好

其实业务需求才是你该考虑的，比如要不要根据城市也分区之类的。

Leeci

2020 年 6 月 4 日

@glfpes 因为我一直从事的都是银行，银行虽然会用到 hive 和 hadoop 那一套，但实际上也就是批处理好一点。城区分区这种我也有想的，就在想对于 hive 有没有什么更好一点的优化方案

aladdindingding

2020 年 6 月 5 日

一天才两亿你们数据经常改动吗不改的的话用 clickhouse 我们还是单机一天 5 亿妥妥的

Leeci

2020 年 6 月 9 日

@aladdindingding 要改动的，而且环境是固定的，不能向科技部提出增加一个 clickhouse 什么的 - -！