求教 V 友一个关于大量数据导入及查询的问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2586 天前的主题，其中的信息可能已经有所发展或是发生改变。

有个 txt 大约 5G 左右，差不多有 1 亿多条数据，数据的格式为

2312313 123123123 1231231 qqqqqqq iiiii 1111111

请问大神们使用什么技术能实现快速导入及查询呢，需要模糊查询。。。（个人 PC 机处理（ mac pro ））集群什么的搞不起。。。。

查询

导入

qqqqqqq

iiiii

15 条回复 • 2017-12-26 11:41:52 +08:00

linuxchild

2017-12-25 19:01:40 +08:00

分割了然后导入数据库？

或者单机 spark ？

stiekel

2017-12-25 19:39:11 +08:00 via Android

用 elasticsearch 吧，快速上手，查询也快。

stiekel

2017-12-25 19:39:39 +08:00 via Android

导入有 logstash。

gouchaoer

2017-12-25 19:56:53 +08:00 via Android

5 个 g 而且才一亿条数据，单机 mysql 随便搞

gouchaoer

2017-12-25 19:57:32 +08:00 via Android

模糊查询扫表也能扫完吧

zhx1991

2017-12-25 22:32:22 +08:00

es 应该可以

likuku

2017-12-26 02:06:55 +08:00

mac pro 有 16G 内存呢，5G 全放内存了事。

monway

2017-12-26 09:24:25 +08:00

@stiekel 谢谢，我试试

monway

2017-12-26 09:24:41 +08:00

@likuku 以后还有数据呢

monway

2017-12-26 09:24:58 +08:00

@gouchaoer 导入进数据库太慢

monway

2017-12-26 09:28:12 +08:00

@zhx1991 试试，谢谢

annielong

2017-12-26 09:35:03 +08:00

仅仅导入应该快，我现在遇到一个每一条记录要先查询 3 个不同表，如果不存在还要保存 3 次，速度根本提不上去

2ME

2017-12-26 09:47:57 +08:00

txt 分割分割的区块拼接 sql 直接批量插进去速度挺快的确实是单机 mysql 随便搞

gouchaoer

2017-12-26 10:27:21 +08:00

@monway 你直接插入才 5 个 G 的数据很快的啊，用 batch insert 啊

idcspy

2017-12-26 11:41:52 +08:00

请问有不用数据库的方法没，查询速度慢点都行，导入整理太繁琐了，有个火眼金睛大数据，不过限定了特定行业才能试用。