有个 txt 大约 5G 左右,差不多有 1 亿多条数据,数据的格式为
2312313 123123123 1231231 qqqqqqq iiiii 1111111
请问大神们使用什么技术能实现快速导入及查询呢,需要模糊查询。。。(个人 PC 机处理( mac pro )) 集群什么的搞不起。。。。
1
linuxchild 2017-12-25 19:01:40 +08:00
分割了然后导入数据库?
或者单机 spark ? |
2
stiekel 2017-12-25 19:39:11 +08:00 via Android 1
用 elasticsearch 吧,快速上手,查询也快。
|
3
stiekel 2017-12-25 19:39:39 +08:00 via Android
导入有 logstash。
|
4
gouchaoer 2017-12-25 19:56:53 +08:00 via Android
5 个 g 而且才一亿条数据,单机 mysql 随便搞
|
5
gouchaoer 2017-12-25 19:57:32 +08:00 via Android
模糊查询扫表也能扫完吧
|
6
zhx1991 2017-12-25 22:32:22 +08:00
es 应该可以
|
7
likuku 2017-12-26 02:06:55 +08:00
mac pro 有 16G 内存呢,5G 全放内存了事。
|
12
annielong 2017-12-26 09:35:03 +08:00
仅仅导入应该快,我现在遇到一个每一条记录要先查询 3 个不同表,如果不存在还要保存 3 次,速度根本提不上去
|
13
2ME 2017-12-26 09:47:57 +08:00
txt 分割 分割的区块拼接 sql 直接批量插进去 速度挺快的 确实是单机 mysql 随便搞
|
15
idcspy 2017-12-26 11:41:52 +08:00
请问有不用数据库的方法没,查询速度慢点都行,导入整理太繁琐了,有个火眼金睛大数据,不过限定了特定行业才能试用。
|