V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
gejigeji
V2EX  ›  程序员

Elasticsearch 数据导入求助~

  •  
  •   gejigeji · 2016-07-29 10:39:13 +08:00 · 4261 次点击
    这是一个创建于 3044 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有 10+亿条数据有检索需求,现在是每条一行存在文件里(不是 json ,字段\t 间隔),请问有什么好的方法批量的导入到 Elasticsearch ?

    12 条回复    2018-02-09 12:31:50 +08:00
    Suclogger
        1
    Suclogger  
       2016-07-29 10:51:58 +08:00
    solr 可以导入文件, solr 和 elasticserch 底层实现都是 lucense ,用 solr 导入后将索引迁移到 elasticsearch
    (没实践过,瞎猜的)
    shoumu
        2
    shoumu  
       2016-07-29 11:12:24 +08:00
    写个脚本,把文件中的数据读出来,然后建索引
    gejigeji
        3
    gejigeji  
    OP
       2016-07-29 11:19:51 +08:00
    @shoumu 读出来,包成 json ,再一条条 curl 吗? 我是觉得麻烦,效率低,懒
    defunct9
        4
    defunct9  
       2016-07-29 11:23:08 +08:00
    defunct9
        5
    defunct9  
       2016-07-29 11:24:04 +08:00
    有批量的。格式有变化

    /posts/post/_bulk

    {"index":{"_index":"posts","_type":"post","_id":634}}
    {"title":"","content":"","slug"......}
    {"index":{"_index":"posts","_type":"post","_id":635}}
    {"title":"","content":"","slug"......}
    knightdf
        6
    knightdf  
       2016-07-29 11:27:44 +08:00
    多进程 bulk 最快了,我做的时候速度可以达到 2500doc/s , 不过在数据量大后频繁的做 merge 就会慢很多
    gejigeji
        7
    gejigeji  
    OP
       2016-07-29 15:43:16 +08:00
    @knightdf
    @defunct9
    感谢 2500 doc/s 还是慢啊,可能我 doc 比较短会快点,不过我还是先试试 solr ,“据说”支持文档导入,非实时索引的检索性能也好一些
    jaymiao
        8
    jaymiao  
       2016-07-29 16:44:48 +08:00
    用 logstash, 可以配置进程数量,只要你的 ES 足够强就行。
    knightdf
        9
    knightdf  
       2016-07-29 22:03:53 +08:00
    @gejigeji 我是录入的全网页的内容,内容比较大把
    gqlxj1987
        10
    gqlxj1987  
       2016-07-31 08:43:35 +08:00
    用 logstash 。。 bulk 部分,感觉后期不可控。
    jahan
        11
    jahan  
       2018-02-09 12:30:41 +08:00
    借楼询问。
    同样是很多带有分隔符的数据库导出文件,想导入 elasticsearch,有没有现成的工具或者 python 脚本?
    有没有可视化配置的工具呢? logstash ?
    jahan
        12
    jahan  
       2018-02-09 12:31:50 +08:00
    @shoumu 写脚本的意思是将每一行转换成 json ?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3495 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 10:47 · PVG 18:47 · LAX 02:47 · JFK 05:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.