V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
snappyone
V2EX  ›  程序员

有懂 spark 跟 hbase 的同学吗

  •  
  •   snappyone · 2019-05-22 16:05:11 +08:00 · 1460 次点击
    这是一个创建于 2014 天前的主题,其中的信息可能已经有所发展或是发生改变。

    准备 spark 连 hbase,但是查了一下各种 connector,发现一个 hbase-spark 项目,貌似不维护了但是 maven 上居然有新版本的 jar,另一个是 sparkonhbase 项目也是版本不太全貌似,所以我的选择是自己写一套 spark 的 datasource 还是怎么搞比较好,有经验的 v 友求指导

    8 条回复    2019-05-22 16:35:51 +08:00
    yangxin0
        1
    yangxin0  
       2019-05-22 16:12:59 +08:00
    别瞎用,要你是随机读会出问题的。data source connector 是最不要紧的你应该关注 hbase 的 rowkey 咋设计的,按 key range 读取效率才高。
    bsidb
        2
    bsidb  
       2019-05-22 16:16:10 +08:00
    如果你的 Row key 分布的很平均,直接按照 Key range 切分任务,然后并行读取试试?
    snappyone
        3
    snappyone  
    OP
       2019-05-22 16:29:33 +08:00
    @yangxin0 我现在是按照 time range 做 scan, 直接读取最近 1 小时新增的数据这样
    snappyone
        4
    snappyone  
    OP
       2019-05-22 16:30:05 +08:00
    @bsidb 按照 time range scan 读新增数据,key 应该没法 range 切分了
    atomstar
        5
    atomstar  
       2019-05-22 16:32:27 +08:00
    https://github.com/unicredit/hbase-rdd 2 年前用过这个 hbase-rdd
    LemonButSweet
        6
    LemonButSweet  
       2019-05-22 16:35:15 +08:00
    话说 Spark 里面有一个 HbaseContext 可以操作 HBase,用起来比较方便 不管是读写 写的话是有个 bulkLoad
    snappyone
        7
    snappyone  
    OP
       2019-05-22 16:35:34 +08:00
    @atomstar 这个版本比较老了,应该用不了咯
    snappyone
        8
    snappyone  
    OP
       2019-05-22 16:35:51 +08:00
    @LemonButSweet 好的,我去看看这个,谢谢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5452 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 09:34 · PVG 17:34 · LAX 01:34 · JFK 04:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.