准备 spark 连 hbase,但是查了一下各种 connector,发现一个 hbase-spark 项目,貌似不维护了但是 maven 上居然有新版本的 jar,另一个是 sparkonhbase 项目也是版本不太全貌似,所以我的选择是自己写一套 spark 的 datasource 还是怎么搞比较好,有经验的 v 友求指导
1
yangxin0 2019-05-22 16:12:59 +08:00
别瞎用,要你是随机读会出问题的。data source connector 是最不要紧的你应该关注 hbase 的 rowkey 咋设计的,按 key range 读取效率才高。
|
2
bsidb 2019-05-22 16:16:10 +08:00
如果你的 Row key 分布的很平均,直接按照 Key range 切分任务,然后并行读取试试?
|
5
atomstar 2019-05-22 16:32:27 +08:00
https://github.com/unicredit/hbase-rdd 2 年前用过这个 hbase-rdd
|
6
LemonButSweet 2019-05-22 16:35:15 +08:00
话说 Spark 里面有一个 HbaseContext 可以操作 HBase,用起来比较方便 不管是读写 写的话是有个 bulkLoad
|
8
snappyone OP @LemonButSweet 好的,我去看看这个,谢谢
|