有懂 spark 跟 hbase 的同学吗 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2324 天前的主题，其中的信息可能已经有所发展或是发生改变。

准备 spark 连 hbase，但是查了一下各种 connector，发现一个 hbase-spark 项目，貌似不维护了但是 maven 上居然有新版本的 jar，另一个是 sparkonhbase 项目也是版本不太全貌似，所以我的选择是自己写一套 spark 的 datasource 还是怎么搞比较好，有经验的 v 友求指导

8 条回复 • 2019-05-22 16:35:51 +08:00

1

yangxin0

2019-05-22 16:12:59 +08:00

别瞎用，要你是随机读会出问题的。data source connector 是最不要紧的你应该关注 hbase 的 rowkey 咋设计的，按 key range 读取效率才高。

2

bsidb

2019-05-22 16:16:10 +08:00

如果你的 Row key 分布的很平均，直接按照 Key range 切分任务，然后并行读取试试?

3

snappyone

OP

2019-05-22 16:29:33 +08:00

@yangxin0 我现在是按照 time range 做 scan，直接读取最近 1 小时新增的数据这样

4

snappyone

OP

2019-05-22 16:30:05 +08:00

@bsidb 按照 time range scan 读新增数据，key 应该没法 range 切分了

5

atomstar

2019-05-22 16:32:27 +08:00

https://github.com/unicredit/hbase-rdd 2 年前用过这个 hbase-rdd

6

LemonButSweet

2019-05-22 16:35:15 +08:00

话说 Spark 里面有一个 HbaseContext 可以操作 HBase,用起来比较方便不管是读写写的话是有个 bulkLoad

7

snappyone

OP

2019-05-22 16:35:34 +08:00

@atomstar 这个版本比较老了，应该用不了咯

8

snappyone

OP

2019-05-22 16:35:51 +08:00

@LemonButSweet 好的，我去看看这个，谢谢

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · 实用小工具 · 1940 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 23ms · UTC 10:49 · PVG 18:49 · LAX 03:49 · JFK 06:49
Developed with CodeLauncher
♥ Do have faith in what you're doing.