pzhdfy 最近的时间轴更新
pzhdfy

pzhdfy

🏢  快手 / 大数据架构师
V2EX 第 86161 号会员,加入于 2014-12-11 11:20:38 +08:00
今日活跃度排名 9799
hadoop生态开源贡献者
pzhdfy 最近回复了
这不是大数据经典处理方法吗

将 PersonListA.csv 通过 name hash 拆分为 10 个,PersonListA_1.csv,PersonListA_2.csv...,PersonListA_10.csv (或者更多,每个文件能载入内存就行)
规则是每行数据通过 hash(name)%10 来确定放到哪个文件

将 PersonListB.csv 也是一样的原理,生成 PersonListB_1.csv,PersonListB_2.csv...,PersonListB_10.csv

这样 PersonListA_1.csv 只会根 PersonListB_1.csv 有相同 name 的数据,
所以只需要 10 组文件对比就行
250 天前
回复了 pzhdfy 创建的主题 iCloud 国区 icloud 2T+music 拼车(年/半年/季付)
满了
250 天前
回复了 pzhdfy 创建的主题 iCloud 国区 icloud 2T+music 拼车(年/半年/季付)
仅有最后一个了
250 天前
回复了 pzhdfy 创建的主题 iCloud 国区 icloud 2T+music 拼车(年/半年/季付)
还有 2 个车位
251 天前
回复了 Lexgni 创建的主题 iCloud iCloud 国区拼
@hyv2u 可以看下我发的车
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2918 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 13:36 · PVG 21:36 · LAX 06:36 · JFK 09:36
Developed with CodeLauncher
♥ Do have faith in what you're doing.