V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  wudc  ›  全部回复第 2 页 / 共 2 页
回复总数  28
1  2  
2017-12-26 13:46:32 +08:00
回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
@zhusimaji 嗯嗯,听你这么说我明白了,我分区是想防止过多结果文件的产生,现在看来有点画蛇添足了。
2017-12-25 19:28:13 +08:00
回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
@liprais 嗯,明白了,去掉 reparation 确实快了不少,谢谢!
2017-12-25 18:49:06 +08:00
回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
@Mondoz
@mind3x
好的,改成 coalesce 已经在测试,谢谢。
2017-12-25 18:47:36 +08:00
回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
@zhusimaji 卡在 df.repartition(20).write.json(savePath)这行了,数据量比较小时还可以但是数据量一大就栈溢出
2017-12-25 18:32:42 +08:00
回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
@liprais 想最后把结果写到 20 个文件中
2017-12-25 17:22:51 +08:00
回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
@linuxchild 嗯,谢谢,我加上了这段代码 df.persist(StorageLevel.MEMORY_AND_DISK_SER),现在程序在跑
@Hzzone
@mrdemonson
感谢二位的建议,我考虑下
@mrdemonson 您有相关的资料吗?谢谢。
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1052 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms · UTC 19:07 · PVG 03:07 · LAX 11:07 · JFK 14:07
Developed with CodeLauncher
♥ Do have faith in what you're doing.