V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  allenloong  ›  全部回复第 4 页 / 共 5 页
回复总数  89
1  2  3  4  5  
生日快乐
2019-09-11 19:55:14 +08:00
回复了 kuyuzhiqi 创建的主题 生活 你们租房是怎么解决饮水问题的?
农夫山泉
2019-09-03 14:05:41 +08:00
回复了 allenloong 创建的主题 Python 新人提问:快速 merge 大量 csv 文件
@guyskk0x0 #35 emmmm 如果按照 hash 把文件进行了拆分,合并的时候怎么保证每个小文件的列能够对应上呢?
2019-09-02 18:08:33 +08:00
回复了 allenloong 创建的主题 Python 新人提问:快速 merge 大量 csv 文件
@letking #28 明白了 我试试 谢谢你
2019-09-02 18:04:12 +08:00
回复了 allenloong 创建的主题 Python 新人提问:快速 merge 大量 csv 文件
@xomix #23 没有太明白 XD
2019-09-02 18:03:34 +08:00
回复了 allenloong 创建的主题 Python 新人提问:快速 merge 大量 csv 文件
@letking #24 还是用 spark 或者任意数据库?
2019-09-02 18:00:15 +08:00
回复了 allenloong 创建的主题 Python 新人提问:快速 merge 大量 csv 文件
@tinybaby365 #22 因为想用合并好的表去做后面的计算,但是计算要求的表就是这样。
2019-09-02 17:54:06 +08:00
回复了 allenloong 创建的主题 Python 新人提问:快速 merge 大量 csv 文件
@optional #15 每一个文件应该都要单独导入...列名不一样
2019-09-02 17:53:17 +08:00
回复了 allenloong 创建的主题 Python 新人提问:快速 merge 大量 csv 文件
@liprais #14 我是想合并的时候用前三列做参考,输出的时候再扔掉前三列。
2019-09-02 17:52:13 +08:00
回复了 allenloong 创建的主题 Python 新人提问:快速 merge 大量 csv 文件
@xypty #17 每个文件的行数不一样,也不一致,列名只有前三列是一样的。
2019-09-02 17:45:14 +08:00
回复了 allenloong 创建的主题 Python 新人提问:快速 merge 大量 csv 文件
@letking #12 那有什么好的方法推荐吗?
2019-09-02 17:31:06 +08:00
回复了 allenloong 创建的主题 Python 新人提问:快速 merge 大量 csv 文件
@momocraft #10 是的,就是 tsv,合并的时候没问题,一往外写就出问题了。(第一次用 pyspark,可能真的是自己的问题。


BName = str(os.path.basename(bg_f[0]).split('.')[0])
schema = StructType([
StructField('CataID', StringType(), True),
StructField('Start_Block', IntegerType(), True),
StructField('End_Block', IntegerType(), True),
StructField(BName, IntegerType(), True)
])
temp = sqlContext.read.csv(bg_f[0], sep='\t', header=False, schema=schema)
for p in bg_f[1:]:
SName = str(os.path.basename(p).split('.')[0])
schema = StructType([
StructField('CataID', StringType(), True),
StructField('Start_Block', IntegerType(), True),
StructField('End_Block', IntegerType(), True),
StructField(BName, IntegerType(), True)
])
cur = sqlContext.read.csv(p, sep='\t', header=False, schema=schema)
temp = temp.join(cur,
on=['CataID', 'Start_Block', 'End_Block'],
how='outer')
temp = temp.drop('CataID', 'Start_Block', 'End_Block')
2019-09-02 17:21:54 +08:00
回复了 allenloong 创建的主题 Python 新人提问:快速 merge 大量 csv 文件
@letking #5 saveAsTextFile 还是会报 stack overflow
2019-09-02 16:41:37 +08:00
回复了 allenloong 创建的主题 Python 新人提问:快速 merge 大量 csv 文件
@liprais #3 stack overflow, 是在一个 fat node 上跑的,增加了 Executor memory 也不行
2019-09-02 16:37:40 +08:00
回复了 allenloong 创建的主题 Python 新人提问:快速 merge 大量 csv 文件
@lsvih #1 会直接报 stack overflow
2019-07-23 21:41:00 +08:00
回复了 oahebky 创建的主题 咖啡 25 岁了,工作日每天早上必须喝咖啡,还有救吗?
@cattrace #132 rs762551 是指发生在 CYP1A2 这个基因上的 SNP (单核苷酸多态性)
2019-07-11 23:27:12 +08:00
回复了 sunkezheng 创建的主题 职场话题 你们上下班的总通勤时间(从出门到公司)是多久啊🌚
骑车 天晴 15 分钟,雨天 20 分钟
2019-06-22 12:09:18 +08:00
回复了 allenloong 创建的主题 Python 新手提问: Python 同时写多个文件的实现方法
@ebingtel @lhx2008 目前是要写好几十个文件
@toono 我去看看 thx
已买
1  2  3  4  5  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   986 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 23ms · UTC 22:46 · PVG 06:46 · LAX 14:46 · JFK 17:46
Developed with CodeLauncher
♥ Do have faith in what you're doing.