V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  wwttc  ›  全部回复第 5 页 / 共 5 页
回复总数  95
1  2  3  4  5  
2014-08-04 11:05:42 +08:00
回复了 wwttc 创建的主题 问与答 Python 处理文件的性能优化
@captainhcg
我最早也是用all函数,测试了下发现速度要比现在的慢。
2014-08-04 10:29:38 +08:00
回复了 wwttc 创建的主题 问与答 Python 处理文件的性能优化
f = file("largefile")
....for line in f:
........try:
............tweet_time = line.split(',',3)[2].split()[0] # 微博发布时间
............tweet = line.split(',',3)[-1] # 微博内容
............for topic in topics:
................topic_items = topic.split() # 每个topic可能有多个词组成
................isContain = True
................for item in topic_items:
....................if item not in tweet:
........................isContain = False
........................break
....................if isContain:
........................pass # 该微博包含该topic
........except:
............continue
f.close()
2014-08-04 10:06:09 +08:00
回复了 wwttc 创建的主题 问与答 Python 处理文件的性能优化
@clino
1.用正则速度应该会更慢。
2.嗯,有道理。原来文件小的时候,用readlines一次全部读完,速度会快点。我试试分块的效率怎么样
2014-08-04 09:58:59 +08:00
回复了 wwttc 创建的主题 问与答 Python 处理文件的性能优化
@leiz
1.topic大部分是一个中文单词,有一部分是几个单词的组合,比如说:“爸爸去哪儿 多多”。
2.没有把tweet打散啊。还是一条一条的比较。试过string的方法,速度好像更慢。
3.嗯,dict查找应该会比list快点。但是这里仅仅是使用了in操作,你的意思是说,把每个tweet都拆分存到dict里面?
2014-08-04 09:44:47 +08:00
回复了 wwttc 创建的主题 问与答 Python 处理文件的性能优化
@eriale 已经实现过Hadoop版本了,现在需要跑单机的版本
2014-08-03 13:23:52 +08:00
回复了 tomwan 创建的主题 分享创造 网易云音乐网页版增强器(Chrome 插件)
赞!支持~
2014-08-03 13:18:01 +08:00
回复了 pythonee 创建的主题 程序员 求推荐 windows 下好用的笔记软件
用过印象笔记,麦库,有道,为知。最后感觉Windows下最好用的还是为知笔记。
2014-08-02 16:18:02 +08:00
回复了 wwttc 创建的主题 酷工作 [深圳] 初创团队 ROS 招 Python 后端工程师
@Actrace 选择Python完全就是因为目前几个技术人员,对Python比较熟练
2014-08-02 13:41:17 +08:00
回复了 wwttc 创建的主题 酷工作 [深圳] 初创团队 ROS 招 Python 后端工程师
@ogrish 还有股权
2014-07-30 23:36:40 +08:00
回复了 tongshi 创建的主题 问与答 帮忙推荐一款 Windows 下使用的截图工具
QQ满足你所有的需求
2014-07-30 11:51:07 +08:00
回复了 zts1993 创建的主题 问与答 问个简单的 python 问题
使用:unicode_escape
print r'\x47\x4cO\x42\x41\x4c\x53'.decode("unicode_escape")
GLOBALS

https://docs.python.org/2/library/codecs.html
2014-07-30 11:45:55 +08:00
回复了 zhxhwyzh14 创建的主题 问与答 和 IT 专业完全无关的想学习一门语言,请教
学习Python吧,不要犹豫了
2014-07-30 11:45:24 +08:00
回复了 yanng 创建的主题 问与答 为什么大部分学校都不能进去锻炼身体?
主要是为了照顾本校学生的利益,我们学校有段时间外面的人经常进来打篮球,把有限的几个篮球场都给占了,学生就给学校反应,后来有段时间校外的人就进不去了。
2014-07-29 22:19:05 +08:00
回复了 wwttc 创建的主题 问与答 Hadoop Python 中读入文件的问题
@lcj2class
因为是中文的句子和单词,所以不能用if w in keys
2014-07-17 10:58:21 +08:00
回复了 qiayue 创建的主题 分享发现 Coding.net 开源中国张海龙创业项目
很不错的网站
1  2  3  4  5  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1146 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 23ms · UTC 18:31 · PVG 02:31 · LAX 10:31 · JFK 13:31
Developed with CodeLauncher
♥ Do have faith in what you're doing.