Python 如何高效读取大文件？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3936 天前的主题，其中的信息可能已经有所发展或是发生改变。

有一个1万多行的txt文本，读取第一行的文字 append 到一个空列表list[]中，然后读取第二行的文字替换到列表中，依次循环直到最后一行，有什么高效率的办法？

读取

列表

append

13 条回复 • 2015-05-06 14:24:52 +08:00

xiaozi

2015 年 5 月 4 日

只要每行的长度不是很大的话，1w 行，小 case 吧；直接全部读到内存好了。

oxyflour

2015 年 5 月 4 日

with open(fileName, 'r') as fin:
for line in fin.readlines():
pass # do sth

试过读几百兆的文本，并不需要什么特别的处理

Septembers

2015 年 5 月 4 日

https://gist.github.com/anonymous/e9fd03ee67acdd435071

clino

2015 年 5 月 4 日

"读取第二行的文字替换到列表中"这是什么意思?
做完了最后剩下还是一个元素的list?

seki

2015 年 5 月 4 日

一万行不多啊，除非你一行有几万字……不过同没看懂你的操作描述

frankzeng

2015 年 5 月 4 日 via Android

开销在磁盘io上，一万行很少的数据，读到内存中去

lonin

2015 年 5 月 4 日

@clino @seki 不好意思，我没表述清楚，就是把某一行字加入到一个空集？（空的列表），每次列表中都只有当前读取到的那一行文字。起初我以为一万多行，一行一行读取很占内存。

clino

2015 年 5 月 4 日

@lonin 那就用 for line in file 就行了,这个用的是迭代器,不会占大内存

lonin

2015 年 5 月 4 日

hello world!
hello
world!
@clino 谢谢你的回答，接着问一个问题，怎样可以把上面的第二行与第三行合并起来？正则表达式可以匹配第三行，

clino

2015 年 5 月 4 日

@lonin 你要一行行地读并且一行行地分析html?
这个可能对你有用: https://docs.python.org/2/library/htmlparser.html#example-html-parser-application
里面的feed可以一行行往里面填数据

2015 年 5 月 4 日

@lonin 楼主确定标签是不闭合的吗？

底子还是这个正则：
re.search(r'<(.*?)>.*?</\1>', '1232').group(0)
'123'

思路是在读取操作中简单的分为两个状态：

for i in lines:
状态1 尚未出现成对元素：继续读下一行，将本行结果和下一行合并
状态2 出现闭合元素：储存内容

举个栗子：

[初始化]
buf = ''
buf += newline

[1] buf : hello
不匹配，continue

[2] buf : hello world!
匹配，储存数据
buf = ''

[3] ...
[4] ...

2015 年 5 月 4 日

@clino 这个好强。。收藏了

xxer

2015 年 5 月 6 日

readlines从内存使用情况看，效果很差

Python 如何高效读取 大文件？

Python 如何高效读取大文件？