Python 如何从一个文本中取每一行到另外一个文本中匹配

假设有 A/B 两个文本用 python 如何先从 A 中取出第一行然后到 B 文本中每一行去匹配,如果匹配中了就啥也不干继续从 A 文本中取下一行匹配,如果在 B 文本中每一行都没匹配到,就输出 A 文本中第一行的数据然后继续去 A 文本中下一行去匹配
研究了一会发现不能达到自己的预期,特来请教.谢谢!

文本

一行

匹配

Python

33 条回复 • 2019-11-22 13:13:28 +08:00

ClericPy

2019 年 11 月 21 日

需要掌握打开文件按行读取的 file.readline()
需要用到调整文件读取指针位置的 file.seek(0)
然后迭代器开几个 for 循环的函数, 共享已经打开的 A 和 B 俩文件就好了, 一般是在一个 with 下面俩文件对象, 然后写一个函数, 传参 line_text, file_object, 因为是迭代器, 内存占用还算可以接受

按你提的方式, 性能也高不到哪去了, 不过比现写个前缀树要省心多了

ClericPy

2019 年 11 月 21 日

忘了 file_object 可以直接丢到 for, 不需要 readline...

cherbim

2019 年 11 月 21 日 via iPhone

这不很简单，先 a.readline()，然后循环对比 b.readline()

cherbim

2019 年 11 月 21 日 via iPhone

你的需求是不是把 a 中未在 b 中出现的每一行输出？

zhuzhuaini

2019 年 11 月 21 日

@ClericPy 不是很理解你说的,,,我学的还不够~

zhuzhuaini

2019 年 11 月 21 日

@cherbim 是的 A 中未在 B 出现的那一会就打印出现了就啥也不干继续从 A 中取一行继续去 B 匹配

zhuzhuaini

2019 年 11 月 21 日

@ClericPy 刚学 python 先不去考虑性能啥的~~~

ipwx

2019 年 11 月 21 日

with open('B.txt', 'r') as f:
....B_lines = set(f)
with open('A.txt', 'r') as f:
....for line in f:
........if line not in B_lines:
............print(line)

cherbim

2019 年 11 月 21 日

第一感觉就是新手，果然是新手。。。。
@zhuzhuaini 给你个代码吧，下面的代码，按行读取 1.txt 内容，然后按行与 2.txt 中比对，若不存在就输出，继续读取 1.txt
~~~
with open("1.txt", "r") as f:
while True:
i = f.readline()
if i:
with open("2.txt", "r") as file:
while True:
j = file.readline()
if j:
if i == j:
break
else:
print(i, end="")
break
else:
break
~~~

ClericPy

2019 年 11 月 21 日

@zhuzhuaini #7

https://paste.ubuntu.com/p/W6Qq4mtjfv/

如果是面试题, 这段代码基本涵盖所有考点了, 但是很多小细节有炫技嫌疑...

1. with 打开文件保证安全关闭
2. seek 方法保证只需要打开一次文件 B 不需要多次打开
3. 对文件对象 A B 使用 for 循环, 节省内存
4. for 循环的 else 用法
5. with 上下文一次打开多个文件

cherbim

2019 年 11 月 21 日

你先试着用 readline()，完整的输出一个文件（一行一行输出），理解了这个，你的需求就很容易解决了

nznd

2019 年 11 月 21 日

with open('1.txt', 'r') as f, open('2.txt', 'r') as ff:
a = set(f)
b = set(ff)
print(a-b)
简单粗暴（

nznd

2019 年 11 月 21 日

@nznd #12 缩进丢了但是应该看的出来吧（狗头

zhuzhuaini

2019 年 11 月 21 日

@cherbim 刚刚在调试你传的代码,,,光缩进就调整了一段时间, 执行之后报错
i = f.readline()
UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 15: illegal multibyte sequence

zhuzhuaini

2019 年 11 月 21 日

@ClericPy 谢谢不是面试题纯是自己有这个需求~

zhuzhuaini

2019 年 11 月 21 日

@nznd 太简单粗暴了,导致看不懂谢谢老哥了哈~~~~

nznd

2019 年 11 月 21 日

@zhuzhuaini #16 ![]( https://washingpatrick.cn/wp-content/uploads/2019/11/2019-11-21_17-13-53.png) 就是集合的差运算高中数学（

zhuzhuaini

2019 年 11 月 21 日

@cherbim 谢谢我加入了 encoding='UTF-8' 这个参数后就不报错了虽然不知道为啥要加这个-.-

zhuzhuaini

2019 年 11 月 21 日

@nznd 听到数学,,我哭辽

miemiekurisu

2019 年 11 月 21 日

两个 readlines 成 2 个 list，set 一下成 2 个集合，把两个集合 intersection 一下，就是共有部分，要知道具体哪几行就拿着 intersection 出来的结果每一个去 iteration 一遍第二个文本

alex321

2019 年 11 月 21 日

提取的是 A 中有的，B 中没有的。。

a, b = [], []

with open('A.txt', 'r') as f:
....a = f.read().splitlines()
with open('B.txt', 'r') as f:
....b = f.read().splitlines()

print(list(set(a).difference(set(b))))

完事儿。

cherbim

2019 年 11 月 21 日

@zhuzhuaini 你的文件是 UTF-8 编码，然后估计你的 ide 默认 gbk，然后有些字符不能解码，需要指定 utf 解码

JerryCha

2019 年 11 月 21 日

@nznd 这可太暴力了

LuJason

2019 年 11 月 21 日

@nznd 万一是几百万行的数据，这可就要算到明年了（狗头

bequt

2019 年 11 月 21 日

如果是要结果的话, 直接用 wps excel 马上就得了

bequt

2019 年 11 月 21 日

进行查重就的结果了

layorlayor

2019 年 11 月 21 日

用一个特殊的字符把 B 文件连成一行，剩下就是一个 AC 自动机啦

snoopygao

2019 年 11 月 21 日

这个东西我刚研究过，首先在 A 中取出第一行，然后使用字符串对比就行
with open file_b as b:
b_content = b.read()
with open file_a as a:
a_content = a.readline()
if a_content in bcontent:
print('this line in b')
//此处需要循环读 a 文件的内容，b 文件最好别太大，要不然内存耗不起

robinlovemaggie

2019 年 11 月 21 日

@zhuzhuaini
你好忘了说你的预期是什么～

nccer

2019 年 11 月 22 日 via iPhone

你可以对 ab 两个文件分别排序，然后对 ab 两个文件做一个归并排序，做排序的时候把重复行找出来。

XavierXJ

2019 年 11 月 22 日 via iPhone

什么学校？？？高中学 Python😳

levelworm

2019 年 11 月 22 日 via Android

我琢磨着数据量不大的话导入到 sqlite 里头做查询怎么样。。。

zhuzhuaini

2019 年 11 月 22 日

@miemiekurisu
@levelworm
@XavierXJ
@nccer
@robinlovemaggie
@layorlayor
@bequt
@zh584728
@alex321
@miemiekurisu
感谢以上所有的大佬提供的方案......我最后使用了
@ClericPy 这位大佬的代码...从昨天下午到刚刚一直在调试,,,最后发现是 for 下接了个 else,,,我一直在 if 下接 else 导致一直不对,现在已经达到了我的心理预期....
再次感谢以上所有大佬!!谢谢!!