V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
kevinfk2
V2EX  ›  Python

求大神解答,怎么用 Python 将两个 excel 中类似信息提取出来。

  •  
  •   kevinfk2 · 2020-12-17 14:26:57 +08:00 · 1650 次点击
    这是一个创建于 1198 天前的主题,其中的信息可能已经有所发展或是发生改变。
    例如:A 表记录了某场会议的参加名单,B 表是自己拥有的客户名单。

    想找出 A 表中哪些客户是来自 B 表的。

    用 excel 的问题就在 A 表记录的名称和 B 表记录的名称可能不完全一样,就不方便使用 VLOOK 函数了。

    请问 python 有没有使用关键词去查的方法呢?
    9 条回复    2020-12-18 14:47:20 +08:00
    6167
        1
    6167  
       2020-12-17 14:35:00 +08:00
    具体情况具体分析,这个不完全一样具体有多不一样得有个例子才好判断
    TimePPT
        2
    TimePPT  
       2020-12-17 14:40:53 +08:00
    你这需求能实现的太多了,得看不一样到啥程度
    A 表是「张三」
    B 表有个「*张叁」一个「张三丰」
    这怎么对应?
    kevinfk2
        3
    kevinfk2  
    OP
       2020-12-17 14:41:25 +08:00
    @6167 比如 a 里面是 XX 市 XX 科技有限公司,B 里面可能是 XXxx 科技有限公司。
    所以我的意思是用关键词,就是公司的名字那段去查。
    6167
        4
    6167  
       2020-12-17 15:38:02 +08:00
    先把 AB 表筛一遍,把 XXxx 有限公司中的“X 地名”“有限”“公司”等无效字符去掉,剩下的字符串就是你需要的“公司名”,把关键字存为新的一列,再比对。用 '你好' in '你好吗'这种比差不多吧
    xiaolinjia
        5
    xiaolinjia  
       2020-12-17 15:57:38 +08:00
    https://github.com/seatgeek/fuzzywuzzy
    或许你可以试试这个库。
    qiuhang
        6
    qiuhang  
       2020-12-17 15:58:20 +08:00
    pandas
    kevinfk2
        7
    kevinfk2  
    OP
       2020-12-17 15:58:49 +08:00
    @6167 多谢咯
    @xiaolinjia 多谢咯
    ZAXON
        8
    ZAXON  
       2020-12-17 16:07:50 +08:00
    单从你举的例子来看,应该是计算字符串相似度吧。四楼说的去除地区名,正好我前几天用到了,可以去 github 上面找找,有整理好的行政区清单。
    shyrock
        9
    shyrock  
       2020-12-18 14:47:20 +08:00
    直接计算相似度的方法效果不好,可以先分词,再用 TF-IDF 模型来计算相似度。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5393 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 07:04 · PVG 15:04 · LAX 00:04 · JFK 03:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.