V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
stackpop
V2EX  ›  Python

论文做实验需要英文分词和单词提取,有啥好python库推荐么

  •  
  •   stackpop ·
    sjtubinlong · 2012-07-23 16:40:38 +08:00 · 7534 次点击
    这是一个创建于 4506 天前的主题,其中的信息可能已经有所发展或是发生改变。
    其实主要是把一篇文章的关键词(所有出现次数大于等于1的英文单词,不考虑词组)全部提取出来然后按我自己的算法来建立索引就OK了,python直接写其实也挺方便,

    不过还是想问问,有专门处理这类问题的库么?尤其是如果能直接从网页上抓取并过滤html就好了。因为实验要设计挺多不同领域的文档做统计,我就不想复制到txt了。。。。

    嘿嘿,首次发主题,谢谢诸位.
    4 条回复    1970-01-01 08:00:00 +08:00
    eric
        1
    eric  
       2012-07-23 16:45:14 +08:00   ❤️ 1
    NLTK 的 word_tokenize 就能很方便的实现。
    http://nltk.org/
    stackpop
        2
    stackpop  
    OP
       2012-07-23 16:53:17 +08:00
    @eric 的确好强大,就是我想要的东西。之前打算用C++ 写,后来朋友建议用python,代码简洁得多,果然py强大~难怪国外好多大学CS第一门编程课改成python了,呵呵
    fanzheng
        3
    fanzheng  
       2012-07-24 00:08:04 +08:00
    如果只是出现次数的话用split然后counter()嘛,官方模块文档里面的counter()
    from0tohero
        4
    from0tohero  
       2012-07-26 18:39:19 +08:00   ❤️ 1
    NLTK最好没有之一~
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2819 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 08:40 · PVG 16:40 · LAX 00:40 · JFK 03:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.