V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ruoran
V2EX  ›  问与答

请大家推荐一个 Screen Screaping 的工具

  •  
  •   ruoran · 2010-10-24 14:29:55 +08:00 · 5142 次点击
    这是一个创建于 5148 天前的主题,其中的信息可能已经有所发展或是发生改变。
    本人学生,教授要我取 www.chowhound.com 的一些数据,输出为xml tree。
    我用了一下BeautifulSoup. 里面对<script> tag 的处理好像又问题。
    soup = BeautifulSoup (XXX) 时总是:
    HTMLParser.HTMLParseError: malformed start tag, at line 49, column 20

    google后,
    解决办法有如下:
    1. BeautifulSoup3.1 不行。要回到BeautifulSoup3.0.7a
    #这种方法我不知道如何删除3.1包,然后在装老的3.07包。
    #具体来说,问题有分为
    a. 我用的easy_install 安装。具体怎么删除,不清楚。。。貌似是easy_install -xmN?
    b. 3.0.7a 不能从 easy_install直接获取,我不知道手动下的.py文件放哪。。。
    c. 衍生问题:有没有方便的package管理工具(装,删,升)

    2. 组合使用html5lib。(这个没问题,得自己看才行)

    以上就是遇到的情况。
    回到题目,现在有没新的robust screaping tool?
    4 条回复    1970-01-01 08:00:00 +08:00
    ruoran
        1
    ruoran  
    OP
       2010-10-25 00:39:45 +08:00
    又请问如何修改已发文字啊?scraping 写错了。难道这就是没人回的原因。。。
    napoleonu
        3
    napoleonu  
       2010-10-25 08:30:11 +08:00
    可能是因为我PYTHON不够好,处理中文碰到问题
    ruoran
        4
    ruoran  
    OP
       2010-10-25 09:01:14 +08:00
    @napoleonu 谢谢!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3534 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 00:44 · PVG 08:44 · LAX 16:44 · JFK 19:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.