V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
jiezhi
V2EX  ›  Python

使用 BeautifulSoup 解析网页时,怎么快速定位到想要的数据位置

  •  
  •   jiezhi ·
    Jiezhi · 2016-12-29 15:59:07 +08:00 · 2775 次点击
    这是一个创建于 2922 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前我是看网页源码找几个最近的标签试出来唯一性的,当然如果标签一些属性唯一还好说,不然就得多试几个,或者叠加搜索。

    chrome 倒是带了复制元素选择器 /XPath ,但是 bs 好像还不支持直接使用,有谁有啥好的解决办法么?
    8 条回复    2016-12-30 11:35:17 +08:00
    ty89
        1
    ty89  
       2016-12-29 16:08:08 +08:00   ❤️ 1
    lxml 支持 xpath ,解析的效率也比 BS 高不少。
    geew
        2
    geew  
       2016-12-29 16:10:47 +08:00   ❤️ 1
    pyquery
    enenaaa
        3
    enenaaa  
       2016-12-29 16:14:39 +08:00   ❤️ 1
    select('body > div > div > ul > li > span[class="cls1"]') 这样?
    yanzixuan
        4
    yanzixuan  
       2016-12-29 16:53:47 +08:00   ❤️ 1
    @enenaaa 我就这么干的。但是 bs 版本低了不支持 span[class="cls1"]这样的写法, 蛋疼。
    Lonely
        5
    Lonely  
       2016-12-29 16:56:37 +08:00   ❤️ 1
    生成 BS 对象时选择 lxml ,不要用默认的
    cyrbuzz
        6
    cyrbuzz  
       2016-12-29 17:44:47 +08:00   ❤️ 1
    bs 支持 css 语法吧,在 firefox 里复制唯一选择器(大部分情况下比 chrome 获取的短一些)。
    把这个直接用 select 方法就可以获取到了。
    用 html.parser 解析就可以。
    jiezhi
        7
    jiezhi  
    OP
       2016-12-30 09:10:43 +08:00
    @ty89
    @geew
    @enenaaa
    @Lonely
    @cyrbuzz

    谢谢各位,我最近试一下解析,有什么好的方案我会 append 出来的
    zhangsen1992
        8
    zhangsen1992  
       2016-12-30 11:35:17 +08:00
    xpath lxml 最快
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   903 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 20:03 · PVG 04:03 · LAX 12:03 · JFK 15:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.