V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
exploitcat
V2EX  ›  问与答

Python 中哪个库可以获取一个网页元素的 XPath?

  •  1
     
  •   exploitcat · 2016-01-14 15:45:30 +08:00 · 3527 次点击
    这是一个创建于 3231 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近有个需求,就是拿到一个网页的源代码,然后找到其中元素对应的 XPath ,在 Python 中完成。
    类似于 Chrome 中的"Copy XPath"功能。
    伸手党想问一下有没有现成的 Python 库可以解决?

    8 条回复    2019-12-10 13:53:08 +08:00
    leisurelylicht
        1
    leisurelylicht  
       2016-01-14 15:48:33 +08:00
    from lxml import etree

    或者

    beautifulsoup
    exploitcat
        2
    exploitcat  
    OP
       2016-01-14 15:59:07 +08:00
    @leisurelylicht 有没有 demo 呢? 可以获取指定 element 的 xpath ?
    bdbai
        3
    bdbai  
       2016-01-14 17:56:15 +08:00 via iPhone
    楼上说的是通过 XPath 选择元素吧。
    为什么要用 Python 生成 XPath ?如何确定是哪一个元素?
    imn1
        4
    imn1  
       2016-01-14 18:36:29 +08:00
    同一元素 xpath 有多种写法
    最简单的方法是你自己递归父节点,直到 root 节点
    exploitcat
        5
    exploitcat  
    OP
       2016-01-14 19:42:58 +08:00
    @bdbai 需求往往不需要解释。。。。
    leisurelylicht
        6
    leisurelylicht  
       2016-01-15 09:47:12 +08:00
    @exploitcat 好像没有,需要你自己生成
    wwxiong
        7
    wwxiong  
       2016-01-15 10:28:32 +08:00
    @exploitcat 可以看看 https://github.com/wwxiong/spiders/blob/master/meizi_spider.py 爬虫。里面就是使用 lxml 。
    ruiruirui
        8
    ruiruirui  
       2019-12-10 13:53:08 +08:00
    楼主是如何解决这个问题的,我现在也有个这么一个需求。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1280 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 23:30 · PVG 07:30 · LAX 15:30 · JFK 18:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.