V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
kukuwhu
V2EX  ›  Python

懂 Python selenium 的大神进,请教个问题

  •  
  •   kukuwhu · 2016-08-15 13:04:36 +08:00 · 2727 次点击
    这是一个创建于 3048 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Python selenium 的 webdriver 如何可以获取到一个 url get 请求下的所有子资源的请求?比如图片, js,jsoup 之类的; 需求是想做爬虫,但有些信息在页面上并不显示,只有在子请求返回的 jsoup 里才有,我要找到这个 jsoup 的 url 请求,然后再单独发起一次 get 即可获取到我想要的数据;不要问为什么不直接 F12 从 network 里抓包找到对应的 http 接口,这个接口带有签名,只有通过 selenium 访问生成签名后,再基于带有签名的 url 去拿数据,这也是为什么要用 selenium 的原因。 我目前的思路有两个:

    1. 基于 scapy 抓包,找到对应的 url ,再单独发起请求。 2.打开 chrome://net-internals/#events 进行监听找到对应的 url 。 这两个方法都比较麻烦,不知道 selenium 有没有自带的接口可以获取到所有 url 的请求, get_log () 里也没找到。 或者说 selenium 如果能直接捕获到子 url 请求的结果也可以,比如某个子请求的 url 返回的 jsoup 。理论上一定是捕获到了的,要不然后无法生成最终页面,只是不知道如何单独提取出来。
    8 条回复    2016-08-16 00:03:24 +08:00
    ziXiong
        1
    ziXiong  
       2016-08-15 13:13:25 +08:00
    不太明白为什么要找到 url 后单独发请求。 直接通过 selenium 模拟行为,触发你想要的页面加载不可以吗
    billion
        2
    billion  
       2016-08-15 13:16:51 +08:00
    首先你需要知道那个子请求时怎么触发的,例如屏幕往下滚动,还是点某个按钮。

    通过调用 webdriver 接口,或者的直接执行 javascript 来模拟这些触发条件。
    billzhuang
        3
    billzhuang  
       2016-08-15 13:46:22 +08:00
    有同样的需求,真巧
    lxy
        4
    lxy  
       2016-08-15 13:52:55 +08:00
    找到他生成签名的方式。
    kukuwhu
        5
    kukuwhu  
    OP
       2016-08-15 14:09:36 +08:00
    @ziXiong 页面显示的内容不完整,比如 jsoup 里有5个字段,页面中只用了3个,另外两个通过页面无法抓取。
    kukuwhu
        6
    kukuwhu  
    OP
       2016-08-15 14:11:45 +08:00
    @billion 并不是通过外部控件触发,而是类似 ajax ,自动发起的。
    lisztli
        7
    lisztli  
       2016-08-15 18:47:34 +08:00
    不一定非得跟 selenium 过不去,使用 twisted 或者 tornado 给出的 demo 中的 proxy 的例子,将经过 proxy 的全部流量都写到磁盘上,然后请求结束后,去对应的文件中找你需要的信息去。
    zeq
        8
    zeq  
       2016-08-16 00:03:24 +08:00 via Android
    有个东西叫 splash 能满足你的要求
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   990 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 21:23 · PVG 05:23 · LAX 13:23 · JFK 16:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.