V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
kingmo888
V2EX  ›  问与答

爬虫:请问如何分析这一类 onClick 弹出式 URL 链接?

  •  
  •   kingmo888 · 2017-08-18 08:21:26 +08:00 · 3241 次点击
    这是一个创建于 2684 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT, 地址为: http://www.czce.com.cn/portal/jysj/qhjysj/ccpm/A09112003index_1.htm

    很悲剧,所有的事情点个按钮就完事了,在 CTRL+SHIFT+I 下无法获取到任何有价值的信息,我的目的想获取其链接。

    人工按照格式去拼接 url 不行,其中有很多次变更模板。。

    大神们,求帮助,谢谢。

    第 1 条附言  ·  2017-08-18 09:15:33 +08:00
    已经解决!
    感谢二楼提示我 POST,正巧最近学了一点点 django 知道了 post 的一些信息,


    方案:
    目标 url 就是那个 jsp,
    根据 form 构造一个 postdata 即可。里面就涉及到两个 input 的参数。
    14 条回复    2017-08-19 21:14:16 +08:00
    kingmo888
        1
    kingmo888  
    OP
       2017-08-18 09:05:55 +08:00
    好像只能 append 了,是关于 python 的。谢谢。
    刚才断网看了下,他会先打开一个 jsp 的链接,然后跳转到静态页面上去。
    地址:
    http://www.czce.com.cn/cms/cmsface/czce/exchangefront/calendarnewquery.jsp
    marenight
        2
    marenight  
       2017-08-18 09:06:58 +08:00 via iPhone
    post
    DsuineGP
        3
    DsuineGP  
       2017-08-18 09:07:59 +08:00
    不懂你在问什么,整个页面都是 a 标签,中间的查询按钮就是一个 form 表单

    POST /cms/cmsface/czce/exchangefront/calendarnewquery.jsp HTTP/1.1
    Host: www.czce.com.cn
    Content-Length: 40
    Cache-Control: max-age=0
    Origin: http://www.czce.com.cn
    Upgrade-Insecure-Requests: 1
    User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36
    Content-Type: application/x-www-form-urlencoded
    Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
    Referer: http://www.czce.com.cn/portal/jysj/qhjysj/ccpm/A09112003index_1.htm
    Accept-Encoding: gzip, deflate
    Accept-Language: zh,zh-CN;q=0.8,zh-TW;q=0.6,en;q=0.4,en-US;q=0.2,ja;q=0.2
    Cookie: BIGipServerwww_cbd=859613376.23067.0000; JSESSIONID=TRm3ZW8GJdDpFsJ1vFvDl3tZhTDvmJlN34HtJJZRZ94h6WKGRyfd!-1106748389; TS014ada8c=0169c5aa323a7b056f39429d25ae0d2b6e6b38866f1e52eda760468836f0cc0a23d73fe07e92ab7240399b18bf9789244f6f2e6397

    dataType=TRADEHOLDING&pubDate=2017-08-18

    ------------------

    HTTP/1.1 302 Moved Temporarily
    Date: Fri, 18 Aug 2017 01:02:07 GMT
    Location: http://www.czce.com.cn/portal/exchange/dataempty.htm
    Content-Type: text/html; charset=GBK
    X-Powered-By: Servlet/2.5 JSP/2.1
    X-Via: 1.1 yichangdianxin13:3 (Cdn Cache Server V2.0)
    Transfer-Encoding: chunked
    Proxy-Connection: Keep-alive

    <html><head><title>302 Moved Temporarily</title></head>
    <body bgcolor="#FFFFFF">
    <p>This document you requested has moved temporarily.</p>
    <p>It's now at <a href="http://www.czce.com.cn/portal/exchange/dataempty.htm">http://www.czce.com.cn/portal/exchange/dataempty.htm</a>.</p>
    </body></html>
    kingmo888
        5
    kingmo888  
    OP
       2017-08-18 09:17:52 +08:00
    @marenight 感谢。
    @DsuineGP 感谢你,问题已经解决了。看到 2 楼的 post 提示反应过来。
    我习惯了三快捷键直接抓,反而脑子根本没转过来。。另外,请问你这个 POST 是如何抓出来的呢?我还是习惯用抢到的三键组合啊。
    mchl
        6
    mchl  
       2017-08-18 09:21:42 +08:00
    oott123
        7
    oott123  
       2017-08-18 09:24:52 +08:00 via Android
    请在你的“三快捷键组合”的网络面板中勾选 Preserve Logs
    以及下次管它叫 chrome devtools
    DsuineGP
        8
    DsuineGP  
       2017-08-18 09:25:09 +08:00
    @kingmo888 常用的 Charles 抓包. 其实按 F12 打开 chrome devtool 的 network 这一栏就能看到了
    kingmo888
        9
    kingmo888  
    OP
       2017-08-18 10:04:38 +08:00
    @oott123 管他叫什么呢。能解决问题就是了。不知道你有没有尝试复现我的问题,这个 Preserve Logs,我一般都是勾选上的。然并卵。
    oott123
        10
    oott123  
       2017-08-18 10:10:42 +08:00
    @kingmo888 #9 不需要我尝试复现,已经有人试过了,请看 6 楼的截图,显然是看得到的。

    如果你实在是抓不到,请尝试 Fiddler 或者 Charles 这类代理调试工具。
    wangxiaoer
        11
    wangxiaoer  
       2017-08-18 10:47:52 +08:00   ❤️ 1
    @kingmo888 如果一个工具有行业共识的名字,而你反倒瞎 jb 乱叫的话,别人根本就不知道你在说什么,理解你的问题就要花时间。
    kingmo888
        12
    kingmo888  
    OP
       2017-08-18 17:02:27 +08:00
    @wangxiaoer 感谢你的建议,虽然每天上 v2,但我真的不知道叫什么,我也不是你说的行业共识的行业。浪费大家时间很抱歉。PS:打字说话都带生殖器是有快感还是怎么滴?那句话戳到了朋友让你情绪如此激动?如果是工作不顺心看到这个帖子后瞬间引爆你的情绪的话,这个锅我不背。



    @mchl 牛了!我试了试没成功。

    @oott123 谢谢。果然 6 楼截图可以,我重复了下操作流程,好像是。。。总之很弱鸡。抱歉。


    https://i.loli.net/2017/08/18/5996ad0e6cd81.gif
    mchl
        13
    mchl  
       2017-08-18 21:23:08 +08:00 via Android
    element 里 form 的 target="_blank"删掉后再观察
    kingmo888
        14
    kingmo888  
    OP
       2017-08-19 21:14:16 +08:00
    @mchl 感谢你。果然是这样。

    @oott123 已经解决,工具没问题,使用有问题,这完全不知道这种操作。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1344 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 23:50 · PVG 07:50 · LAX 15:50 · JFK 18:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.