V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
c7898585
V2EX  ›  程序员

采集淘宝,找不到促销价格。。。

  •  
  •   c7898585 · 2016-07-08 08:28:21 +08:00 · 4756 次点击
    这是一个创建于 3042 天前的主题,其中的信息可能已经有所发展或是发生改变。

    促销价格目测是用的折扣的方式,应该是原价*折扣 但是找遍了整个页面都找到这个折扣的比例在哪 有老司机采集过的能指导下吗

    28 条回复    2016-07-10 23:08:44 +08:00
    ufo22940268
        1
    ufo22940268  
       2016-07-08 08:30:36 +08:00
    你可以通过商品 id 去一淘上抓
    javaluo
        2
    javaluo  
       2016-07-08 08:33:20 +08:00 via Android
    这年头还采淘宝做啥
    c7898585
        3
    c7898585  
    OP
       2016-07-08 09:01:26 +08:00
    @ufo22940268
    请教下,用火车头 sku_properties 这个参数与 price 和 title 对应的话有什么好方法吗?
    还是必须单独再写一个 php ?
    c7898585
        4
    c7898585  
    OP
       2016-07-08 09:01:39 +08:00
    @javaluo 做一个论坛
    aeshfawre
        5
    aeshfawre  
       2016-07-08 09:02:10 +08:00
    作为一个老司机,
    比如这个:https://item.taobao.com/item.htm?spm=a219r.lm874.14.9.0Y2qEA&id=530963237947&ns=1&abbucket=16
    你说的折扣价就是这个 39.00 吧.
    如果是那就是没错.打开这个页面的时候,你会发现有个 get 发出
    https://detailskip.taobao.com/service/getData/1/p2/item/detail/sib.htm?itemId=530963237947&modules=qrcode,viewer,price,contract,duty,xmpPromotion,dynStock,delivery,upp,sellerDetail,activity,fqg,zjys,coupon&callback=onSibRequestSuccess
    这里面就有促销价格:
    {"cart":true,"loginPromotion":false,"price":"39.00","start":false,"type":"\u7279\u4EF7\u6D3B\u52A8"}

    话说有人收掉我这个快 30 岁的爬虫司机么,无业游民啊.
    Allianzcortex
        6
    Allianzcortex  
       2016-07-08 09:27:54 +08:00
    我为什么这么闲……不应该赶紧滚去看书吗……

    看完我大概明白 LZ 是什么意思了。这样啊,不是所有在网页上看到的信息都是写在源代码里的(是,可以通过审查元素来看到,但 ctrl+u 打开网页源码是找不到的,而网页源码是你用 requests 得到的内容)。

    去 W3C 看看 AJax 的内容,然后打开 Chrome 的开发者模式,进入 Network 那一栏,刷新网页,看看页面都向服务器请求了哪些东西)。最主要的就是模拟访问请求(然而按照淘宝那么 BT 的反爬虫,总有一些东西是不能完全模拟的,京东爬的话会好很多)
    laoyuan
        7
    laoyuan  
       2016-07-08 09:27:57 +08:00
    我就看到了 PHP
    gdtv
        8
    gdtv  
       2016-07-08 09:31:05 +08:00
    @Allianzcortex 请教一下,打开 Chrome 的开发者模式,进入 Network 那一栏,刷新网页, 然后能不能从所有请求里搜索文本?
    Allianzcortex
        9
    Allianzcortex  
       2016-07-08 09:41:04 +08:00
    @gdtv 能说的再详细一些嘛?我就暂时理解为是搜索 response 里的文字内容了。我没有尝试过,因为基本上你需要的就是一些 AJax 请求,就可以直接过滤掉单纯的 js 文件和图片了(这占了很大的一部分),直接看 response 就能发现需要什么样的内容了。
    pyengwoei
        10
    pyengwoei  
       2016-07-08 09:44:08 +08:00
    @aeshfawre 你地理位置在哪里?
    aeshfawre
        11
    aeshfawre  
       2016-07-08 10:19:47 +08:00
    @pyengwoei 江西宜春
    zichen0422
        12
    zichen0422  
       2016-07-08 10:26:31 +08:00   ❤️ 1
    @aeshfawre 在这里能看到老乡. 卧槽,
    gdtv
        13
    gdtv  
       2016-07-08 10:36:33 +08:00
    @Allianzcortex 就是在该 html 页面以及该页面引用的所有 js/css 的 response 里面搜索文字内容. 例如 www.a.com/test.html 引用了
    www.a.com/1.js
    www.a.com/2.js
    www.a.com/3.js
    某个 js 里有个关键字'helloworld',但我不知道具体在哪个 js 里,当然我可以一个一个 js 打开去找,但有没有什么办法批量搜索这些 js 呢?
    aeshfawre
        15
    aeshfawre  
       2016-07-08 10:47:09 +08:00   ❤️ 1
    @gdtv 玩爬虫必备工具 burpsuite , 直接在 filter 里面填上你的词,就过滤出来了
    aeshfawre
        16
    aeshfawre  
       2016-07-08 10:52:40 +08:00
    @Allianzcortex 感谢,一直没用过 chrome 这个搜索功能. 最新版本是用快捷键 CTRL+SHIFT+F
    gdtv
        18
    gdtv  
       2016-07-08 11:06:26 +08:00
    @aeshfawre 谢谢
    c7898585
        19
    c7898585  
    OP
       2016-07-08 14:18:55 +08:00
    @aeshfawre 这个 403 forbidden 的怎么获得返回值的?
    aeshfawre
        20
    aeshfawre  
       2016-07-08 14:56:37 +08:00
    @c7898585 这个..., 你直接点击连接当然是 forbidden 了. 我只是将链接发出来,指明价格在哪个链接. 你自己在 chrome 的网络数据中找这链接, 只能帮到这里了,剩下的你再研究研究.
    luojing
        21
    luojing  
       2016-07-08 20:11:38 +08:00 via Android
    淘宝的采集不容易,有些好像是需要 cookie 等才能打开你要的数据,总之,是要模拟真实访问的才行
    c7898585
        22
    c7898585  
    OP
       2016-07-08 22:05:18 +08:00
    @luojing 大部分没问题啊,标题,商品详情之类的都可以直接采集,就是跳转页加了一个

    @aeshfawre 我在 chrome 中查看,确实没找到这个饿,是在 element , source ,还是 network 里找?都看了下好像都没有啊,另外这玩意能读取到吗?用的火车头采集

    @全体成员  为什么这个帖子那么多人收藏。。。。
    redhatping
        23
    redhatping  
       2016-07-08 23:15:31 +08:00 via iPhone
    @aeshfawre 做 soho 吗 我们要采取数据
    c7898585
        24
    c7898585  
    OP
       2016-07-09 08:35:20 +08:00
    @redhatping 你们也采集淘宝?
    x8888k
        25
    x8888k  
       2016-07-09 12:06:11 +08:00
    @aeshfawre 宜春哪里的
    aeshfawre
        26
    aeshfawre  
       2016-07-09 12:14:53 +08:00
    @x8888k 万载县黄茅镇
    GeekGao
        27
    GeekGao  
       2016-07-10 18:37:06 +08:00
    @aeshfawre 杭州招人,要考虑嘛?
    aeshfawre
        28
    aeshfawre  
       2016-07-10 23:08:44 +08:00
    @GeekGao Sorry,远了点.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3070 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 13:47 · PVG 21:47 · LAX 05:47 · JFK 08:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.