促销价格目测是用的折扣的方式,应该是原价*折扣 但是找遍了整个页面都找到这个折扣的比例在哪 有老司机采集过的能指导下吗
1
ufo22940268 2016-07-08 08:30:36 +08:00
你可以通过商品 id 去一淘上抓
|
2
javaluo 2016-07-08 08:33:20 +08:00 via Android
这年头还采淘宝做啥
|
3
c7898585 OP |
5
aeshfawre 2016-07-08 09:02:10 +08:00
作为一个老司机,
比如这个:https://item.taobao.com/item.htm?spm=a219r.lm874.14.9.0Y2qEA&id=530963237947&ns=1&abbucket=16 你说的折扣价就是这个 39.00 吧. 如果是那就是没错.打开这个页面的时候,你会发现有个 get 发出 https://detailskip.taobao.com/service/getData/1/p2/item/detail/sib.htm?itemId=530963237947&modules=qrcode,viewer,price,contract,duty,xmpPromotion,dynStock,delivery,upp,sellerDetail,activity,fqg,zjys,coupon&callback=onSibRequestSuccess 这里面就有促销价格: {"cart":true,"loginPromotion":false,"price":"39.00","start":false,"type":"\u7279\u4EF7\u6D3B\u52A8"} 话说有人收掉我这个快 30 岁的爬虫司机么,无业游民啊. |
6
Allianzcortex 2016-07-08 09:27:54 +08:00
我为什么这么闲……不应该赶紧滚去看书吗……
看完我大概明白 LZ 是什么意思了。这样啊,不是所有在网页上看到的信息都是写在源代码里的(是,可以通过审查元素来看到,但 ctrl+u 打开网页源码是找不到的,而网页源码是你用 requests 得到的内容)。 去 W3C 看看 AJax 的内容,然后打开 Chrome 的开发者模式,进入 Network 那一栏,刷新网页,看看页面都向服务器请求了哪些东西)。最主要的就是模拟访问请求(然而按照淘宝那么 BT 的反爬虫,总有一些东西是不能完全模拟的,京东爬的话会好很多) |
7
laoyuan 2016-07-08 09:27:57 +08:00
我就看到了 PHP
|
8
gdtv 2016-07-08 09:31:05 +08:00
@Allianzcortex 请教一下,打开 Chrome 的开发者模式,进入 Network 那一栏,刷新网页, 然后能不能从所有请求里搜索文本?
|
9
Allianzcortex 2016-07-08 09:41:04 +08:00
@gdtv 能说的再详细一些嘛?我就暂时理解为是搜索 response 里的文字内容了。我没有尝试过,因为基本上你需要的就是一些 AJax 请求,就可以直接过滤掉单纯的 js 文件和图片了(这占了很大的一部分),直接看 response 就能发现需要什么样的内容了。
|
12
zichen0422 2016-07-08 10:26:31 +08:00 1
@aeshfawre 在这里能看到老乡. 卧槽,
|
13
gdtv 2016-07-08 10:36:33 +08:00
@Allianzcortex 就是在该 html 页面以及该页面引用的所有 js/css 的 response 里面搜索文字内容. 例如 www.a.com/test.html 引用了
www.a.com/1.js www.a.com/2.js www.a.com/3.js 某个 js 里有个关键字'helloworld',但我不知道具体在哪个 js 里,当然我可以一个一个 js 打开去找,但有没有什么办法批量搜索这些 js 呢? |
14
Allianzcortex 2016-07-08 10:46:16 +08:00 2
|
16
aeshfawre 2016-07-08 10:52:40 +08:00
@Allianzcortex 感谢,一直没用过 chrome 这个搜索功能. 最新版本是用快捷键 CTRL+SHIFT+F
|
17
gdtv 2016-07-08 11:06:10 +08:00
|
20
aeshfawre 2016-07-08 14:56:37 +08:00
@c7898585 这个..., 你直接点击连接当然是 forbidden 了. 我只是将链接发出来,指明价格在哪个链接. 你自己在 chrome 的网络数据中找这链接, 只能帮到这里了,剩下的你再研究研究.
|
21
luojing 2016-07-08 20:11:38 +08:00 via Android
淘宝的采集不容易,有些好像是需要 cookie 等才能打开你要的数据,总之,是要模拟真实访问的才行
|
22
c7898585 OP |
23
redhatping 2016-07-08 23:15:31 +08:00 via iPhone
@aeshfawre 做 soho 吗 我们要采取数据
|
24
c7898585 OP @redhatping 你们也采集淘宝?
|