需求: 根据商品 sku 获取商品的 一些属性和评论
目前: 使用 python 的 selenium 模拟登录,然后通过 request 请求重定向,xpath 分析数据
问题: 每一次 request 后睡眠 1s,但是发送 20 次后就会出现休息一下的界面,即使手动划过去也不行, 有没有什么好的办法?或者其他的方法?
1
kaiki 2021-02-27 08:57:50 +08:00 47
网页版正常浏览都很困难,你还想爬它
|
2
wangxinpier 2021-02-27 09:00:24 +08:00
随机休息时间
|
3
xihefeng 2021-02-27 09:20:21 +08:00 via Android
抓 app 吧,web 人工都难用
|
4
murmur 2021-02-27 09:38:32 +08:00
你这速度就是比正常人快啊,1 秒看一页是不是以为淘宝的风控是傻子
|
5
love 2021-02-27 09:46:07 +08:00
我看不行,我正常浏览只要超几分钟都会出现,且划不过去,那个验证就是个摆设,划了没有一点鸟用
|
6
invalid522 2021-02-27 09:56:36 +08:00 via Android 1
某宝以至阿里系的反爬都是出了名的恶心,如果脸黑的话,连用 app 都会被强制休息一下
|
7
lawler 2021-02-27 11:52:20 +08:00
x 宝采集一定要做分布式,刷新间隔 60s 以上。
|
8
Smash 2021-02-27 12:41:39 +08:00
我正常刷网页都要弹,你还想爬??
|
9
westoy 2021-02-27 12:51:48 +08:00
|
10
imgbed 2021-02-27 13:08:22 +08:00 via Android
换 ip 了吗
|
11
OHyn 2021-02-27 13:11:39 +08:00
正常使用都困难的东西。。。
|
12
Dvel 2021-02-27 13:12:55 +08:00
Web 上高德地图也老弹这个。。。
|
13
wqzjk393 2021-02-27 13:13:23 +08:00 via iPhone
模拟点击吧
|
14
alexbigbigworld 2021-02-27 13:36:06 +08:00 via iPhone
我自己店铺是在应用市场买的接口做的退货管理之类,你要是采集别人的话估计不好弄,彩多了直接给你 404
|
15
systemcall 2021-02-27 14:15:13 +08:00
没救了的东西,你正常浏览,只要不下单,要不了半个小时就会卡弹窗,没办法跳过的那种
感觉是只要看了 20 个商品左右就会开始弹,谁让你只看不买的? |
16
dbow 2021-02-27 15:41:08 +08:00
淘宝风控非常严格,我以前买东西搜索一下都会让拖滑块,现在不上淘宝了, 基本在京东买。
|
17
leega0 2021-02-27 15:43:55 +08:00
正常搞快了都休息,你还机器人爬。。。分布式吧
|
18
yaoye555 2021-02-27 16:00:28 +08:00
淘宝 web 就不是给人用的玩意
|
19
yaapoo 2021-02-27 17:26:08 +08:00
time.sleep()
|
20
annielong 2021-02-27 18:57:41 +08:00
正常访问都弹窗
|
21
Thymolblue 2021-02-27 19:04:54 +08:00
想请教一下使用 selenium chrome drive 有没有什么办法在后台输入 hotkeys 而不受桌面窗口影响
|
22
applehater 2021-02-27 19:33:56 +08:00 via Android
小新破坏计算机信息的名头
|
23
linuxcat 2021-02-27 19:34:55 +08:00
tb 连正常访问都拦,更别说爬虫了
|
24
zictos 2021-02-27 19:38:48 +08:00
动态 ip vps + 切换 UA + 切换浏览器指纹 + 隐身模式或者清除浏览器缓存和 cookies
|
25
lmmortal 2021-02-27 19:46:13 +08:00 via iPhone
|
26
westerndream 2021-02-27 20:48:38 +08:00
正常浏览都出现休息一下怎么解决
|
27
thursday 2021-02-27 20:52:45 +08:00
@alexbigbigworld 你用的是哪个 应用了。我也有类似需求
|
28
jousca 2021-02-27 21:08:06 +08:00 1
正常浏览在上面找东西都会弹出验证滑块,还别说你搞爬虫。
垃圾网站早晚要挂。 |
29
meinjoy 2021-02-27 22:11:05 +08:00 via iPhone
@alexbigbigworld 请问在哪能卖?
|
30
alexbigbigworld 2021-02-27 22:27:23 +08:00 via iPhone
@meinjoy 服务市场里找集市宝
|
31
muzuiget 2021-02-28 01:23:51 +08:00
正常浏览都会弹,有时候货比三家确实会频繁刷新同一页,都会弹,垃圾。
|
32
zckevin 2021-02-28 09:03:27 +08:00
|
36
zictos 2021-02-28 12:13:00 +08:00
@iscurry #35 动态 vps 可以通过通过程序自动切换系统 ip 的,windows 系统可以通过 cmd 命令( python 通过 os.system()调用)。系统 ip 变了,selenium 自然也变 ip 了。可以在 python 中每隔指定时间切换一下 ip,
|
37
rf99wSiT6IxH1Z23 2021-02-28 13:48:38 +08:00
web 的反爬太厉害了,可以考虑下 app 的吧😂
|
38
inwar 2021-02-28 14:25:36 +08:00 via Android
人用都几次弹一次窗。。
|
39
newmlp 2021-02-28 14:58:19 +08:00
正常人谁会准时 1S 刷一次这么准,淘宝风控又不是傻逼
|
40
Rache1 2021-02-28 16:20:46 +08:00
我觉得淘宝最狗的就是,不登录都不能搜索。。。
|
41
Lemeng 2021-02-28 17:28:32 +08:00
淘宝以前被爬的太多了吧,有时候正常看都会出来,不知道怎么个算法
不过加点时间,总不会错。相对会少点 |
42
RiESA 2021-02-28 17:28:48 +08:00
收购阿里
|
47
z5e56 2021-02-28 22:03:18 +08:00
淘宝的员工满意地笑了并关闭了本标签页
|
49
xihefeng 2021-03-04 08:45:10 +08:00
@iscurry 我见到的是破解 app 端特定参数,例如 https://github.com/xzh0723/Taobao,然后使用代理 ip 等方式搞的
|