每个 ip 只访问 1-2 页面,没法封锁 ip ,ua 也是随机变化
1
Puteulanus 2022-02-18 20:22:58 +08:00 1
看看 tls 指纹?
|
2
herozzm OP @Puteulanus 能否再详细?
|
3
ch2 2022-02-18 20:32:17 +08:00
只访问一个页面没办法,人肉用这种办法也能把你的网站搬空
爬虫本质上是无法阻止,只要你把信息放出去了迟早会被别人全拿走 |
7
Darkside 2022-02-18 20:41:06 +08:00 8
@herozzm #2
英文关键词叫 tls fingerprint ,这个网站 https://tlsfingerprint.io/ 提供了比较详细的介绍。 简单来说,不同的 TLS implementation (浏览器 / 各种语言的 HTTP 库)在建立 TLS 连接的时候发送的信息(支持的密码学套件 / 签名算法之类的)不一样。如果对面使用了某些流行的 HTTP 库,并且没有试图模仿浏览器的行为的话,你可以利用 tls fingerprint 把它和正常的浏览器区分开来。 比如目前 Chrome 的 tls fingerprint 是 e47eae8f8c4887b6 ,可以在这里查看详细信息 https://tlsfingerprint.io/id/e47eae8f8c4887b6 |
9
0ZXYDDu796nVCFxq 2022-02-18 20:42:41 +08:00 via Android
加 cookie ,cookie 需要 js 来运算
这样爬虫需要 js 引擎才能正常访问 或者接入 cloudflare 算了 |
10
justs0o 2022-02-18 20:43:16 +08:00
如果代理 IP 很多,除了商业方案,基本无解
|
12
0ZXYDDu796nVCFxq 2022-02-18 20:44:29 +08:00 via Android
@herozzm 是模拟还是真实的浏览器?
还是接入 cloudflare 吧 |
17
des 2022-02-18 20:49:38 +08:00 via iPhone
限制只允许家宽访问?
|
20
des 2022-02-18 20:51:53 +08:00 via iPhone
这,所以你是怎么看出来是爬虫?
|
22
Borch 2022-02-18 20:54:18 +08:00
范围时间内访问次数过多直接禁 ip ,关键字搜 iptable 防 ddos
|
23
des 2022-02-18 20:54:55 +08:00 via iPhone
这样的话确实没啥好办法,家宽封 ip 也不合适
|
26
plmsuper8 2022-02-18 21:01:25 +08:00
看到怀疑的扔假数据去
|
27
justs0o 2022-02-18 21:02:20 +08:00
|
28
justs0o 2022-02-18 21:04:41 +08:00
|
30
cybird 2022-02-18 21:08:50 +08:00
@Puteulanus TLS 指纹效果不大,有代理可以完美绕过
|
31
des 2022-02-18 21:14:39 +08:00 via iPhone
提供个思路,webrtc 检测 ip ,检测通过了才给访问。顺便用 websocket 检测是否有代理
|
34
Juszoe 2022-02-18 21:15:43 +08:00
只限注册用户访问,同时提高注册成本,比如验证码,或者接入第三方登录,把风控交给大厂来解决。看样子对方下了不少的成本来爬,看来你的数据挺值钱呀
|
35
abc8678 2022-02-18 21:16:35 +08:00 via Android 1
@DeWjjj 我以前用第三方工具,多线程下载视频。结果后来,网页不能看视频了,video 标签消失,下半部分的分享栏的排版错乱。是这两个网站:哔哩哔哩、YouTube
|
36
des 2022-02-18 21:16:57 +08:00 via iPhone
另外不要自动封禁,不定时批量封 ip
要让对方觉得你是手工处理的 |
38
0ZXYDDu796nVCFxq 2022-02-18 21:19:42 +08:00 via Android
加验证
点几个字或者移动到相应位置 |
43
Borch 2022-02-18 21:49:09 +08:00
突然想起来之前在 v 站看的这个了:做了一个基于 JavaScript VMP 的滑动验证系统 www.v2ex.com/t/828470
|
44
jiangzm 2022-02-18 21:56:08 +08:00
vid, uid, ip, waf
|
45
dbow 2022-02-18 21:56:36 +08:00
经验谈,封上 1000w ip 就好了。
|
46
sodora 2022-02-18 21:58:30 +08:00 via Android
把网站接入微信二维码扫描登录
|
47
opengps 2022-02-18 22:08:20 +08:00 via Android
验证码拦截
|
49
fisherman0459 2022-02-18 22:43:04 +08:00 1
用字体反爬给爬虫喂点“屎”
参考天眼企查猫眼这些 |
50
DeWjjj 2022-02-18 23:05:08 +08:00
随机加验证码拦截,每次都不输入就降级。
多次不输入,直接 BAN 了。 要么就服务器生成信息丢给客户机,然后在爬虫访问最多的网页上面+上传信息。 假信息或者快速访问,直接 ban 一天。 |
53
Brian1900 2022-02-19 04:06:33 +08:00
字体反爬,验证码反爬,提高爬虫的难度和成本,要是这样对方依旧财大气粗那就无解了
|
54
locoz 2022-02-19 04:11:40 +08:00
如果你这数据值钱,那就搞成付费可见,否则只要效益高于采集的成本就总会有人解决掉你的反爬措施,对抗本质上只是互相烧钱而已,对你来说并没有啥意义;而如果数据不值钱,甚至可以公开给搜索引擎索引,那你管它干啥呢?
|
55
nonwill 2022-02-19 04:13:36 +08:00
接入 cloudflare ,让 它们 随便搞
|
56
MoeMoesakura 2022-02-19 07:31:06 +08:00
@des 要是遇到正常访问者强制禁用 webrtc 怎么办(或者这个爬虫是 headless chrome ,能正常加载 webrtc ?)
|
57
zqx 2022-02-19 08:33:39 +08:00 via Android
禁止无头浏览器访问,关注微信公众号给一个密码,输入密码解锁。
|
59
ZE3kr 2022-02-19 09:07:48 +08:00
hCaptcha https://www.hcaptcha.com
|
60
acbot 2022-02-19 09:29:47 +08:00
1. 在网络层面: 国外,国内运营商 IDC ,国内各个云的 IP 段全封,只保留家宽段和手机段,如果在保留的这些段中发现了直接将该 IP 按市或者省大段封,或者市把这些跳转到随机验证页面。
2. 网站本身:应该考虑随机验证手段。 |
61
Chism 2022-02-19 09:41:05 +08:00 via Android
内容登陆可见,判断登陆的 loginToken 和 IP 挂钩,IP 变了就自动退出登陆,同一个账号密码短期登录多次需要 js 滑动验证码或者手机邮箱验证码。
|
62
22too 2022-02-19 10:14:26 +08:00
cloudflare 接入吧。
或者只让登录可见,对登录用户访问频次限制。 |
66
gen900 2022-02-19 11:32:29 +08:00 via iPhone
如果是重要信息一定要加登录,登录用户才能访问。
之后限制用户访问频率就行了 |
67
raptor 2022-02-19 11:35:51 +08:00
登录可见,token 绑定 IP 和浏览器信息(不止 UA ,还有很多其它信息,比如屏幕分辨率什么的),增加用户注册成本,比如绑定手机什么的
|
68
ctro15547 2022-02-19 11:36:34 +08:00
都用无头浏览器了,那验证码那些只是增加点成本 滑块也只是多加个函数的问题
有参数可以绕过服务器对浏览器是不是自动化的检测 弄成登录可见,从账号 IP 关联上想办法限制 或者前面老兄说的 随机文字转图片,恶心下对面 |
69
lizhenda 2022-02-19 11:37:11 +08:00
字体反扒,参考大众点评
|
72
daokedao 2022-02-19 12:56:05 +08:00
思路就是把文字变成图形
|
73
IvanLi127 2022-02-19 14:05:16 +08:00
要不你直接这两天把所有访问你站的 IP 都给 ban 了?反正平常没多少流量。。直接 ban 了再说?
我觉得你直接加人机验证,新 IP 先过一次人机验证,做不对就 ban 掉。另外给搜索引擎和你们自己的 IP 地址加白名单。 |
74
keyword233 2022-02-19 14:10:42 +08:00
加验证码直接解决问题啊
|
76
wxhanxiao1567 2022-02-19 17:42:49 +08:00
什么网站啊
|
77
acbot 2022-02-19 18:14:09 +08:00
@jerryjhou “... 只保留家宽段和手机段,如果在保留的这些段中发现了直接将该 IP 按市或者省大段封,或者市把这些跳转到随机验证页面 ...” 现阶段大多数地方家宽都已经是 NAT 非公网模式了,所以一般爬虫不会在这些家宽网段中,爬虫大多是在非家宽段,少量地区家宽段封了也就封了,不影响大局。 另外 如果你觉得这些用户也很重要那么就把这些段的用户跳转到爬虫验证
|
78
xabcstack 2022-02-19 18:17:46 +08:00
为什么要歧视爬虫,爬虫也有访问网络的权利啊 😄
|
79
yankebupt 2022-02-19 19:10:46 +08:00
给爬虫一次机会的话 robots.txt ,毕竟 google 或搜索引擎也要爬
要说对于模拟正常用户的虫还不好办容易误杀, 对于每 ip/ua 就 1-2 个页面这种上古级池子最好办了 新 viewer ( ua 或 ip )需要一次验证码,之后发个 cookie token 有虫的话整个 C 段 24 小时强验证,就不是对方有多少个 ip 的问题了,看他有多少个 C 段吧 ipv6 回头再说 话说要不是 cloudflare 国内不友好哪用得着那么麻烦 |
80
ffgrinder 2022-02-19 19:16:48 +08:00 via iPhone
说到爬虫,我觉得美团挺厉害的,自己弄了一套字体?看起来都是汉字,复制下来都是乱码……
|
81
tickwongcn 2022-02-20 01:44:39 +08:00
可以直接上 cloudflare ,设置防火墙规则。
|
82
kingfalse 2022-02-20 20:31:34 +08:00
cf 在国内没节点,上了干啥,至于 IP,,,,爬虫代理 IP 很便宜的,价格低的离谱,而且短效 IP 价格更低,一个有效期几分钟,也就加限制单 IP 频率有点用,我就是做这个的
|
83
iqoo 2022-02-20 21:25:59 +08:00
完美的方案肯定不会免费分享,能分享的基本不是好方案
|
84
ClarkAbe 2022-02-21 08:52:09 +08:00
原来他们的信息也是在这种小网站上查的啊........别说了,看到这网站我也想爬了.......
|
85
RickyC 2022-02-21 14:07:55 +08:00
加验证码。你看头条和 web 版抖音都有验证码。
|