访问频率 2 秒左右一次的话访问上万次只遇到一次验证码。
而谷歌随便访问几十次就有验证码,验证码还特别复杂。
我不换 ip 、不登录(完全公开数据)、不破解验证码、不改 ua(使用 selenium+chrome),就一台电脑一直访问不知道会不会有事,还是有点担心。
感觉百度可能在一定程序上默许,毕竟很多做 seo 的需要查排名,如果做太多限制或者验证码很复杂的话,那很多依靠百度获取排名等数据的一些大型网站可能都没法使用了。
1
anexplore 2021-05-09 20:54:35 +08:00
搞那么复杂的反爬干啥呢,总有办法克服掉。。。所以更多的精力放到别的地方更有价值
|
2
Jooooooooo 2021-05-09 20:56:02 +08:00
如今的大型"网站"百度根本搜不到.
|
3
zictos OP @anexplore #1 百度应该算是比较大方的,其他稍微大一点的网站基本都有比较复杂的反爬。淘宝最严重,不过淘宝本身都有开放 api,不知道还限制那么严重干嘛
@Jooooooooo #2 某些不让百度抓取的大型网站我也不需要,但是大部分我需要的,百度都有 |
4
renmu123 2021-05-09 23:54:20 +08:00 via Android
可能因为你的 ip 是共享的,所以经常被广告风控
|
5
renmu123 2021-05-09 23:54:53 +08:00 via Android
广告风控=>谷歌风控
|
7
ooops 2021-05-10 01:36:24 +08:00 via iPhone
一定程度上
|
8
philipjf 2021-05-10 07:46:21 +08:00
写论文的时候通过 Google Scholar 查文献,因为本身不支持批量导出引用文件,只能手动一个一个下载,下载到二十几个的时候直接 IP 被 ban 了
|
9
zzzmh 2021-05-10 10:04:51 +08:00
反爬虫首先要增加前后端的算力消耗,其次既要反爬虫又要兼容老浏览器(ie6 ie7 ie8 等)也非常难实现,放弃浏览器兼容也不行,政企还有不少 xp 系统 ie8,最后就是搜索引擎类型的爬也爬不走他的库,爬到的数据价值也没那么大
|
10
leeyuzhe 2021-05-10 10:54:19 +08:00
我谷歌学术现在直接用不了,手动访问也不不行
|
11
AoEiuV020 2021-05-10 11:54:37 +08:00 1
|
12
zictos OP @AoEiuV020 #11 robots.txt 主要针对搜索引擎的,搜索引擎获取数据后会展示,我获取数据后并不会展示给别人,只是用于自己分析。
我的意思是百度不禁止的话那访问就风险不大,毕竟现在爬虫风险是比较大的。如果他不想让我访问就直接弹验证码或者禁掉我的 ip 就行,我也不更换 ip,就同一个 ip 。 |
13
AoEiuV020 2021-05-10 12:13:01 +08:00
@zictos robots.txt 是针对所有机器人的,一般理解成搜索引擎只是因为正常网站都是拒绝搜索引擎以外的所有机器人,同时搜索引擎以外的爬虫基本都无视 robots.txt,
| The robots exclusion standard, also known as the robots exclusion protocol or simply robots.txt, is a standard used by websites to communicate with web crawlers and other web robots. 总之你违反 robots.txt 就做好被告的心理准备, 做好反反爬虫包括伪装 ua 的话百度还要分析一下你是不是机器人,是不是违反了 robots.txt , 连 ua 都不伪装等于直接告诉百度我就是违规了,你爱咋咋地,百度想做点什么就一抓一个准, |
14
AoEiuV020 2021-05-10 12:15:59 +08:00
@zictos 你这个“如果他不想让我访问就直接弹验证码”就有点自欺欺人了,你擅自提了个要求然而百度根本没有听到你的要求,又怎么会拒绝你,
就像那个,没来上课的同学举个手,好没人举手人都到期了, |
15
zictos OP @AoEiuV020 #13 我用得着伪造 ua 吗?直接使用 chrome 驱动,和正常用户的 chrome 的 ua 是一模一样的。
浏览器安装在我的电脑上,我只是用程序控制我自己电脑上的浏览器,难道我连操作自己电脑的权利都没有了? 一般现在大网站都有反爬措施的。百度也有,访问速度快了就弹验证码。另外像这种排名查询排名 http://tool.chinaz.com/keywords 都是自动访问百度的,如果百度动真格,这些网站都没法查了。很多大公司还有火车抢票,这可比我这种情况严重多了,我才两秒访问一次 |
16
AoEiuV020 2021-05-10 12:32:25 +08:00
@zictos 我的观点是,你违规了,百度保留起诉你的权利,仅此而已,考虑实际影响力百度当然不可能真对你做什么的,
另外用程序控制浏览器而不是鼠标键盘这情况就是 robot 了, 验证码啥的都是需要取舍的,严格了可能影响正常用户,不能说明容忍爬虫, |
17
zictos OP @AoEiuV020 #16 两秒一次,一天就四万多次,正常用户可能访问四万多次吗?如果百度意识到了,直接禁止就行了。又不会造成什么损失。我不换 ip 就是让他能够在不允许的情况下有办法禁止的,而不是他明明不允许我访问,我还疯狂换 ip 让他禁止不了。如果他明知道我访问那么多还不禁止甚至连验证码都不弹,就代表 2 秒每次的访问频率是他默许的。
谁规定 http 请求必须手工操作的?那编程语言是干嘛的。robot 协议是国外出的。但 hiQ Labs Inc v. LinkedIn Corporation,最后居然 hiQ Labs Inc 胜利了。 |