V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ybyqiji
V2EX  ›  分享发现

小白用云锁防采集发现的一些疑惑

  •  
  •   ybyqiji · 2017-12-09 19:57:22 +08:00 · 2053 次点击
    这是一个创建于 2335 天前的主题,其中的信息可能已经有所发展或是发生改变。

    网站经常被一些人恶意采集,烦不胜烦,也没什么好的办法,以前网上查到云锁的防 cc 功能可以防采集

    就想到了 云锁的 防 cc 功能,实验结果,确实可以防采集,

    但是也发现了一些事情,有些比较疑惑

    ① 因为我设置的请求规则比较严格,所以屏蔽了不少 ip 后来查询得知,是阿里云的 ip (也就是神马搜索)和 360 搜索的蜘蛛 ip 比较多,屏蔽多了没事吧,查询资料也发现 他们两家的蜘蛛太疯狂,

    ② 为了防采集,一天也屏蔽了不少疑似采集的 ip 其中 比较多的是 爬取 https://www.***.com/news/page/1 的比较多,但是 网站是没有 /page/1 的 大家都知道 目录第一页就是 https://www.***.com/news 第二页直接是 https://www.***.com/news/page/2 是不是爬取了 page/1 的都是采集我网站的 ip 呢

    3 条回复    2017-12-09 21:23:09 +08:00
    newworld
        1
    newworld  
       2017-12-09 20:01:22 +08:00
    你看请求参数判断行为啊 采集的肯定和人的正常访问不同的
    gamexg
        2
    gamexg  
       2017-12-09 20:36:18 +08:00
    你看一下从第二页点击 1 后 url 是什么,大部分系统这时候都会访问到 /page/1。
    ybyqiji
        3
    ybyqiji  
    OP
       2017-12-09 21:23:09 +08:00
    @gamexg 从第二页点击 1 后 直接就是目录网址 不会出现 /page/1 的 WordPress 网站 就像这个 http://www.daqianduan.com/design/page/2 第一页 就是 http://www.daqianduan.com/design ,就算访问 http://www.daqianduan.com/design/page/1 也会跳到 http://www.daqianduan.com/design 一般只有采集会出现 page/1 但是 云锁里面屏蔽 page/1 的的 ip 有点多了 几十上百个了,有那么多采集我的吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2184 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 11:12 · PVG 19:12 · LAX 04:12 · JFK 07:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.