V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tianshiyeben
V2EX  ›  程序员

为什么总有人扫我的网站,难道我动了谁的奶酪?

  •  
  •   tianshiyeben ·
    tianshiyeben · 2020-05-19 10:50:04 +08:00 · 5863 次点击
    这是一个创建于 1430 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在 nginx 日志里,经常有奇怪的 404,还有假蜘蛛。

    烦。

    第 1 条附言  ·  2020-05-19 17:03:45 +08:00
    本身是自己的 https://github.com/tianshiyeben/wgcloud
    为了方便下载挂了网站。
    刚看了下,每天就几百 ip,一半是爬虫,心累
    第 2 条附言  ·  2020-05-19 17:18:26 +08:00
    嗯嗯,听你们说,才知道有些流量是爬虫带来的。
    好像直播也有这种操作
    第 3 条附言  ·  2020-05-19 20:33:49 +08:00
    嗯,听大家说完,好像都这样,没什么,谢谢了
    第 4 条附言  ·  2020-05-19 23:10:36 +08:00
    有 v2er 问我是做的什么东西,这就是普通的监控系统,只不过是开源了,没有赚过钱,有好心人下载我开发文档给个零花钱,基本是倒贴状态。
    各位大侠看过,觉得不错,雁过留声,给个 star 哈
    https://github.com/tianshiyeben/wgcloud
    33 条回复    2020-05-20 09:20:27 +08:00
    kios
        1
    kios  
       2020-05-19 11:22:16 +08:00
    动了别人奶酪应该就直接 DDoS 你了 = =
    crella
        2
    crella  
       2020-05-19 12:17:08 +08:00 via Android
    前段时间做了个爬虫,把展示页面放在公网服务器上。我在别的论坛发贴分享这个链接,被删了帖,于是我估计除了我就还有湖北某市的一个访问者……

    然后有几晚,puma 显示很多 malformed request 还有对各种不存在的路径的请求,搜了一下是 nmap 的扫描行为,某些 ip 是国家队。
    wanguorui123
        3
    wanguorui123  
       2020-05-19 12:52:31 +08:00 via iPhone
    每天收到大量请求,全部被自动封锁了
    kumasama
        4
    kumasama  
       2020-05-19 13:19:30 +08:00
    不是可以查出来谁扫你吗?
    zarte
        5
    zarte  
       2020-05-19 13:45:45 +08:00
    扫网站拿肉鸡不很正常么?
    ifxo
        6
    ifxo  
       2020-05-19 13:46:18 +08:00
    都是 ai 扫的,你是躺枪了
    Cmdhelp
        7
    Cmdhelp  
       2020-05-19 13:48:30 +08:00
    aliyun,tengxunyun,国外的安全网站,黑客,都是大批量扫描,,,不过幸好还有点道德,rm -rf /tmp,都是这种命令传进来
    tianshiyeben
        8
    tianshiyeben  
    OP
       2020-05-19 13:58:08 +08:00
    @crella 嗯,我也类似,只是我没仔细留意过是什么人在搞
    tianshiyeben
        9
    tianshiyeben  
    OP
       2020-05-19 13:58:44 +08:00
    @Cmdhelp rm 都有,汗
    tianshiyeben
        10
    tianshiyeben  
    OP
       2020-05-19 13:59:15 +08:00
    @kumasama 我也不太懂,我这还是监控系统,哈哈
    tianshiyeben
        11
    tianshiyeben  
    OP
       2020-05-19 13:59:38 +08:00
    @wanguorui123 用什么能自动封锁啊。我就批了一层 cf
    ArtIsPatrick
        12
    ArtIsPatrick  
       2020-05-19 13:59:55 +08:00 via iPhone
    我扫的,🧀不错😊
    tianshiyeben
        13
    tianshiyeben  
    OP
       2020-05-19 14:00:07 +08:00
    @ifxo 我看了两边,都看成 a v 了
    tianshiyeben
        14
    tianshiyeben  
    OP
       2020-05-19 14:00:55 +08:00
    tianshiyeben
        15
    tianshiyeben  
    OP
       2020-05-19 14:01:25 +08:00
    @kios 我这就开源项目
    M2K4
        16
    M2K4  
       2020-05-19 14:02:36 +08:00 via Android
    你的网站就是奶酪
    tankren
        17
    tankren  
       2020-05-19 14:43:03 +08:00
    不是 bat 就是 bot 想多了
    opengps
        18
    opengps  
       2020-05-19 15:04:55 +08:00   ❤️ 1
    都是自动探寻漏洞的,公网环境这种情况太常见了
    xuanbg
        19
    xuanbg  
       2020-05-19 15:19:13 +08:00   ❤️ 1
    太正常不过了,从我司的日志看,至少有 30%的访问量来自各种爬虫、蜘蛛、攻击脚本。有统计说互联网的流量有 60%以上是爬虫,这样看来我司网站还在水准之下。哈哈哈,这就没事了,安心睡觉。
    ajaxfunction
        20
    ajaxfunction  
       2020-05-19 15:27:25 +08:00   ❤️ 1
    我维护的一个二手房网站,正常用户 pv 一天也就是 3000 左右,

    但是各家 bot 就和疯了一样,光每天生成的 nginx 日志文件就接近 100MB 了, 无时无刻不在爬数据,也不注意频率,搞的我经常宕机,更可恶的是把我 cdn 流量都消耗不少,无解
    heiheidewo
        21
    heiheidewo  
       2020-05-19 15:28:35 +08:00   ❤️ 1
    5M 的带宽,有 4.9M 都是被爬虫消耗了
    aloxaf
        22
    aloxaf  
       2020-05-19 15:37:21 +08:00   ❤️ 1
    瞅了一下我的一个人网站,明面上的爬虫流量大概有 50%,不过所有的异常流量加起来有 70% 了,看来达到了平均水准了 2333

    @ajaxfunction 大公司的 bot 应该都遵守 robots 协议的吧,不想让它爬就禁止
    JackYao
        23
    JackYao  
       2020-05-19 16:42:27 +08:00   ❤️ 1
    不用想了- - 大部分都是 ai 扫的
    我自家 nas 架在了公网, 天天被人干。。
    ajaxfunction
        24
    ajaxfunction  
       2020-05-19 18:02:10 +08:00
    @aloxaf 其实早就设置了 所有爬虫禁止访问,
    但实际上这种资源类网站 和瓜子优信车源类似, 盯着的人太多了,上到竞争对手,下到第三方卖行业软件的众多小公司都在互相采集,毕竟信息就是真金白银
    inktiger
        25
    inktiger  
       2020-05-19 18:08:10 +08:00
    动奶酪你是网站都得崩咯,爬虫遍历互联网都是
    superrichman
        26
    superrichman  
       2020-05-19 18:16:44 +08:00 via iPhone
    爬虫太正常了,不喜欢就配置一下全部拒绝掉
    programmerM
        27
    programmerM  
       2020-05-19 19:13:50 +08:00
    我的个人博客每天 50% 以上的请求都是爬虫,其中 AhrefsBot 的请求最多。我的爬虫请求统计 https://www.misterma.com/data.html
    Soar360
        28
    Soar360  
       2020-05-19 22:49:40 +08:00
    我的个人博客,连爬虫都不愿意光顾。
    https://www.coderbusy.com/
    bojue
        29
    bojue  
       2020-05-19 22:59:00 +08:00
    @aloxaf bot 听说有人越界,不知道真假,国内环境没有相关的处罚
    tianshiyeben
        30
    tianshiyeben  
    OP
       2020-05-19 23:13:48 +08:00 via Android
    @superrichman 我不会配置,不管了
    coderabbit
        31
    coderabbit  
       2020-05-20 08:24:59 +08:00 via Android
    sunwq
        32
    sunwq  
       2020-05-20 09:17:03 +08:00
    挂点广告
    tianshiyeben
        33
    tianshiyeben  
    OP
       2020-05-20 09:20:27 +08:00
    @sunwq 不了。也没多少人访问。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5727 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 02:24 · PVG 10:24 · LAX 19:24 · JFK 22:24
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.