V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Feiox
V2EX  ›  程序员

一个收集网上垃圾网站的 Github repo 。。。。

  •  
  •   Feiox ·
    feiox · 2015-11-19 11:27:31 +08:00 · 6413 次点击
    这是一个创建于 3322 天前的主题,其中的信息可能已经有所发展或是发生改变。

    转一下 README.md 懒得再打一遍了。

    互联网垃圾网站列表 Github repo

    这里是收集到的互联网上的垃圾网站列表。

    使用

    您可以这样利用它:
    * Chrome :您可以将它导入到 Chrome 的 Personal Blocklist 插件中,用以屏蔽 Google 搜索结果中的垃圾网站。
    * Firefox :我并不是一个 FF 用户,希望您能帮助我找到这类插件

    对垃圾网站的定义

    P.S. 并不完整,欢迎补充

    19 条回复    2016-12-27 16:15:45 +08:00
    chinvo
        1
    chinvo  
       2015-11-19 11:33:37 +08:00
    kafan 这么流氓怎么能不上榜,已 pr
    coolcfan
        2
    coolcfan  
       2015-11-19 11:35:13 +08:00
    @chinvo 可能因为毕竟还是有有一定质量的 UGC 在上面……
    Sequencer
        3
    Sequencer  
       2015-11-19 11:39:00 +08:00 via iPhone
    如何 duckduckgo 可以有这种 block 插件就好了
    lizhenda
        4
    lizhenda  
       2015-11-19 11:42:07 +08:00
    这个不错哈~~
    caomu
        5
    caomu  
       2015-11-19 11:53:33 +08:00 via Android
    kafan 的 bbs 还是有用的,那个什么教程就可以屏蔽。
    hellokt
        6
    hellokt  
       2015-11-19 11:55:45 +08:00
    不得不回一条,kafan 垃圾的令人发指!不过滤这个的列表根本不是一个有效的列表.
    vivisidea
        7
    vivisidea  
       2015-11-19 11:57:26 +08:00
    操作略麻烦,还要安装 chrome 插件才能屏蔽,为什么 google 不设置一个云端的 personal blocklist 呢
    这样不管在哪台机器上,只要登陆了 google 账号,搜索结果自动帮我屏蔽掉
    skylancer
        8
    skylancer  
       2015-11-19 12:17:43 +08:00
    @vivisidea 曾经是有的,只不过你要问为什么 Google 要关了这功能
    Feiox
        9
    Feiox  
    OP
       2015-11-19 12:27:34 +08:00
    @Sequencer 自己开发一个 Chrome 插件呀 ~
    @caomu @hellokt @caomu 真的?这么严重?我看了一下,感觉并不是很,,,内容不至于全部是垃圾吧?(是不是那种抓别人网站的爬虫站呢?)不过已接受 pr
    imlonghao
        10
    imlonghao  
       2015-11-19 12:29:06 +08:00
    我曾经打算自己做这个列表,但是觉得有些网站我想 BLOCK ,但是他里面又有一点有用的东西,然后很纠结
    Licamla
        11
    Licamla  
       2015-11-19 12:31:59 +08:00   ❤️ 1
    firefox 有一个 block site 插件可以用,这个是我改的列表 http://pan.baidu.com/s/1jG2erxO
    或者直接用 adblock 也可以。
    Feiox
        12
    Feiox  
    OP
       2015-11-19 12:32:34 +08:00
    @imlonghao 对,有些博客被一些爬虫站抓取,但过一段时间该博客关闭了,这时候,这些爬虫站却变成“凑合能看也比没有强”的地方了。。。
    Sequencer
        13
    Sequencer  
       2015-11-19 13:12:55 +08:00
    @Feiox 如果搜索引擎官方支持就好了 因为 Chrome 内存吃的可怕 云也不方便 还是在用 Safari
    Slienc7
        14
    Slienc7  
       2015-11-19 15:24:58 +08:00
    https://goo.gl/jWoiR3
    我自己用的列表,只有垃圾搜索站。放在 Gist 上了。
    SparkMan
        15
    SparkMan  
       2015-11-19 16:00:30 +08:00
    我的网站被爬虫快搞死了 http://www.scooter-monocycle.com
    Feiox
        16
    Feiox  
    OP
       2015-11-19 16:27:09 +08:00
    @SparkMan 这是什么意思?
    @xgowex 谢了,我把它们加进了。

    除了中文,英文垃圾站的列表大家有没有、、、、、
    xjoker
        17
    xjoker  
       2015-11-20 14:11:33 +08:00
    so.vjiangyin.net

    也算是一个垃圾站
    Kuso
        18
    Kuso  
       2016-12-27 15:09:20 +08:00
    @Feiox
    谢谢你收集整理这个列表!
    现在还有 3 个误伤的网站:
    google.com
    imgur.com
    mafengwo.cn
    (原谅我没去 github 的 issues 里反馈)
    Kuso
        19
    Kuso  
       2016-12-27 16:15:45 +08:00
    @Feiox
    还发现这两个:
    lofter.com
    blog.sina.com.cn
    虽然存在滥用,有垃圾内容,但不完全是垃圾站。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1056 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 20:06 · PVG 04:06 · LAX 12:06 · JFK 15:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.