自己一个网站,都是自己辛辛苦苦用键盘敲出来的数据,纯原创站,自己很用心在做这个网站,但是说实话,一个新手都可以用火车头不费吹灰之力把我的网站数据全爬过去,其实如果不是谷歌的话,我想了很多种防爬虫的手段,比如:
- js 生成数据,抓取 phantomjs 之类的 headless 浏览器的特征码, ban 掉它
- 同一个 ip 短时间内抓取数据太多, ban 掉它
- 没有 header 之类的访问, ban 掉它
- 检测客户端访问抓取 css 文件没有,没有的话就 ban 掉它
- 客户端 js 加密一个 token ,和服务器端公用一个 key 来解密,每次提交都要验证这个 token
- 学习Flickr一样,任何搜索结果只显示4000个结果,避免一次性清仓大处理被爬虫抓完了,后台把sitemap所有数据提交给谷歌,但是貌似这样会不会伤及SEO,毕竟内链之间就断开了
感觉这些合在一起基本可以过滤大部分新手了,但是,这些很有可能把可爱的谷歌爬虫给误伤了,现在服务器端验证 header 为 Googlebot 貌似也不起任何作用,都可以伪造,大家有哪些防爬虫但是不会误伤谷歌爬虫的完美方法?讨论一下,谢谢