京东没有 robots.txt 是怎样防止爬虫抓取的

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1463 天前的主题，其中的信息可能已经有所发展或是发生改变。

试了下京东 www.jd.com/robots.txt 跳首页了。这中间是有什么故事让其它搜索引擎没有抓取他家数据。

京东

robots

txt

搜索引擎

25 条回复 • 2022-04-22 10:00:56 +08:00

Jooooooooo

2021-12-02 17:24:16 +08:00

这...爬虫真想爬你还用 robots 拦吗.

都是有个专门的反爬团队做反爬相关的东西

而且搜索引擎明明收录了京东, 随便一搜就能搜到, 比如 java site:jd.com

Xusually

2021-12-02 17:25:56 +08:00

确实很奇怪，之前是有的。

cairnechen

2021-12-02 17:30:21 +08:00

User-agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /

去年 11 月 10 号因为未知原因下线了

muzuiget

2021-12-02 17:32:06 +08:00

robots.txt 只是君子协定。

ytll21

2021-12-02 17:37:37 +08:00

京东其实没有动力做反爬，因为它主要以自营为主，所以和亚马逊类似逻辑，成交越多越好。淘宝的逻辑会有点不一样，因为淘宝盈利点在于店铺流量，所以让搜索引擎把流量吸走的做法是不符合它自身利益的。

ytll21

2021-12-02 17:39:23 +08:00

恩，这只是我的一点不成熟的想法，欢迎指正 dodge

k9982874

2021-12-02 17:41:00 +08:00

放 robots.txt 对国内搜索引擎反而是一份 sitemap

liuzhaowei55

2021-12-02 18:10:49 +08:00 via Android

各家爬虫会使用特别的 ua ，针对 ua 做了处理吧

locoz

2021-12-02 18:24:18 +08:00

有没有 robots.txt 都不影响被爬和反爬，robots.txt 只是君子协定而已。

vanton

2021-12-02 18:28:25 +08:00

@ytll21 #5

没错，淘宝现在是广告平台

gam2046

2021-12-02 19:19:48 +08:00

赞同#5 说法，以自营为主的情况下，其实京东相比之下，并不关心流量来源，重要的是有流量，其次是有成交。所以应该是巴不得四面八方的人给京东做引流，反正是从 A 搜索来成交，还是从 B 搜索来成交，都是自营，没差别。

至于京东的第三方商家，京东自己都不太管他们死活。

而淘宝需要自己掌握流量的核心诉求是，淘宝自己要卖流量给第三方商家，如果大量站外流量，会导致淘宝自己无法卖流量。