V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
3kkkk
V2EX  ›  程序员

京东没有 robots.txt 是怎样防止爬虫抓取的

  •  
  •   3kkkk · 177 天前 · 4784 次点击
    这是一个创建于 177 天前的主题,其中的信息可能已经有所发展或是发生改变。

    试了下京东 www.jd.com/robots.txt 跳首页了。这中间是有什么故事让其它搜索引擎没有抓取他家数据。

    25 条回复    2022-04-22 10:00:56 +08:00
    Jooooooooo
        1
    Jooooooooo  
       177 天前   ❤️ 2
    这...爬虫真想爬你还用 robots 拦吗.

    都是有个专门的反爬团队做反爬相关的东西

    而且搜索引擎明明收录了京东, 随便一搜就能搜到, 比如 java site:jd.com
    Xusually
        2
    Xusually  
       177 天前
    确实很奇怪,之前是有的。
    cairnechen
        3
    cairnechen  
       177 天前
    User-agent: *
    Disallow: /?*
    Disallow: /pop/*.html
    Disallow: /pinpai/*.html?*
    User-agent: EtaoSpider
    Disallow: /
    User-agent: HuihuiSpider
    Disallow: /
    User-agent: GwdangSpider
    Disallow: /
    User-agent: WochachaSpider
    Disallow: /

    去年 11 月 10 号因为未知原因下线了
    muzuiget
        4
    muzuiget  
       177 天前
    robots.txt 只是君子协定。
    ytll21
        5
    ytll21  
       177 天前   ❤️ 5
    京东其实没有动力做反爬,因为它主要以自营为主,所以和亚马逊类似逻辑,成交越多越好。淘宝的逻辑会有点不一样,因为淘宝盈利点在于店铺流量,所以让搜索引擎把流量吸走的做法是不符合它自身利益的。
    ytll21
        6
    ytll21  
       177 天前
    恩,这只是我的一点不成熟的想法,欢迎指正 dodge
    k9982874
        7
    k9982874  
       177 天前   ❤️ 1
    放 robots.txt 对国内搜索引擎反而是一份 sitemap
    liuzhaowei55
        8
    liuzhaowei55  
       177 天前 via Android
    各家爬虫会使用特别的 ua ,针对 ua 做了处理吧
    locoz
        9
    locoz  
       177 天前
    有没有 robots.txt 都不影响被爬和反爬,robots.txt 只是君子协定而已。
    vanton
        10
    vanton  
       177 天前
    @ytll21 #5

    没错,淘宝现在是广告平台
    gam2046
        11
    gam2046  
       177 天前   ❤️ 8
    赞同#5 说法,以自营为主的情况下,其实京东相比之下,并不关心流量来源,重要的是有流量,其次是有成交。所以应该是巴不得四面八方的人给京东做引流,反正是从 A 搜索来成交,还是从 B 搜索来成交,都是自营,没差别。

    至于京东的第三方商家,京东自己都不太管他们死活。

    而淘宝需要自己掌握流量的核心诉求是,淘宝自己要卖流量给第三方商家,如果大量站外流量,会导致淘宝自己无法卖流量。
    karloku
        12
    karloku  
       177 天前
    爬虫和搜索引擎分开说

    我是搜索引擎我也不给自营的电商网站做索引啊, 这都是卖钱的广告流量我主动送给他干什么嘛.
    wqhui
        13
    wqhui  
       177 天前
    robots 只是说你不想被爬,别人爬不爬还是看别人意愿。。。
    pengtdyd
        14
    pengtdyd  
       177 天前
    我记得之前有个 JD 的人写了一本书 叫亿级流量。。。里面写了一段关于京东爬虫的内容,去看看吧。
    12101111
        15
    12101111  
       177 天前
    Google 5900x site: jd.com
    第一条 https://item.jd.com/100016046842.html
    第二条 https://item.jd.com/10031652556617.html
    显然是允许被爬的
    swulling
        16
    swulling  
       177 天前 via iPhone   ❤️ 3
    京东希望你来爬,但是不希望你爬价格做比价。所以京东反扒策略一般都做在价格显示上。

    淘宝就根本不希望你来爬,所以淘宝把反扒策略做到页面上。
    mineralsalt
        17
    mineralsalt  
       177 天前   ❤️ 5
    robots: "不要 不要 不要"
    爬虫: "叫吧, 你越叫我越兴奋"
    wzw
        18
    wzw  
       176 天前 via iPhone
    @ytll21 亚马逊,好像就没有反爬
    mostkia
        19
    mostkia  
       176 天前
    这玩意儿防君子不防小人,真的要做反爬,还得上非人类识别技术,某宝上偶尔客户端刷的快了,都会出现滑动条识别是不是爬虫。
    realskywalker
        20
    realskywalker  
       176 天前
    你让我不爬我就不爬?
    chenzheyu
        21
    chenzheyu  
       176 天前
    @wzw  谁说的,直接至少国际站直接就会被发现是爬虫
    wzw
        22
    wzw  
       176 天前
    @chenzheyu 别爬那么快, 应该还好吧, 限制没那么严格
    efaun
        23
    efaun  
       176 天前
    @mostkia #19 我在电脑上用高德必现那个玩意, 拖动一次地图来一次, 辣鸡
    solar
        24
    solar  
       176 天前
    robots.txt 只是个君子协议而已,并没有法律效力或强制性的。
    jiafeiblog
        25
    jiafeiblog  
       36 天前
    amazon 还是有反爬的,只是人家的容忍度要高得多
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1090 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 23:00 · PVG 07:00 · LAX 16:00 · JFK 19:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.