V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
fising
V2EX  ›  问与答

百度抓取中文 URL 有问题?求大神专家指导!!

  •  
  •   fising · 2014-10-21 13:37:44 +08:00 · 2971 次点击
    这是一个创建于 3719 天前的主题,其中的信息可能已经有所发展或是发生改变。
    原来地址:/search?q= + urlencode(中文)

    百度给抓取成:/search + urlencode(?q=urlencode(中文))

    导致很多抓取错误 出现404页

    请问如何解决?
    23 条回复    2014-10-24 22:24:20 +08:00
    weboshr
        1
    weboshr  
       2014-10-21 13:56:54 +08:00
    robots.txt 添加一项

    Disallow: /*?*
    alex321
        2
    alex321  
       2014-10-21 15:10:39 +08:00
    百度自己的测试工具检查轻应用的授权 js 是否成功添加的测试工具都有问题,解析 utf-8 和 gb2312 时,php 出错。。
    百度知道、轻应用与合作方做数据测试时,往正式库里面插入了大量(注意,是大量)垃圾数据。。
    ……
    这种事情我能告诉你们咩。。
    qiayue
        3
    qiayue  
       2014-10-21 15:13:31 +08:00
    code4app.com 有中文 url ,百度抓取没有问题
    楼主发出你的网站看看吧
    millken
        4
    millken  
       2014-10-21 15:17:07 +08:00
    我只能告诉这个是你程序问题
    fising
        5
    fising  
    OP
       2014-10-21 20:00:28 +08:00
    @millken 为啥谷歌没问题呢
    fising
        6
    fising  
    OP
       2014-10-21 20:00:58 +08:00
    @weboshr 这句是啥意思啊,可否解释一下
    jasontse
        7
    jasontse  
       2014-10-21 20:03:13 +08:00 via iPad
    @fising
    禁止抓取带问号的 URL
    binux
        8
    binux  
       2014-10-21 20:04:32 +08:00
    贴一个出错url(短一点的)我给你看看
    fising
        9
    fising  
    OP
       2014-10-21 20:11:58 +08:00
    fising
        10
    fising  
    OP
       2014-10-21 20:13:18 +08:00
    @binux 贴到这里URL被V2EX转换了。你直接复制。不要点击这里的链接。
    binux
        11
    binux  
       2014-10-21 20:18:56 +08:00
    @fising 你确定百度最近爬了你这个url?
    binux
        12
    binux  
       2014-10-21 20:23:27 +08:00
    @fising 没事,我自己另找了一个。
    这链接是从站长平台灌的,你看下你提交的sitemap是不是有问题。
    fising
        13
    fising  
    OP
       2014-10-21 20:30:36 +08:00
    @binux 百度站长系统,出错列表里有这个记录
    fising
        14
    fising  
    OP
       2014-10-21 21:50:39 +08:00
    binux
        15
    binux  
       2014-10-21 21:59:40 +08:00
    这站没什么价值就不管了
    fising
        16
    fising  
    OP
       2014-10-21 22:01:26 +08:00
    @binux 别这么说呀呀呀呀。这是讨论技术。
    Showfom
        17
    Showfom  
       2014-10-21 22:07:56 +08:00
    @fising 你的这个站开源不= =
    caomu
        18
    caomu  
       2014-10-21 22:47:04 +08:00
    我只是来围观看楼上的大大们卖萌的 =。=
    blijf
        19
    blijf  
       2014-10-21 23:49:06 +08:00
    我已经不在乎它收不收了,已经全换SSL
    fising
        20
    fising  
    OP
       2014-10-22 09:32:44 +08:00
    @Showfom 已经开源了
    Showfom
        21
    Showfom  
       2014-10-22 13:06:26 +08:00
    @fising 在哪里下载?
    weboshr
        22
    weboshr  
       2014-10-24 15:07:07 +08:00
    @fising 带有"?"的链接禁止抓取
    fising
        23
    fising  
    OP
       2014-10-24 22:24:20 +08:00
    @weboshr 禁止的话,就没几个页面能抓了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5362 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 05:48 · PVG 13:48 · LAX 21:48 · JFK 00:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.