最近尝试用 React 搭了一个网站。结果谷歌一上来爬就从 10000 页开始爬。我这网站最大页数也就 1000 多页,它直接爬第 10000 页,然后 8000 ,6000 这样。全部都是无内容页。
我的翻页器有明确告诉它我网站的头尾页网址,以及上一页和下一页的网址。而且是打印出来给它看的。但是它跟没看到一样,自己穷举页数。然后 search console 那给我告警说收录了上千页 bad page 。正经的内容页面就爬了一点点,其他全在浪费时间穷举我的页码。我真无语。之前 HTML 网站就没这个问题。
有人知道谷歌是怎么爬 React 网站的吗?这个穷举是它自己的爬虫逻辑,还是我网站有什么错误超链接导致的?
我的翻页器有明确告诉它我网站的头尾页网址,以及上一页和下一页的网址。而且是打印出来给它看的。但是它跟没看到一样,自己穷举页数。然后 search console 那给我告警说收录了上千页 bad page 。正经的内容页面就爬了一点点,其他全在浪费时间穷举我的页码。我真无语。之前 HTML 网站就没这个问题。
有人知道谷歌是怎么爬 React 网站的吗?这个穷举是它自己的爬虫逻辑,还是我网站有什么错误超链接导致的?