谷歌是怎么爬 React 网站的？

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 1287 days ago, the information mentioned may be changed or developed.

最近尝试用 React 搭了一个网站。结果谷歌一上来爬就从 10000 页开始爬。我这网站最大页数也就 1000 多页，它直接爬第 10000 页，然后 8000 ，6000 这样。全部都是无内容页。
我的翻页器有明确告诉它我网站的头尾页网址，以及上一页和下一页的网址。而且是打印出来给它看的。但是它跟没看到一样，自己穷举页数。然后 search console 那给我告警说收录了上千页 bad page 。正经的内容页面就爬了一点点，其他全在浪费时间穷举我的页码。我真无语。之前 HTML 网站就没这个问题。
有人知道谷歌是怎么爬 React 网站的吗？这个穷举是它自己的爬虫逻辑，还是我网站有什么错误超链接导致的？

React

网站

谷歌

头尾页

20 replies • 2022-11-23 15:15:23 +08:00

lichao

Nov 23, 2022

建议做一个 Sitemap 给它

lFOqSK

Nov 23, 2022

@lichao 做了呀。这个肯定是做了。但是它有自己的想法。

QKgf555H87Fp0cth

Nov 23, 2022

从最新的爬，没毛病。不过他没有检测内容，因为你随机输出一些东西，只要不是 404 ，他就保存了。建议返回 404 。

qqjt

Nov 23, 2022

无内容页得返回 http 404 啊

slime7

Nov 23, 2022

看楼上说返回 404 ，我问一下前后端分离的页面怎么优雅返回 404 状态？

Masterlxj

Nov 23, 2022

你给它个 robots 不就好了么

westoy

Nov 23, 2022

蜘蛛不会穷举的

这是被伪装成 google 爬虫的给定向采集了

Charrlles

Nov 23, 2022 via iPhone

10000 页显示成软 404 ，加上 noindex 就可以了吧，或者直接重定向到 404 页面

locoz

Nov 23, 2022

@slime7 #5 我见过的大部分都是前端请求完列表接口之后，发现没有东西就跳转个 404 页面

locoz

Nov 23, 2022

@westoy #7 注意看人家说的啊，“然后 search console 那给我告警说收录了上千页 bad page”，都在 Google 自己的地方提示了怎么可能还是假 Google...

lFOqSK

Nov 23, 2022

@westoy 但是谷歌的 search console 上是显示是它自己爬的。它现在已经穷举了 5000 多页了。爬取结果都是 Duplicate without user-selected canonical 。然后最神奇最离谱的地方在于，理论上来说它应该告诉我它是从哪里知道我这个网址所以才来爬的。但是这些页面的 Referring page 全部都是页面自己。比如 ?page=10000 的 Referring page 就是 ?page=10000 ，一模一样一字不差。
我从来没见过这么离谱的事情……如果不是因为这个 Referring page 全部都是页面自己，我还真不会怀疑到谷歌的爬虫逻辑上……

westoy

Nov 23, 2022

@locoz
@lFOqSK

我的问题，没注意，武断了......

terranboy

Nov 23, 2022

SSR 了没不然爬啥

lFOqSK

Nov 23, 2022

@qqjt
@Charrlles
谷歌是判定我的这些页面为软 404 （ Duplicate without user-selected canonical ）的。但是我纠结的地方在于，它浪费太多时间在穷举我的这些页码上面了。而我每页的内容，就是那些文章链接什么的，它只爬了很小一部分。而且它这个穷举目前根本没有停下来的意思。
目前，正经内容它只爬了 800 页左右，而这些穷举的 404 页面它爬了 5000 页了。而且我不知道它这样是在干嘛，如果爬完 10000 以内的页面，它是不是还回去爬大于 10000 的页面？因为谷歌对每个网站的爬取是有每日频次限制的，它这样浪费时间穷举，以前一个月就可以索引完整个网站，现在都过去半个月了，正经的内容才 800 页。整个网站爬完估计要花一年时间……

lFOqSK

Nov 23, 2022

@terranboy 我看它的 Crawled page 记录里显示的 html 是有把我特地给它准备的文章页和翻页隐藏超链接都渲染出来的，而且它确实有跟着这些超链接去爬我的文章页。所以我目前还没做 SSR 。之后研究下考虑弄一下 SSR 。
但是主要是它这个莫名其妙去穷举我没给过的页码的行为，太浪费时间了……

terranboy

Nov 23, 2022

@lFOqSK 也许他是看你是 REACT 页面才会出现这些情况的 SSR 了看看吧

yazoox

Nov 23, 2022

楼主，怎么看 goolg 爬你的网站这些明细详细信息的？

ericgui

Nov 23, 2022

@yazoox +1 同问

ericgui

Nov 23, 2022

@yazoox 哦，人家说了就是 google search console
你搜一下

blankmiss

Nov 23, 2022

爬虫有自己的想法哈哈哈