水平有限，请教一下关于爬虫、脚本相关问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 372 天前的主题，其中的信息可能已经有所发展或是发生改变。

前端、后端小白

现状：

做了个谷歌插件，功能是爬取购物网站的数据，自动化处理批量重复任务；目前是在用户自己电脑上爬数据，有些不能使用 cookie 权限的浏览器只能新开一个标签页进行爬取，用的全是 DOM 操作，感觉这种做法很 low ，数据存储在浏览器 IndexedDB 中

疑问：

购物网站的数据存在时效性，超过一天数据可能就没用了，是否有必要做成服务端爬取？看竞品好像都是服务端爬取的，前端只是给用户一个 web 界面进行操作，号称几十万速度，是怎么做到的？
存储的话，大量数据是如何做存储的？
我可以有什么方案进行优化？

感激不尽！

数据

存储

爬

浏览器

4 条回复 • 2023-11-16 18:29:19 +08:00

meiyiliya

2023-11-16 17:21:19 +08:00

1. 时效性和前端还是后端没有关系，都要重新爬，速度可能是进去的速度，相当于攻击了。
2. 大概率数据库
3. 前端大概率会 node.js 吧，node.js 就有很多爬虫框架了。

callmejoejoe

2023-11-16 17:40:49 +08:00

@meiyiliya 感谢回复
1. 服务端爬相较于前端爬需要额外维护处理，我这不知道有没有必要，判断“有没有必要”的衡量标准也不知道是啥。。尴尬
3. Node.js 的框架在浏览器貌似用不了

z1829909

2023-11-16 18:22:05 +08:00

如果做在前端, 那你的代码其实都是可以被看到的, 如果你后面做大了, 不太好收费, 除非你是一锤子买卖. 所以一般做后端, 爬到的数据存在数据库, 提供 api 出去, 然后收会员费那种.
数据时效性这个没办法, 能做的就是快失效了再爬一次. 另外如果不在客户端爬, ip 池, 登录账号也需要买, 机器成本, 这些是多出来的开销.

callmejoejoe

2023-11-16 18:29:19 +08:00

@z1829909 确实，代码压缩后还是会被破解，客户端爬适合前期摸索市场需求，后续再考虑转为后端吧，就是学习、开发、费用各种成本一下都上来了😭