如何在段时间内容实现 1w 个网站的数据采集呢?利用传统的 scrapy 实现,每个网站创建一个 spider 这种肯定是不现实的,而且也不好维护,有其他方案可以快速实现这个庞大网站采集吗?
1
Lockroach 1 天前
这和建立一个个人搜索引擎感觉差不多了,应该有解决方案的
|
2
baozaodexiaomila OP 谢谢大佬,我去找找看,这边要的是实现一个通用招投标采集系统,有点摸不着头脑,没有这么大量网站采集的经验
|
3
baozaodexiaomila OP @Lockroach
谢谢大佬,我去找找看,这边要的是实现一个通用招投标采集系统,有点摸不着头脑,没有这么大量网站采集的经验 |
4
jamos 1 天前
如果 1 万个网站页面规则不一致,你就需要通用的解析库, 根据我的经验,没有完美的解析方案
1. 用 BeautifulSoup 太重,效率不高 2. 用 re 是最快的,写规则也是最麻烦的 这个规模并发应该不是大问题,用 redis 手数据,mongodb 存数据 后面的去重才是真正的考验 |
5
ila 20 小时 4 分钟前
主要是 xpath 规则或 css 规则.
把规则和采集分开来. 使用 scrapy 也可以,他有分布式. btw:招人吗?2019 年我对接过全国各省的招投标网站 |
6
iYume 18 小时 40 分钟前
写 js 脚本采集网页数据,然后交给 llm 总结
|
![]() |
7
snoopygao 17 小时 51 分钟前
抓虫现在需要遵守哪些法律条款
|