scrapy 部署之后是怎么和后台管理传递信息的？

可能没有，从名字看就是解析输出做统计。

ScrapydWeb 管理已经是这方面做的最好的。
崔庆才自己书里推荐的 Gerapy 完全就是狗屎，运行连个错误输出都没有，运行不起来你都无法调试。而且项目就是半成品，还没有实现完全 scrapyd 所有 API ，星都是靠书的流量拉的小白点的，绝对没有人生产中用。
Crawlab 没有采用 scrapyd 运行爬虫，基本就是直接管理命令行进程。因为没有采用 Scrapy 官方推荐的 scrapyd ，没有尝试过，不确定有没有这方面功能，有兴趣你可以看看它怎么做的。估计即便作了也是输出解析。

我记得 Scrapy 只会运行过程中利用 telnet 与运行的进程做交互，理论上可以直接获取进程中的一部分信息。但没听说过有人这么做。

lshu

2021-11-09 16:19:29 +08:00

继承或者自定义类似“scrapy.extensions.logstats.LogStats”的扩展，定时将其属性中的“stats”序列化，然后通过 api 等操作保存到数据库提供其他服务查询

lithium4010

2021-11-09 16:23:00 +08:00

可以直接写数据库？

996635

2021-11-09 16:23:20 +08:00

twisted 监听了信号量做处理, 同时内部 extension 还实现了一个 tcp server 可以通过通信, 抓了多少是内部维护了个计数器, 默认是内存计数
具体看 https://github.com/scrapy/scrapy/tree/master/scrapy/extensions