python爬虫绝大多数都是定向抓取,并进行一定程度的结构化解析
这套爬虫设计采用python脚本驱动抓取动作,适用于各类页面(要实现通用爬虫也没问题)
经过实践证明好用的更新调度机制,以及灵活稳定的抓取环模型
辅以 WEB 化的脚本编写、调试、监控,看图你就懂了:

这套爬虫是我一年多前设计开发的,抓取200个站点,在至少2个商业环境中运行,现在在Apache协议下重写开源。希望能终结各种自己写python爬虫的必要。
github项目: https://github.com/binux/pyspider
快速开始: https://github.com/binux/pyspider/wiki/Quickstart
其他更详细的文档: https://github.com/binux/pyspider/wiki
这套爬虫设计采用python脚本驱动抓取动作,适用于各类页面(要实现通用爬虫也没问题)
经过实践证明好用的更新调度机制,以及灵活稳定的抓取环模型
辅以 WEB 化的脚本编写、调试、监控,看图你就懂了:

这套爬虫是我一年多前设计开发的,抓取200个站点,在至少2个商业环境中运行,现在在Apache协议下重写开源。希望能终结各种自己写python爬虫的必要。
github项目: https://github.com/binux/pyspider
快速开始: https://github.com/binux/pyspider/wiki/Quickstart
其他更详细的文档: https://github.com/binux/pyspider/wiki