开源一个 python 脚本驱动的定向爬虫

爱意满满的作品展示区。

This topic created in 4501 days ago, the information mentioned may be changed or developed.

python爬虫绝大多数都是定向抓取，并进行一定程度的结构化解析

这套爬虫设计采用python脚本驱动抓取动作，适用于各类页面（要实现通用爬虫也没问题）
经过实践证明好用的更新调度机制，以及灵活稳定的抓取环模型
辅以 WEB 化的脚本编写、调试、监控，看图你就懂了：

这套爬虫是我一年多前设计开发的，抓取200个站点，在至少2个商业环境中运行，现在在Apache协议下重写开源。希望能终结各种自己写python爬虫的必要。

github项目： https://github.com/binux/pyspider
快速开始： https://github.com/binux/pyspider/wiki/Quickstart
其他更详细的文档： https://github.com/binux/pyspider/wiki

Supplement 1 · Mar 9, 2014

由于目前仅在 Linux/OSX with python2.7 环境下测试通过，如果您没有环境
可以在 https://koding.com/R/binux（推荐链接）申请到一台 ubuntu 的临时开发环境

sudo apt-get install python-dev python-pip libxml2-dev libxslt-dev libz-dev python-pycurl
git clone https://github.com/binux/pyspider.git
cd pyspider
sudo pip install -r requirements.txt
sed -i "s/app.run()/app.run('0.0.0.0')/" run.py
./run.py

然后访问 http://<username>.kd.io:5000/

Supplement 2 · Mar 10, 2014

现在手上没有使用场景，如果有持续运营的实例，可以提供支持

爬虫

Python

抓取

55 replies • 2016-02-16 22:37:31 +08:00

yanwen

Mar 9, 2014

支持一个。

alexapollo

Mar 9, 2014

看起来还不错~

hhrmatata

Mar 9, 2014

有web调试和监控，看起来很不错

arbipher

Mar 9, 2014

赞！
抓取200个站点，求加到wiki上。

hadoop

Mar 9, 2014

赞！

9hills

Mar 9, 2014

支持一下

binux

Mar 9, 2014

@arbipher 以前的脚本放出来不好。。而且不兼容了

arbipher

Mar 9, 2014

@binux 说的也是，但是就这个是比较恶心的地方。。。

exoticknight

Mar 9, 2014

其实是终结各种我们大家写python爬虫的必要……

RIcter

Mar 9, 2014

请手下我的膝盖...已感谢

figo

Mar 9, 2014

看起来不错

chon

Mar 9, 2014

从BYR论坛过来支持一下~

moroumo

Mar 9, 2014

支持啊，我也用scrapy写过一个简单的

caomu

Mar 10, 2014

手机上手动回复点赞加马克。。。

forever139

Mar 10, 2014

支持下

lj0014

Mar 10, 2014

自带webui非常不错

nealv2ex

Mar 10, 2014

看了一上午了，我的python果真是战5渣。

spritevan

Mar 10, 2014

这个 webui 好丑啊

binux

Mar 10, 2014

@spritevan 帮我改啊

spritevan

Mar 10, 2014

只会说不会改啊（＾ω＾）

cooiky

Mar 10, 2014

这个长时间抓，会被目标站ban掉么

binux

Mar 10, 2014

@cooiky 有流量控制和代理支持

sjrong

Mar 10, 2014

我已经通过贡献1GB空间来支持啦呵呵~

yupeng

Mar 10, 2014

赞，支持一下

primer

Mar 10, 2014

楼主你好，你这款爬虫适用于非结构式的网页信息爬取吗？

还有如果我想爬取Google play商店上APP下的所有用户评论，能做到吗？谢谢楼主！

binux

Mar 10, 2014

@primer 可以，如果要所有的，需要分析出翻页的url

simapple

Mar 10, 2014

顶起

manhere

Mar 10, 2014

@binux 你那个推广链接识别错误，汉字连一块了

binux

Mar 10, 2014

@manhere 不能改没辙啊。。

vaneoooo

Mar 10, 2014

@primer 抓这个作用在于？

run2

Mar 10, 2014

很牛的样子，请问如果采集到了一个索引页，怎么把索引页里的url自动加到task里？并调用不同的Handler

binux

Mar 10, 2014

@sobigfish self.crawl 用于创建 task，这里设计上不是通过不同的 Handler，而是不同的 callback函数来区分的。一个 Handler 固定处理同一个站点（project）的各类页面。
如果确有必要跨 Handler，第二里程碑会实现 send_message 特性可以实现。