xspider 爬虫小框架，专注策略实现爬虫

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2380 天前的主题，其中的信息可能已经有所发展或是发生改变。

https://github.com/intohole/xspider

本地磁盘队列，对各位只有单机，存储内存 cpu 不大的情况实现
针对不同链接 pattern，使用不同解析器；
结合 bloomfilter 过滤神器，达到减少内存占用
整个抽取器，json ／正则／ xpath ／ css selector 等，还在构造中
对整个抓取流程结构化

现在不足点：

数据库存储问题
对抓取失败后，处理策略优化；
无可视化页面，对整个爬虫架构完善
无可自动抽取元素

爬虫架构本人在使用，写一些定制化的爬虫，期待你的建议～

不喜勿喷，可以略过～谢谢

爬虫

抓取

抽取

解析器

12 条回复 • 2018-06-13 20:39:05 +08:00

glacer

2018-06-13 14:03:27 +08:00

mark

ihancheng

2018-06-13 14:13:56 +08:00 via Android

战马

cheesea

2018-06-13 17:07:02 +08:00

我想问一下，楼主这个框架，对比 scrapy/pyspider 有什么区别，或者说解决了什么问题？

itsme001

2018-06-13 18:02:42 +08:00

看到请求用的 requests 就停了.requests 默认的有些 http 头都是去不掉的.会被 requests 使用的下层库(urllib?httplib?)添加上去.玩具成熟点再发吧.

golmic

2018-06-13 18:09:01 +08:00

我还没看到 4L 那，只看到了
1. 抓取单线程
2. from xspider.spider.spider
就不打算继续看了

Leigg

2018-06-13 18:16:03 +08:00 via iPhone

有想法，不过最好有鲜明的优势，相较于 scrapy，pyspider 这些框架，不用把他们实现的你都实现，不然就是造轮子了。
总体建议是: 整体构思好再出发比较好，这是一个很锻炼 coding，架构能力的事情，还是支持楼主。

intohole

2018-06-13 18:35:55 +08:00

楼上们，没用你怎么知道不好呢？好奇？看到 requests 就停止了～

intohole

2018-06-13 18:36:21 +08:00

@cheesea 机器资源紧张，需要设计一些策略问题

intohole

2018-06-13 18:36:56 +08:00

@Leigg 这个有架构的～，这是我自己一些爬虫工具，磨练出来的

gouchaoer2

2018-06-13 19:26:49 +08:00 via Android

你可能不需要队列，mysql 足够
你可能不需要 bloomfilter，unique 索引足够
可能你不需要优化性能，因为爬虫就不是个 cpu/内存消耗的东西

xiangbohua

2018-06-13 19:51:45 +08:00

@gouchaoer2 网络请求、放反扒应该占用大多数时间吧

intohole

2018-06-13 20:39:05 +08:00

@gouchaoer2 其实什么都不用做，直接用 requests 就可以