V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
The Go Programming Language
http://golang.org/
Go Playground
Go Projects
Revel Web Framework
tikazyq
V2EX  ›  Go 编程语言

爬虫管理平台 Crawlab v0.3.0 发布(Golang 版本)

  •  1
     
  •   tikazyq ·
    tikazyq · 2019-08-01 09:48:58 +08:00 · 2626 次点击
    这是一个创建于 1975 天前的主题,其中的信息可能已经有所发展或是发生改变。

    基于 Golang 的分布式爬虫管理平台,支持 Python、NodeJS、Java、Go、PHP 等多种编程语言以及多种爬虫框架。

    项目自今年三月份上线以来受到爬虫爱好者们和开发者们的好评,不少使用者还表示会用 Crawlab 搭建公司的爬虫平台。经过近数月的迭代,我们陆续上线了定时任务、数据分析、网站信息、可配置爬虫、自动提取字段、下载结果、上传爬虫等功能,将 Crawlab 打造得更加实用,更加全面,能够真正帮助用户解决爬虫管理困难的问题。

    Crawlab 主要解决的是大量爬虫管理困难的问题,例如需要监控上百个网站的参杂scrapyselenium的项目不容易做到同时管理,而且命令行管理的成本非常高,还容易出错。Crawlab 支持任何语言和任何框架,配合任务调度、任务监控,很容易做到对成规模的爬虫项目进行有效监控管理。

    更新内容

    本次v0.3.0版本是一次重大更新,主要是将原来基于 Celery 的 Python 版本后台用 Golang 替代了。更新内容如下:

    • Golang 后端: 将原先的 Python 代码由 Golang 重构,提高了稳定性和性能
    • 节点拓扑图: 将节点拓扑结构可视化了
    • 节点系统信息: 可以看到节点的系统信息,例如操作系统、CPU 数量,执行文件等等
    • 节点监控升级: 节点通过 Redis 来注册监控
    • 文件管理: 能够修改爬虫文件,并且提供代码高亮
    • 登录 /注册 /用户管理: 要求用户登录使用 Crawlab,允许用户注册和用户管理,加入了基于角色的权限管理
    • 自动爬虫部署: 爬虫被自动同步 /部署到所有在线节点
    • 更小的 Docker 镜像: 通过多阶段构建,将原先的 Docker 镜像大小从 1.3G 瘦身到 700M

    为什么会重构 Crawlab

    用 Golang 重构的初衷是为了解决一些根本性的 bug,例如定时任务无法稳定触发,节点不会自动显示为离线,等等。重构后的 API 会更加稳定,更加高性能,以前任务列表响应大概在几百毫秒,而现在仅仅需要几毫秒。此外,本次重构优化了用户使用流程,例如之前需要手动部署爬虫,需要用户点击很多次才能运行爬虫;而现在,所有爬虫都是自动部署,代价是用户上传爬虫之后需要等待不到 1 分钟的时间,待爬虫文件通过 GridFS 部署到所有节点之后,才可以运行(当然,主节点是可以直接运行的)。本次重构还加入了一些附加功能,例如用户权限的功能(提供了基础的权限管理)、节点拓扑图、文件管理等等。总的来说,本次更新将 Crawlab 打造得更加稳定和实用。

    Crawlab 截屏预览

    登录

    首页

    节点列表

    节点拓扑图

    爬虫列表

    爬虫概览

    爬虫分析

    爬虫文件

    任务详情 - 抓取结果

    定时任务

    为什么没有可配置爬虫

    很遗憾,由于时间紧张,没有将可配置爬虫移植到新版 Crawlab 上。但是我们后面会将该功能加入进来。

    接下来的计划

    • [ ] 日志管理,更加中心化的日志管理
    • [ ] 其他 SQL 数据库支持,支持储存结果为 MySQL、Postgres 等主流数据库
    • [ ] 可配置爬虫
    • [ ] 异常监控,日志错误异常,零值异常等
    • [ ] 统计数据可视化,更多图表功能

    不过,如果您有更好的 idea,欢迎随时提需求。

    社区

    如果您觉得 Crawlab 对您的日常开发或公司有帮助,请加作者微信 tikazyq1 并注明"Crawlab",作者会将你拉入群。欢迎在 Github 上进行 star,以及,如果遇到任何问题,请随时在 Github 上提 issue。另外,欢迎您对 Crawlab 做开发贡献。

    2 条回复    2019-08-01 10:27:41 +08:00
    locoz
        1
    locoz  
       2019-08-01 10:25:28 +08:00
    大佬牛逼 大佬牛逼 大佬牛逼
    tikazyq
        2
    tikazyq  
    OP
       2019-08-01 10:27:41 +08:00
    @locoz 紧随 Loco 大佬的步伐
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4670 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 04:02 · PVG 12:02 · LAX 20:02 · JFK 23:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.