V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zorlan
V2EX  ›  PHP

做了一个 PHP 爬虫系统,可视化操作只需要写规则即可采集大量数据

  •  
  •   zorlan · 2019-02-19 20:10:53 +08:00 · 5733 次点击
    这是一个创建于 2105 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://github.com/zorlan/skycaiji

    用 tp5 写的 php 版本采集器,使用上和 cms 系统类似

    功能: 全自动定时定量采集

    支持正则表达式、xpath、json 匹配数据

    支持多级、多页、分页采集

    可以将数据发布到 cms 程序、数据库、excel 文件等

    配合谷歌浏览器实现页面渲染功能

    图片本地化、ip 代理等等

    19 条回复    2019-03-15 12:56:48 +08:00
    glouhao
        1
    glouhao  
       2019-02-19 20:15:50 +08:00 via Android
    膜拜大佬
    DonnyChao
        2
    DonnyChao  
       2019-02-19 20:52:53 +08:00
    在 vps 上安装试了一下,挺好用的,感谢作者开源,学习一下,github 已 star。
    zqjilove
        3
    zqjilove  
       2019-02-19 21:07:23 +08:00
    早期用过一次,感觉体验很不好,至少和之前用过的一些采集工具比,感觉还是操作体验差一些。功能没问题。还是 DXC 用的爽,可惜现在也收费了
    zorlan
        4
    zorlan  
    OP
       2019-02-19 21:49:19 +08:00
    @DonnyChao 感谢,多多提问题
    zorlan
        5
    zorlan  
    OP
       2019-02-19 21:51:01 +08:00
    @zqjilove 历时一年多,现在已经更新到 2.0 版本了,体验上面怎么改进的好呢?还有你说的 dxc 是什么?
    d5n
        6
    d5n  
       2019-02-19 21:51:50 +08:00 via iPhone
    收藏
    vus520
        7
    vus520  
       2019-02-19 22:21:12 +08:00
    已经 600 个星星了
    lunatic5
        8
    lunatic5  
       2019-02-20 08:28:01 +08:00
    蓝天采集器,刚出来的时候用过,感觉很赞。。。不过好像在 v2 推过好几次了
    tdwj12580
        9
    tdwj12580  
       2019-02-20 10:11:48 +08:00
    可以的,我也收藏一下,以后有用再使用!
    dany813
        10
    dany813  
       2019-02-20 10:20:06 +08:00
    膜拜大佬
    bzj
        11
    bzj  
       2019-02-20 10:23:52 +08:00
    有没有演示站点
    pinerge
        12
    pinerge  
       2019-02-20 10:41:31 +08:00
    采集一般都是 cli 吧,fpm 采集不是特别友好,就算把 php.ini 中 max_execute_time 设为无限有时进程也会莫名其妙的挂掉
    zorlan
        13
    zorlan  
    OP
       2019-02-20 11:12:57 +08:00
    @lunatic5 嘿嘿,大半年前推过,你还记得
    zorlan
        14
    zorlan  
    OP
       2019-02-20 11:14:09 +08:00
    @pinerge 这个问题确实有,现在已经有很大提升了,具体的可以看看源码
    runningman
        15
    runningman  
       2019-02-20 21:06:01 +08:00 via iPhone
    关注一下 看看
    willywu001
        16
    willywu001  
       2019-02-28 14:57:38 +08:00
    cookie 怎么设置的?
    willywu001
        17
    willywu001  
       2019-02-28 14:58:12 +08:00
    @zorlan cookie 怎么设置呢,文档中没看到
    zorlan
        18
    zorlan  
    OP
       2019-02-28 21:16:38 +08:00
    @willywu001 任务》采集器设置》请求头信息 里面
    dwhzy
        19
    dwhzy  
       2019-03-15 12:56:48 +08:00
    mark 一下,好工具~
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   6045 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 02:10 · PVG 10:10 · LAX 18:10 · JFK 21:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.