V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zorlan
V2EX  ›  PHP

云采集爬虫系统, PHP 编写,无缝接入网站实现自动采集发布数据

  •  2
     
  •   zorlan · 2018-07-19 11:19:10 +08:00 · 7131 次点击
    这是一个创建于 2330 天前的主题,其中的信息可能已经有所发展或是发生改变。

    下载地址: https://github.com/zorlan/skycaiji

    好多爬虫都是 python 的,作为世界上最好的语言,做爬虫怎么少得了 php 呢!

    蓝天采集器 可视化的采集系统(和 cms 一样使用),可以和网站对接,将采集到的数据实时入库 无需你会代码,直接编写采集规则绑定数据库入库即可!

    主要功能:

    全自动定时定量采集

    绝大多数文章智能识别

    支持正则表达式、xpath、json 匹配数据

    支持多级、多页、分页采集

    几乎能采集任何形式的数据内容(小说、影视、列表数据等等)

    无缝耦合各种 cms 程序实现免登陆发布数据

    还可以直接导入数据库、导出 excel、生成 api 接口等等

    图片下载到本地服务器

    ip 代理等等

    19 条回复    2018-08-01 22:46:42 +08:00
    qianmeng
        1
    qianmeng  
       2018-07-19 14:06:24 +08:00 via Android
    简单看了看文档,挺不错
    xxx749
        2
    xxx749  
       2018-07-19 14:09:19 +08:00 via Android
    js 天下第一!
    imdong
        3
    imdong  
       2018-07-19 14:21:33 +08:00
    确实还是挺简单的,先标记一下,感觉后期能用到。
    Rekkles
        4
    Rekkles  
       2018-07-19 14:22:00 +08:00
    可以 已 star
    zqjilove
        5
    zqjilove  
       2018-07-19 16:29:55 +08:00
    已 star,粗略的看文档,和老牌的类似工具,差不多。貌似没看到,可以采集列表数据信息,同时和内容字段一起入库的情况。不知道是否功能存在?
    baiyun888
        6
    baiyun888  
       2018-07-19 17:56:32 +08:00
    很不错哦
    xpath 是不是有些类似 dom 采集
    jamesliu
        7
    jamesliu  
       2018-07-19 18:07:06 +08:00
    star
    1O
        8
    1O  
       2018-07-19 18:09:43 +08:00
    已 star
    zuohuadong
        9
    zuohuadong  
       2018-07-19 18:11:17 +08:00
    php-fpm 就不要拿出来说了~~ 做采集真的很低效。
    这类任务,老老实实异步非阻塞
    chinaglwo
        10
    chinaglwo  
       2018-07-19 18:15:43 +08:00
    动态页可以采集吗
    zorlan
        11
    zorlan  
    OP
       2018-07-19 20:10:57 +08:00
    @zqjilove 文档还没更新,功能都是有的
    zorlan
        12
    zorlan  
    OP
       2018-07-19 20:11:53 +08:00
    @baiyun888 谷歌调试能直接复制元素 xpath
    zorlan
        13
    zorlan  
    OP
       2018-07-19 20:13:12 +08:00
    @zuohuadong 大佬,不妨分享下经验
    zorlan
        14
    zorlan  
    OP
       2018-07-19 20:14:12 +08:00
    @chinaglwo ajax 加载内容吗?没那么强大,可以通过分析 url 抓取
    richChou
        15
    richChou  
       2018-07-19 20:24:16 +08:00 via iPhone
    厉害,已 star 👍🏻
    mingyun
        16
    mingyun  
       2018-07-19 23:13:14 +08:00
    注意:PHP5.3dev 版本和 PHP6 均不支持 表示没有见过 php6.。。
    zorlan
        17
    zorlan  
    OP
       2018-07-20 22:37:56 +08:00 via Android
    @mingyun tp 里的
    zorlan
        18
    zorlan  
    OP
       2018-07-20 22:42:26 +08:00 via Android
    @mingyun 支持 php5.3 到 php7
    e6nian
        19
    e6nian  
       2018-08-01 22:46:42 +08:00
    @zorlan 看完你的 licenses http://www.skycaiji.com/licenses
    再看你的 composer.json 相互都是冲突的,我觉得应该直接从 github 上直接 fork 就好
    :)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5881 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 02:26 · PVG 10:26 · LAX 18:26 · JFK 21:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.