V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Sparkli
V2EX  ›  程序员

聊聊互联网公司监控技术栈选型

  •  
  •   Sparkli ·
    luoyuctl · 2021-07-31 22:13:10 +08:00 · 5966 次点击
    这是一个创建于 1215 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近公司在做监控方面的选型,想了解一下大家的业务场景及监控技术栈 /架构选型

    可以分为三个方向展开

    1.业务监控(链路追踪、慢查询慢调用等)
    2.基础监控(虚拟机 / 容器 CPU 、Network 、Mem 等基础指标)
    3.运维监控( K8s 、物理机、虚拟机等管理)

    其中第三点可以先不考虑,SRE 团队可以接手

    或从 Metrics,Tracing,Logging 展开,一些搭配方案

    或现有三方开源监控全链路解决方案、Open-Falcon 、Nightingale

    由于楼主是新手 初探这个领域,想跟大家交流进步一下 错误之处多多包涵

    22 条回复    2021-08-06 17:17:16 +08:00
    Sparkli
        1
    Sparkli  
    OP
       2021-07-31 22:27:56 +08:00
    基础监控包括第三方中间件监控,Redis 、ElasticSearch 这种 不过了解不多,大部分都有自身的监控数据 API
    hadesy
        2
    hadesy  
       2021-07-31 23:18:40 +08:00   ❤️ 2
    prometheus/thanos + skywalking + elk
    dream4ever
        3
    dream4ever  
       2021-08-01 00:07:55 +08:00 via iPhone
    我们不是互联网公司,买的阿里云的服务器,自带基础监控功能,感觉日常业务基本够用。
    blackshadow
        4
    blackshadow  
       2021-08-01 00:29:47 +08:00 via iPhone
    2 楼+1
    mreasonyang
        5
    mreasonyang  
       2021-08-01 03:12:43 +08:00 via iPhone
    主流方案就是二楼所说的这些搭配使用,整合的成套实现可以参考 cat https://github.com/dianping/cat 。总的来说想做好监控不仅仅需要一个好的监控服务端实现,客户端基础组件层面的埋点上报相关工作也是重要且繁多的
    wellsc
        6
    wellsc  
       2021-08-01 03:29:08 +08:00 via iPhone
    物理机的话,zabbix 也还可以
    daxiguaya
        7
    daxiguaya  
       2021-08-01 10:18:57 +08:00
    可以业余去"了解"下 https://opentelemetry.io/
    lplusk
        8
    lplusk  
       2021-08-01 10:37:59 +08:00
    主流开源方案就是 2 楼说的那个,另外很多大厂会有自研方案。做好监控的真正难点不在于技术选型,而在于监控点覆盖、报警阈值调教、值班应急这一整套流程。
    dreamramon
        9
    dreamramon  
       2021-08-01 11:18:37 +08:00
    最开始用 prometheus 和 skywalking,最后都是自研,这样才好和 ci/de,内部通讯工具相结合。
    Alliot
        10
    Alliot  
       2021-08-01 12:38:55 +08:00 via Android
    传统服务的系统基础监控+基本业务监控,nightingale 基本可以一套解决,中小型企业 v3 版本甚至可以包揽 cmdb 、任务执行平台的角色。
    k8s 微服务还是 prometheus 全家桶更适合。
    Alliot
        11
    Alliot  
       2021-08-01 12:40:24 +08:00 via Android   ❤️ 1
    @Alliot falcon 可以不用考虑了,夜莺 nightingale 的原班人马,99%的生态兼容。
    我司就是从 falcon 转向夜莺的。
    saytesnake
        12
    saytesnake  
       2021-08-01 17:36:41 +08:00
    nightingale + Pinpoint
    wongskay
        13
    wongskay  
       2021-08-01 21:49:47 +08:00
    prometheus
    Sparkli
        14
    Sparkli  
    OP
       2021-08-01 22:12:21 +08:00
    @dreamramon 主要顾虑点是定制化需求很高吗
    Sparkli
        15
    Sparkli  
    OP
       2021-08-01 22:13:47 +08:00
    @Alliot 有对 nightingale 二开过吗?体验如何?
    qq7790586
        16
    qq7790586  
       2021-08-01 22:14:00 +08:00
    内部监控用什么啊???
    Sparkli
        17
    Sparkli  
    OP
       2021-08-01 22:18:03 +08:00
    @mreasonyang 这个看起来不错,学习了 不过有二开需求 如果是用 GO 写的更好了
    Sparkli
        18
    Sparkli  
    OP
       2021-08-01 22:18:26 +08:00
    @qq7790586 内部监控指的是?
    qq7790586
        19
    qq7790586  
       2021-08-01 22:20:09 +08:00
    @Sparkli #18 内网监控
    Kyle18Tang
        20
    Kyle18Tang  
       2021-08-02 11:31:34 +08:00
    @daxiguaya #7 就等 Spring Cloud Sleuth 正式支持它了
    BQsummer
        21
    BQsummer  
       2021-08-02 11:51:34 +08:00
    2L+1,APM 选型上还有 cat 、zipkin 、pinpoint ; prometheus 不能集群部署,单点有瓶颈
    Alliot
        22
    Alliot  
       2021-08-06 17:17:16 +08:00 via Android
    @Sparkli 二开谈不上,对 go 不熟悉,一些业务场景都是用插件的形式来满足的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1028 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 22:17 · PVG 06:17 · LAX 14:17 · JFK 17:17
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.