V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Sparkli
V2EX  ›  程序员

聊聊互联网公司监控技术栈选型

  •  
  •   Sparkli ·
    luoyuctl · 123 天前 · 3623 次点击
    这是一个创建于 123 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近公司在做监控方面的选型,想了解一下大家的业务场景及监控技术栈 /架构选型

    可以分为三个方向展开

    1.业务监控(链路追踪、慢查询慢调用等)
    2.基础监控(虚拟机 / 容器 CPU 、Network 、Mem 等基础指标)
    3.运维监控( K8s 、物理机、虚拟机等管理)

    其中第三点可以先不考虑,SRE 团队可以接手

    或从 Metrics,Tracing,Logging 展开,一些搭配方案

    或现有三方开源监控全链路解决方案、Open-Falcon 、Nightingale

    由于楼主是新手 初探这个领域,想跟大家交流进步一下 错误之处多多包涵

    22 条回复    2021-08-06 17:17:16 +08:00
    Sparkli
        1
    Sparkli  
    OP
       123 天前
    基础监控包括第三方中间件监控,Redis 、ElasticSearch 这种 不过了解不多,大部分都有自身的监控数据 API
    hadesy
        2
    hadesy  
       123 天前   ❤️ 2
    prometheus/thanos + skywalking + elk
    dream4ever
        3
    dream4ever  
       123 天前 via iPhone
    我们不是互联网公司,买的阿里云的服务器,自带基础监控功能,感觉日常业务基本够用。
    blackshadow
        4
    blackshadow  
       123 天前 via iPhone
    2 楼+1
    mreasonyang
        5
    mreasonyang  
       123 天前 via iPhone
    主流方案就是二楼所说的这些搭配使用,整合的成套实现可以参考 cat https://github.com/dianping/cat 。总的来说想做好监控不仅仅需要一个好的监控服务端实现,客户端基础组件层面的埋点上报相关工作也是重要且繁多的
    wellsc
        6
    wellsc  
       123 天前 via iPhone
    物理机的话,zabbix 也还可以
    daxiguaya
        7
    daxiguaya  
       122 天前
    可以业余去"了解"下 https://opentelemetry.io/
    lplusk
        8
    lplusk  
       122 天前
    主流开源方案就是 2 楼说的那个,另外很多大厂会有自研方案。做好监控的真正难点不在于技术选型,而在于监控点覆盖、报警阈值调教、值班应急这一整套流程。
    dreamramon
        9
    dreamramon  
       122 天前
    最开始用 prometheus 和 skywalking,最后都是自研,这样才好和 ci/de,内部通讯工具相结合。
    Alliot
        10
    Alliot  
       122 天前 via Android
    传统服务的系统基础监控+基本业务监控,nightingale 基本可以一套解决,中小型企业 v3 版本甚至可以包揽 cmdb 、任务执行平台的角色。
    k8s 微服务还是 prometheus 全家桶更适合。
    Alliot
        11
    Alliot  
       122 天前 via Android
    @Alliot falcon 可以不用考虑了,夜莺 nightingale 的原班人马,99%的生态兼容。
    我司就是从 falcon 转向夜莺的。
    saytesnake
        12
    saytesnake  
       122 天前
    nightingale + Pinpoint
    wongskay
        13
    wongskay  
       122 天前
    prometheus
    Sparkli
        14
    Sparkli  
    OP
       122 天前
    @dreamramon 主要顾虑点是定制化需求很高吗
    Sparkli
        15
    Sparkli  
    OP
       122 天前
    @Alliot 有对 nightingale 二开过吗?体验如何?
    qq7790586
        16
    qq7790586  
       122 天前
    内部监控用什么啊???
    Sparkli
        17
    Sparkli  
    OP
       122 天前
    @mreasonyang 这个看起来不错,学习了 不过有二开需求 如果是用 GO 写的更好了
    Sparkli
        18
    Sparkli  
    OP
       122 天前
    @qq7790586 内部监控指的是?
    qq7790586
        19
    qq7790586  
       122 天前
    @Sparkli #18 内网监控
    Kyle18Tang
        20
    Kyle18Tang  
       121 天前
    @daxiguaya #7 就等 Spring Cloud Sleuth 正式支持它了
    BQsummer
        21
    BQsummer  
       121 天前
    2L+1,APM 选型上还有 cat 、zipkin 、pinpoint ; prometheus 不能集群部署,单点有瓶颈
    Alliot
        22
    Alliot  
       117 天前 via Android
    @Sparkli 二开谈不上,对 go 不熟悉,一些业务场景都是用插件的形式来满足的。
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3683 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 01:33 · PVG 09:33 · LAX 17:33 · JFK 20:33
    ♥ Do have faith in what you're doing.