比如当 apply 一个新的 deployment 的时候, 如果部署成功了只能通过日志观测, 但是日志报警却无法配置成实时, 希望是能有一个工具可以监控 deployment 对应的 pod 状态, 然后通知到 IM 里面. 做了一些搜索但是没有找到类似的组件, 目前使用的是阿里的 ACK 托管集群. 求教目前比较常见的解决方案有哪些
1
Judoon 2022-04-21 18:26:18 +08:00
“如果部署成功了只能通过日志观测”
这个结论是怎么得出的? pod 加上健康检查的话,本身 k8s 接口就能获取到生命周期状态啊 |
2
Symo OP @Judoon 通过 kubectl 是周期性的检查容器状态吧?
目前的状况是打算把现在的 ECS 部署上 K8S, 但是通过阿里云提供的 flow 部署之后就没有办法看到 pod 的状态. 能想到的办法就是在 postStart 的时候 curl 一个外部请求, 但是感觉不是合理, 万一网络波动反而造成 pod 失败. |
3
superchijinpeng 2022-04-21 18:35:57 +08:00
|
4
TracyMagic 2022-04-21 18:37:31 +08:00
prometheus 加上个告警不就可以了吗?
|
5
xnile 2022-04-21 19:09:51 +08:00
可以自己用 client-go 实现一个
|
6
fighterhit 2022-04-21 19:19:54 +08:00
我理解楼主的意思,上头的可能没做过这块不清楚需求。其实我们在做的时候也一直面临这个问题,想获取状态无非是"推"、“拉”两种,像轮询这种就算是“拉”,但是和拉的时间间隔有关,不好把握,不一定是实时的;另一种“推”就是 k8s 所在的某个服务端直接给你推状态结果。我们现在是自己写的一套根据事件 event 来跟踪结果,达到某个状态(比如你可以定义为 pod 所有容器 started )来”回调“(其实相当于“推”)给前端等其它模块来感知结果。但这里面也有问题,一是 k8s event 不保证一定有,也就是可能会丢(只不过我们从没遇到过),另一个就是 k8s 本身有些状态不是一次性的,可能会重试成功(比如 imagePullBackOff ),虽然出现了错误但实际内部重试几次可能还会成功,也就是中间的错误状态也会变。相对好点的方法你可以用 websocket 流来实时推 pod 状态,但需要你编写一些代码。其实 k8s client-go 里 informer 的 list-watch 机制挺好的,利用了 etcd 特性 watch 变化来推送给客户端,之前一直在找有没有类似实现机制的框架可以方便实现其它用途,因为 informer 是 k8s client-go 里的除非把它拆出来,但目前还没找到。
|
7
Frankcox 2022-04-21 19:37:07 +08:00
写点代码,利用 List Watch 机制监控下试试?
最近自己也在搞一个 k8s 的监控服务,监控 cluster 的健康和 pod 与 events ,用 bark 推送到 ios 。 |
8
Symo OP @fighterhit 是这样的, 今天又找到一个阿里的开源实现 https://github.com/AliyunContainerService/kube-eventer, 在阿里云自己的 ACK 集群上面使用的也是这个, 但是比开源的版本更新. 内部实现用的就是 list&watch 的机制, 感觉可以参考这个代码开发一下.
|
9
fighterhit 2022-04-23 21:13:04 +08:00
@Symo 嗯,之前大概了解过这个项目。如果是监听 k8s 资源变化基本都是用的 k8s client-go list-watch 机制,但跳出 k8s 资源来不知道有没有这种类似的框架
|
10
kowgarnett 2022-04-27 12:10:03 +08:00
希望实时那要不要考虑直捣 etcd 去 watch key ?
|
11
yyttrr 2022-04-28 16:47:26 +08:00
我这里是部署按钮边上做了个检查按钮,点击通过 api 获取对应 pod 的状态,可以一个个的看 std 日志、event 啥的,谁上线谁看
|
12
dnsjia 2022-07-28 13:44:38 +08:00
用 client-go 获取 deployment pod 就绪数量,同时判断 template-hash 能够满足你的需求
https://docs.dnsjia.com/application/deploy/ |