为什么K8S中的全部空闲GPU都被打爆了

背景 最近在公司收到了一条告警,K8S 集群中的 GPU 的节点一台接一台的变成了 NotReady 状态了。过了半个小时,业务找a56爆大奖在线娱乐说他们的服务起不来了,同时服务的所有的实例全都异常了。因为a56爆大奖在线娱乐们线上没有关闭 controller manager Node 异常的驱逐,如果业务代码会把宿主机节点跑死,
posted @ 2024-04-30 08:53  濤叔  阅读(29)  评论(0编辑  收藏  举报