我爱免费 发表于 2025-12-28 15:39

Aiops探索:Aiops 没效果通常不是因为AI 不够强,而是运维本身还没准备好

作者:微信文章
↑↑↑ 点击关注,分享IT技术|职场晋升技巧|AI工具
研究Aiops有一段时间了,目前手里有不少可落地的方案了,接下来会把这些方案全部整理到我的大模型课程里。同时,欢迎大家把你遇到的场景在评论区留言。我会在能力范围内给你提供思路和建议。

只要是做运维、做平台、做 SRE 的团队,几乎都绕不开一个词:Aiops。厂商在讲,老板在问,同行在吹,PPT 上不写两页 Aiops 都显得不够“先进”。但现实是真正把 Aiops 落地后,效果明显的团队并不多。

更多团队的真实状态是:系统上了、模型跑了、看板也有了、但故障还是那些故障、人还是原来那批人、夜里电话一个没少、问题不在于 Aiops 是不是伪概念,而在于:很多团队从一开始就把路走歪了。

问题1:他们以为自己在做 Aiops,其实只是“给运维系统加了点算法”

很多失败案例,都有一个共同特征:Aiops 被当成了一个“技术模块”,而不是一种“工作方式的改变”。

典型路径是这样的:

1)日志太多 → 上日志异常检测

2)指标太乱 → 上时序预测

3)告警太吵 → 上告警压缩、聚类

4)厂商说这是 Aiops → 好,那我们就在做 Aiops 了

但问题是这些东西做完以后,谁真的“用”它了?

1)运维值班时,还是先看原始告警

2)出事了,还是靠经验排查

3)事后复盘,AI 给的结论没人敢背书

4)一旦模型误报一次,就被彻底打入冷宫

结果就是:Aiops 成了一个“锦上添花的旁路系统”,而不是“出了事必须依赖的主系统”。技术在跑,业务在走老路。

问题2:数据质量不过关,却指望模型“自己学会真相”

这是 Aiops 最常见、也最被低估的问题。很多团队嘴上说“我们数据很多”,但实际上是:

1)指标口径不统一

2)同一个“成功率”在不同系统含义不同

3)日志里充满临时字段、历史遗留字段

4)关键变更没有结构化记录

5)故障标签靠人手工补,而且经常不补

这种数据放到机器学习里,本质只有一个结果:模型学到的不是“系统规律”,而是“系统混乱”。但人往往不愿意承认这一点,而更愿意说:

1)“模型效果还需要时间”

2)“这是算法问题”

3)“我们换个更高级的模型试试”

可现实是:如果连人都说不清数据代表什么,模型不可能替你说清楚。Aiops 并不会“点石成金”,它最多只能放大你原有体系的成熟度。

问题3:没有给“人”重新分工,却希望“机器”自动接管一切

这是很多团队最容易忽略的一点。Aiops 的真正价值,不是“替人干活”,
而是重新定义人应该干什么。

但现实中经常是:

1)AI 给了结论

2)但没人对结论负责

3)运维不敢按 AI 的建议操作

4)出事了,责任还是落在人身上

久而久之,大家形成了一个共识:“看一眼可以,真信不行。”如果组织层面没有想清楚这些问题:

1)AI 的判断谁来背书?

2)什么时候可以“以模型结论为准”?

3)模型错了算系统问题,还是人没复核?

那 Aiops 永远只能是“参考意见”,而不是“决策依据”。

有意思的是,那些 Aiops 真正见效的团队,反而往往:

1)不太强调“我们在做 AIOps”

2)很少对外讲复杂模型

3)更多在做看起来很“基础”的事情

比如:

1)把告警定义统一、简化、收敛

2)把变更、发布、故障时间线打通

3)把历史故障变成可复用的知识

4)用算法解决一个很具体、很窄的问题

他们的 Aiops 可能只解决一件事:“夜里 2 点,这个告警到底要不要把人叫醒?”

但这一件事解决了,价值就已经非常实在。
Aiops 的失败,往往不是算法问题,而是认知问题。

如果一定要总结一句话:Aiops没效果,通常不是因为你“AI 不够强”,而是因为你“运维本身还没准备好”。

当一个团队把基础、流程、责任都理顺了,Aiops 才会真正开始“显得聪明”。否则,它只会显得昂贵、复杂、且没什么用。

最后介绍下我的大模型课:我的运维大模型课上线了,目前还在预售期,有很大优惠。AI越来越成熟了,大模型技术需求量也越来越多了,至少我觉得这个方向要比传统的后端开发、前端开发、测试、运维等方向的机会更大,而且一点都不卷!
扫码咨询优惠(粉丝优惠力度大)


··············END··············哈喽,我是阿铭,《跟阿铭学Linux》作者,曾就职于腾讯,有着18年的IT从业经验,现全职做IT类职业培训:运维、k8s、大模型。日常分享运维、AI、大模型相关技术以及职场相关,欢迎围观。
页: [1]
查看完整版本: Aiops探索:Aiops 没效果通常不是因为AI 不够强,而是运维本身还没准备好