做了七年运维,我发现今年最可怕的不是AI抢饭碗,而是没人告诉你运维已经变天了
说起来有点感慨,我2019年入行做运维的时候,部门老大跟我说的第一句话是:”运维的核心就是稳,不出事就是最大的功劳。”那时候我们的日常是什么样的?每天早上到公司先刷一遍监控面板,看看各个服务器的CPU、内存、带宽有没有异常;每周三固定做巡检,敲一堆命令看日志;最怕的就是凌晨两点电话响,一看到是告警短信整个人都精神了,披件衣服就往电脑前冲。
前几天跟同行吃饭,聊起现在的变化,我们都有点恍如隔世。当年我们自嘲是”IT消防员”,哪里着火去哪里,现在你再跟00后运维说”救火”,人家可能会一脸疑惑地看着你:”故障不是AI自己会修吗?”
我见过太多人对AI的焦虑,完全搞错了方向
最近半年刷技术社区,总能看到类似”AI会不会取代运维工程师”的讨论。有人说以后运维都要失业了,有人说学AI就是焦虑贩卖,我倒觉得这两种观点都有点极端。
我去年给一家制造企业做过运维体系升级的咨询,他们之前的运维团队一共5个人,管着总部+3个分厂的网络,平均每个月要出7、8次故障,每次排查至少要2小时,最严重的一次生产线停了4小时,损失上百万。后来他们上了AIOps平台,现在你猜怎么着?90%的常见故障系统自己就处理了,运维团队反而从5个人扩到了8个人,以前大家都在盯监控、排故障,现在一半人在做业务架构优化,一半人在搞边缘节点的容器化落地,工资反而涨了一截。
事实就是,AI根本不是来取代你的,它是来把你从那些重复、琐碎、没价值的劳动里解放出来的。就像当年自动化工具取代了手动敲命令,你没见哪个运维因为有了Ansible就失业,反而是不会用工具的人被淘汰了。
我查了腾讯云今年的报告,现在超60%的中大型企业已经部署了AIOps平台,系统平均故障修复时间比以前缩短了70%。但这背后真正的变化是什么?以前运维的KPI是故障恢复时间,现在的KPI是业务稳定性、资源利用率、甚至是IT成本的ROI。你要是还抱着”只要服务器不宕机就万事大吉”的想法,那真的要危险了。
今年运维圈的几个变化,每一个都在刷新认知
第一个变化:大模型来了,运维真的开始”自己跑”了
别再觉得AIOps就是个噱头,我今年接触的企业,不管是互联网还是传统制造业,都在真金白银地砸智能运维。而且现在的AI已经不是几年前那种只会发发告警、做做报表的样子了。
上个月我帮一个电商客户排查问题,系统刚弹出告警说支付接口响应慢,AI已经直接给出结论:”数据库连接池满了,建议查看SQL慢查询日志第142行,是最近上线的优惠券查询语句没有加索引。”我当时都惊了,换做以前,我们至少要查10分钟日志才能定位到问题。
这就是现在LLMOps的能力,它不是简单的阈值告警,而是真的能理解日志、分析链路、甚至生成修复方案。华为今年发布的AI-Native运维方案更夸张,他们提出了”T-1+T0″的模式,T-1阶段就能通过数字孪生和大模型预测潜在风险,提前把隐患消掉,真出问题了T0时刻自动激活容灾,业务几乎感知不到。
但我也要给大家提个醒,不是说买个AI平台就万事大吉了。我见过太多企业AIOps落地失败,钱花了几百万,效果还不如以前的手动运维。问题出在哪?数据基础没打好。你的网络拓扑是错的,指标来源分散在七八个系统里,告警连上下文都没有,AI再厉害也巧妇难为无米之炊。就像卓豪的报告里说的,真正领先的团队不是先用了AI,而是先建立了可观测性基础设施。
第二个变化:运维不再管服务器了,开始做”内部产品经理”
另一个特别明显的趋势是平台工程的崛起。以前我们说DevOps,强调”你构建你运行”,结果开发人员苦不堪言,写业务代码已经够累了,还要懂K8s编排、网络策略、安全合规,很多人抱怨说”我就想写个接口,为什么要搞懂这么多基础设施的东西?”
现在不一样了,运维的角色变了。我们不再直接操作服务器、改配置,而是去搭建内部开发者平台,把那些复杂的底层能力封装成”黄金路径”,开发人员要个生产环境,点一下按钮就自动生成,完全符合企业的安全规范和运维标准。说难听点,现在的运维更像内部的产品经理,我们的用户就是开发团队,我们要做的就是给他们提供好用、高效的工具,让他们不用关心底层基础设施,专心写业务代码。
我爱运维网今年的报告里有个数据我特别认同:平台工程普及之后,企业的应用交付效率平均提升了40%,运维的工单量反而下降了60%。以前我们天天跟在开发后面擦屁股,现在大家目标一致,都是为了业务更快更好地落地,这种感觉真的很爽。
第三个变化:以前我们看CPU内存,现在我们看碳足迹和成本账单
说个你可能没注意到的变化,现在运维的仪表盘上,除了传统的CPU、内存、带宽这些指标,多了两个新东西:一个是云资源成本,一个是碳足迹。
我去年对接的一个金融客户,他们运维团队现在每个月要跟财务部门对齐云账单,FinOps已经嵌入到了日常的运维决策里。比如大模型训练的任务,系统会自动调度到电费更便宜的区域节点运行,非实时的计算任务优先放在可再生能源充沛的节点。今年他们光云成本就省了30%,还完成了ESG的碳排放指标,一举两得。
还有边缘运维的常态化,现在工业互联网、自动驾驶这些行业起来了,一个企业可能有上万个边缘节点分布在全国各地,你不可能像以前那样远程SSH登录上去改配置。现在的玩法是用GitOps,所有节点的配置都存在Git仓库里,Agent自动同步状态,改配置就像提交代码一样,还能版本回溯,出了问题一键回滚,管上万个节点就像管一个代码库一样简单。
给同行的几个真心话,比学多少新技术都有用
经常有刚入行的小朋友问我,现在技术变化这么快,K8s、eBPF、大模型、可观测性,感觉每天都有新技术要学,根本学不过来,怎么办?我一般都会跟他们说这几句话:
第一,拥抱AI,但别迷信AI。AI是工具,是用来帮你提高效率的,不是替你思考的。我见过有人用AI生成配置文件,结果AI写了个有安全漏洞的配置,他连看都不看就直接上线,最后出了大事故。你要明白,AI给出的方案永远是参考,最终背锅的还是你自己,底层原理永远不能丢。
第二,别只盯着技术,多去了解业务。我以前也是个技术狂,觉得只要技术牛就万事大吉,直到有一次我们优化了半天数据库性能,结果业务部门说你们做的这些对我们根本没用,我们现在的核心问题是新功能上线太慢。从那以后我就明白了,运维的价值从来不是你会多少技术,而是你能为业务创造多少价值。只懂机器不懂业务的运维,路只会越走越窄。
第三,别盲目跟风学技术,选1-2个方向深入就够了。现在技术更新太快了,你不可能什么都学精。你可以选自己感兴趣的方向,比如可观测性、或者平台工程、或者大模型运维,深入研究下去,成为这个领域的专家,比你什么都懂一点但什么都不精有用得多。
最后想跟大家说几句掏心窝子的
我刚入行的时候,觉得运维就是个打杂的,背锅的永远是我们,涨薪永远轮不到我们。但这几年看着行业的变化,我越来越觉得,运维正在变成一个越来越有价值的岗位。我们不再是后台的支持者,而是企业数字化转型的核心参与者,是AI战略落地的算力底座,是业务创新的重要推手。
2018年我转做运维的时候,谁能想到现在运维要懂大模型、要懂成本核算、要懂碳减排?技术永远在变,永远有新东西要学,焦虑是正常的,但与其焦虑AI会不会抢你的饭碗,不如好好想想怎么用好AI,怎么把自己的价值从”执行层”升到”决策层”。
毕竟,AI会取代很多工作,但永远不会取代会用AI、会思考、懂业务的人。