可觀測性(Observability)不再是運(yùn)維工程師的工具箱,而是CIO手中的“水晶球”。
當(dāng)AI開始接管業(yè)務(wù),傳統(tǒng)的“監(jiān)控”已經(jīng)失效。企業(yè)必須從“被動響應(yīng)”進(jìn)化到“自主運(yùn)營”。這不僅關(guān)乎IT穩(wěn)定性,更關(guān)乎在AI時代企業(yè)的生存能力。

當(dāng)你的微服務(wù)崩潰時,你需要知道的不僅僅是“CPU飆升了”,而是“這一秒鐘我們損失了多少錢?”
這正是監(jiān)控(Monitoring)與可觀測性(Observability)的本質(zhì)區(qū)別。
然而,在AI重塑數(shù)字生態(tài)的今天,即使是“可觀測性”也不夠用了。Forrester分析師Carlos Casanova指出,整個行業(yè)正在經(jīng)歷一場深刻的進(jìn)化:從單純的診斷問題,邁向自主修復(fù)(Self-Healing)。
Pacvue、SpotOn和Oracle的技術(shù)領(lǐng)袖們共同勾勒出了一個清晰的5級成熟度模型。你的企業(yè)正處在哪一級?
??讀完本文,你將獲得關(guān)于IT運(yùn)營轉(zhuǎn)型的3大核心戰(zhàn)略洞察。
(Level 3:Business Observability)
前兩級(Level 1監(jiān)控、Level 2技術(shù)可觀測性)解決了工程師的問題:發(fā)生了什么?為什么發(fā)生? 但這對CIO來說還不夠。
到了第3級,可觀測性必須回答商業(yè)問題:
延遲如何影響轉(zhuǎn)化率?
這次宕機(jī)造成了多少收入損失?
哪些高凈值客戶受到了影響?
案例:Pacvue他們的團(tuán)隊(duì)發(fā)現(xiàn),MTTR(平均修復(fù)時間)與客戶流失率直接相關(guān)。通過自動化可觀測性減少漏洞,直接提升了客戶留存率。?
睿信咨詢顧問解讀:
這標(biāo)志著可觀測性從“成本中心”轉(zhuǎn)向“價值中心”。當(dāng)你能把系統(tǒng)穩(wěn)定性直接換算成美元時,你在董事會上的話語權(quán)將截然不同。
(Level 4:AI-Assisted Observability)
數(shù)據(jù)太多,人腦不夠用了。這時候,AI副駕駛(Co-pilot)進(jìn)場。 它可以像氣象預(yù)報員一樣,跨越數(shù)千個微服務(wù),識別出人類無法察覺的“風(fēng)暴前夕”。
但這里有一個悖論:我們用AI來觀測系統(tǒng),誰來觀測AI?AI模型會漂移(Drift)、會產(chǎn)生幻覺(Hallucination)。因此,現(xiàn)代可觀測性管道必須納入全新的指標(biāo):漂移檢測、數(shù)據(jù)新鮮度、幻覺監(jiān)測。
睿信咨詢顧問解讀:
這是一個雙向系統(tǒng):AI增強(qiáng)了可觀測性,而可觀測性也讓AI更可信。沒有護(hù)欄的AI是危險的,沒有AI的可觀測性是盲目的。
(Level 5:Autonomous Operations)
進(jìn)化的終點(diǎn),是不再需要人類介入。 在Pacvue,低風(fēng)險的故障已經(jīng)實(shí)現(xiàn)了全自動修復(fù)。AI智能體(Agent)負(fù)責(zé)調(diào)查,另一個AI智能體(Agent)負(fù)責(zé)修復(fù),只有涉及核心數(shù)據(jù)的高風(fēng)險操作才需要人工審批。
這不僅是效率的提升,更是組織韌性的飛躍。 SpotOn通過AI提供上下文解釋,讓初級工程師也能像老專家一樣處理故障,從而降低了對個別核心人員的依賴(“巴士系數(shù)”風(fēng)險:關(guān)鍵系統(tǒng)依賴于一兩個人的知識,如果他們不在場,就會造成脆弱性)。
要沿著這5級階梯向上攀登,你需要做三件事:
統(tǒng)一數(shù)據(jù)底座(OpenTelemetry):拋棄碎片化的工具。如果你的日志、指標(biāo)和鏈路追蹤不在同一個平臺上,AI就無法獲得完整的上下文。擁抱OpenTelemetry等開放標(biāo)準(zhǔn)是必經(jīng)之路。
建立“業(yè)務(wù)-技術(shù)”映射:不要只看SLI(服務(wù)水平指標(biāo)),要看SLA(服務(wù)等級協(xié)議)背后的商業(yè)承諾。把每一個技術(shù)警報都掛鉤到一個業(yè)務(wù)影響上。
為自動化設(shè)定“護(hù)欄”:不要試圖一夜之間實(shí)現(xiàn)全自動。先自動化“調(diào)查”,再自動化“低風(fēng)險修復(fù)”。建立信任是一個漸進(jìn)的過程。
可觀測性的進(jìn)化,本質(zhì)上是一場認(rèn)知的升級。
它不再是關(guān)于修好一臺服務(wù)器,而是關(guān)于如何讓你的數(shù)字業(yè)務(wù)在混亂和不確定中,保持反脆弱性。
當(dāng)你的系統(tǒng)能夠在故障發(fā)生的毫秒級內(nèi)自主感知、決策并修復(fù)時,你就擁有了AI時代最堅固的護(hù)城河。
隨著AI重塑數(shù)字生態(tài)系統(tǒng),可觀測性正在演進(jìn)為一項(xiàng)業(yè)務(wù)關(guān)鍵型能力:它不僅能夠預(yù)測故障、保障收入,還日益具備自主修復(fù)問題的能力。

圖源:Rob Schultz / Shutterstock
當(dāng)CIO(首席信息官)們談?wù)摽捎^測性(Observability)時,他們可能指的是日志儀表盤、實(shí)時因果圖,或是在客戶尚未感知前就揭示業(yè)務(wù)風(fēng)險的 AI 智能體(Agent)。這個詞已被過度使用,以至于連資深分析師聽到它都會皺眉。
Forrester 的 Carlos Casanova 就是其中之一。他表示,整個行業(yè)把這個詞濫用到了極致:從 APM(應(yīng)用性能監(jiān)控)工具、網(wǎng)絡(luò)遙測到完整的平臺智能,統(tǒng)統(tǒng)被塞進(jìn)可觀測性的大筐。然而,在混亂的表象之下,一件更重要的事正在發(fā)生——可觀測性正沿著一條清晰的路徑演進(jìn):系統(tǒng)不僅能檢測和診斷問題,還將基于業(yè)務(wù)影響自主修復(fù)。
與三位技術(shù)領(lǐng)袖的訪談勾勒出了一個明確的五級成熟度模型。Pacvue 全球 DevOps 總監(jiān) Michael Woodside、SpotOn 工程副總裁 Jeremy White,以及 Oracle 首席云架構(gòu)師 Khushboo Nigam 一致認(rèn)為,不同階段的進(jìn)展不僅僅是工具的變化,可觀測性的進(jìn)步重塑了企業(yè)如何保護(hù)收入、保障客戶體驗(yàn)并治理日益依賴的 AI 系統(tǒng)。
傳統(tǒng)監(jiān)控圍繞閾值、指標(biāo)和儀表盤構(gòu)建:CPU 飆升、錯誤率或延遲超過警戒線即觸發(fā)警報。監(jiān)控在設(shè)計上是反應(yīng)性的(Reactive),因?yàn)樗趩栴}發(fā)生后告訴你出了什么問題。在單體、本地部署、故障域狹小的年代,這種“事后諸葛亮”已足夠了。
如今,分布式系統(tǒng)產(chǎn)生海量遙測數(shù)據(jù),一個微服務(wù)的故障可能波及數(shù)十個依賴項(xiàng)?;陂撝档木瘓蠹冉忉尣涣藶槭裁矗才袛嗖涣诉@是小麻煩還是百萬美元的大災(zāi)難。CIO 們需要更前瞻、更貼合業(yè)務(wù)語境的能力。
從監(jiān)控到可觀測性的轉(zhuǎn)變引入了對系統(tǒng)行為更深、更立體的理解?,F(xiàn)代可觀測性平臺匯聚日志、指標(biāo)、鏈路追蹤(Traces)與配置上下文,繪制服務(wù)依賴圖,讓工程師得以復(fù)盤事故全過程。
但數(shù)據(jù)的激增帶來了新問題。SpotOn 為餐廳和酒店業(yè)務(wù)提供服務(wù),White 及其團(tuán)隊(duì)在高度分散的環(huán)境中運(yùn)行核心服務(wù)和基礎(chǔ)設(shè)施,以確保支付、訂購和店內(nèi)系統(tǒng)的正常運(yùn)行。他描述了公司最初使用可觀測性平臺 Grafana Cloud 的經(jīng)歷如何導(dǎo)致信號與噪聲的過載:“我們從數(shù)據(jù)不足跳到數(shù)據(jù)過載,工程師拿到了他們要求的細(xì)粒度遙測數(shù)據(jù),卻無從辨別哪些是真正重要的。技術(shù)可觀測性解決了‘發(fā)生了什么’的問題,卻仍未回答‘這意味著什么’。”
技術(shù)可觀測性加快了診斷速度,但如果沒有業(yè)務(wù)視角,它仍會把人淹沒在噪音里。于是,這自然演進(jìn)到下一階段:將遙測數(shù)據(jù)與收入、客戶體驗(yàn)、風(fēng)險直接聯(lián)系起來。
業(yè)務(wù)可觀測性讓可觀測性從工程話題升級為“CIO級戰(zhàn)略議題”。在這一階段,企業(yè)不再滿足于遙測技術(shù),而是提出更具后果性的問題:哪些交易正面臨風(fēng)險?延遲如何影響轉(zhuǎn)化率?這次降級帶來多少收入損失?該優(yōu)先向哪些客戶主動發(fā)出關(guān)懷?在業(yè)務(wù)高峰時段,如何按經(jīng)濟(jì)影響給事故排優(yōu)先級?
CIO 們不僅想知道發(fā)生了什么,更想知道代價有多大。Pacvue 幫助品牌管理和自動化市場中的活動,清楚地展示了這一轉(zhuǎn)變。Woodside 的團(tuán)隊(duì)分析了運(yùn)營指標(biāo)與業(yè)務(wù)結(jié)果之間的相關(guān)性,特別是客戶流失率。他說:“當(dāng)?MTTR(平均修復(fù)時間)下降,流失率就跟著下降?!蓖瑯?,減少生產(chǎn)缺陷能提升留存率。自動化可觀測性為?CI/CD流水線提供數(shù)據(jù),減少漏洞數(shù)量,穩(wěn)定功能,并提高客戶保留率。對 Woodside 而言,這是實(shí)打?qū)嵉睦麧櫽绊?,而非紙上談兵?/span>
Oracle 的 Nigam 直接與企業(yè)合作設(shè)計云和可觀測架構(gòu),她揭示了這種聯(lián)系背后的結(jié)構(gòu):延遲、錯誤率等SLI(服務(wù)水平指標(biāo))匯聚成?SLO(服務(wù)水平目標(biāo)),再支撐對外承諾的?SLA(服務(wù)等級協(xié)議)。她說:“領(lǐng)導(dǎo)和客戶只看 SLA,但 SLA 源自最基礎(chǔ)的遙測?!币坏┻b測數(shù)據(jù)缺位或采集不一致,企業(yè)就無從量化業(yè)務(wù)風(fēng)險。
SpotOn 的 White 補(bǔ)充了客戶體驗(yàn)維度。他的團(tuán)隊(duì)會主動識別餐廳網(wǎng)絡(luò)故障,通常是在餐廳自己意識到之前。他說:“服務(wù)商先打電話告訴你‘我們發(fā)現(xiàn)問題了’,這會完全改變整個體驗(yàn)?!奔词沟讓庸收鲜窍嗤?,客戶也感受到被關(guān)懷,而非被拖累。
業(yè)務(wù)可觀測性將可觀測性從技術(shù)安全網(wǎng)轉(zhuǎn)變?yōu)闃I(yè)務(wù)韌性系統(tǒng),但要規(guī)?;\(yùn)作,它需要新搭檔:AI。
四、階段 4:AI 輔助可觀測性——上下文、關(guān)聯(lián)與副駕駛
AI 的到來并非替代可觀測性,而是將其推向新高度。隨著遙測數(shù)據(jù)量的激增,人類的解讀成為瓶頸。團(tuán)隊(duì)缺的不是數(shù)據(jù),而是時間、上下文與認(rèn)知帶寬。AI 副駕駛(Co-pilot)正在開始填補(bǔ)這一鴻溝。
Casanova 把 AI 比作氣象預(yù)報員。他說,本地工程師或許了解巴黎或倫敦的天氣,卻沒人能俯瞰整個大西洋上正在形成的巨型氣象系統(tǒng)。AI 能夠跨域拼接信號,識別單點(diǎn)團(tuán)隊(duì)無法監(jiān)測的模式,并在這些模式顯現(xiàn)前就做出預(yù)測。
Nigam 指出,AI 副駕駛擅長在數(shù)十萬條日志中抽絲剝繭,總結(jié)因果鏈,并提供關(guān)于哪些環(huán)節(jié)出錯的假設(shè),這縮短了?MTTD(平均檢測時間)和 MTTU(平均理解時間)。
Woodside 注意到,AI 的可解釋性——他稱之為“面包屑”——已成為贏得信任的關(guān)鍵。當(dāng) AI 生成的診斷能清晰展示推導(dǎo)過程時,工程師接受得更快、猶豫得更少。結(jié)果之一是他的 DevOps 團(tuán)隊(duì)花費(fèi)更少時間在監(jiān)控日志上,更多時間投入成本優(yōu)化與架構(gòu)升級。
然而,可觀測性在此又完成一次進(jìn)化躍遷:AI 不僅增強(qiáng)可觀測性,自身也成為必須被觀測的系統(tǒng),因?yàn)槟P蜁?、性能會退化、答案會波動,甚至偶爾會產(chǎn)生幻覺。因此,現(xiàn)代可觀測性管道必須納入全新遙測:漂移指標(biāo)、數(shù)據(jù)新鮮度檢查、可變性指標(biāo)、幻覺監(jiān)測以及保障可信行動的護(hù)欄。依賴 AI 的企業(yè),必須確保 AI 本身是可靠的、可審計的和穩(wěn)定的。
在這一階段,可觀測性變成雙向系統(tǒng):AI 讓可觀測性更強(qiáng),可觀測性也讓 AI 更可信。
進(jìn)化的終點(diǎn)不僅是檢測或診斷事故,而是自主解決事故,這已經(jīng)在所采訪企業(yè)中的一些領(lǐng)域發(fā)生。
在 Pacvue,Woodside 描述了一條日益由 AI 智能體(Agent)驅(qū)動的生產(chǎn)工作流:一個智能體(Agent)負(fù)責(zé)調(diào)查,另一個負(fù)責(zé)潛在修復(fù),低風(fēng)險場景可全自動執(zhí)行;涉及持久化數(shù)據(jù)存儲等高風(fēng)險操作,則保留人工審批回路。這種平衡讓團(tuán)隊(duì)在擴(kuò)大自動化規(guī)模的同時仍保有安全閘口。
這里的核心創(chuàng)新是“智能體(Agent)到智能體(Agent)”協(xié)議的出現(xiàn),它讓 AI 智能體(Agent)之間可以像微服務(wù)一樣傳遞完整上下文。一旦上下文可被機(jī)器讀取,許多任務(wù)的主要操作者就不再是人,而是機(jī)器。
在 SpotOn,White 看到由于升級鏈的崩潰所帶來的影響:過去新工程師必須依賴少數(shù)老專家才能摸清系統(tǒng)的隱性依賴;如今 AI 提供上下文解釋,初級工程師也能自信、高效地參與應(yīng)急通話。這還降低了“巴士系數(shù)”風(fēng)險,即關(guān)鍵系統(tǒng)依賴于一兩個人的知識,如果他們不在場,就會造成脆弱性。
自主運(yùn)營提升的是人類,而非取代人類。企業(yè)通常先自動化調(diào)查環(huán)節(jié),再對低風(fēng)險場景進(jìn)行補(bǔ)救。隨著信任、透明度與治理機(jī)制的成熟,自動化會穩(wěn)步向更高價值的工作流擴(kuò)張。
組織不能僅僅通過增加更多儀表板或啟用選定的機(jī)器學(xué)習(xí)功能來實(shí)現(xiàn)自主運(yùn)營。自主性需要在兩個維度上實(shí)現(xiàn)可觀測:業(yè)務(wù)可觀測性與 AI 可觀測性,而這兩者都要求達(dá)到少數(shù)企業(yè)尚未實(shí)現(xiàn)的紀(jì)律水平。
第一,連貫性(Consistency)。公司必須拋棄碎片化工具,構(gòu)建能一致采集日志、指標(biāo)、鏈路追蹤與模型信號的統(tǒng)一遙測管線。對許多人來說,這意味著擁抱 OpenTelemetry 等開放標(biāo)準(zhǔn),整合數(shù)據(jù)源,讓 AI 擁有完整的環(huán)境視圖。沒有這一基礎(chǔ),再高級的 AI 副駕駛也缺乏可靠上下文。
第二,業(yè)務(wù)對齊(Business Alignment)。那些成功從監(jiān)控走向可觀測、再走向自主運(yùn)營的企業(yè),都學(xué)會了把技術(shù)信號與業(yè)務(wù)結(jié)果對應(yīng)起來。領(lǐng)導(dǎo)層不僅想知道微服務(wù)拋出的錯誤數(shù)量,還想知道受影響的客戶、潛在的收入損失,或者如果問題持續(xù)下去的 SLA 暴露情況。業(yè)務(wù)可觀測性讓這種對話成為可能,也為自動化提供了經(jīng)濟(jì)合理性。
第三,AI 治理(AI Governance)。正如 Nigam 所言,AI 模型會隨時間改變特性,因此可觀測性必須延伸到 AI 層,實(shí)時洞察模型行為與不穩(wěn)定性早期跡象。越依賴 AI,企業(yè)越要承擔(dān)新的運(yùn)營責(zé)任,以確保 AI 本身保持可靠、可審計和安全。
最后,為自動化建立護(hù)欄(Guardrails)。Casanova 與 Woodside 一致認(rèn)為,邁向自主運(yùn)營不是一夜躍遷,而是人類審查和機(jī)器自動處理之間的界限逐步擴(kuò)展。成熟的組織先自動化調(diào)查步驟,再對低風(fēng)險場景實(shí)施自愈,待可追溯性與信心建立后,才擴(kuò)展到更復(fù)雜的工作流。
這些要素共同構(gòu)成了下一代數(shù)字運(yùn)營的框架,讓可觀測性反映的是業(yè)務(wù)現(xiàn)實(shí)而非工程噪音,讓自動化不再是風(fēng)險,而是戰(zhàn)略優(yōu)勢。
作者:Pat Brans ?譯者:木青 ?編審:@lex