国逼久久久,伊人久久国产一区av,国产欧美嫩逼一区二区

從“事后諸葛亮”到“預(yù)知未來”：企業(yè)級AI可觀測性（Observability）必須跨越的5級進(jìn)化階梯

作者：CIO.com&睿觀來源：CIOCDO 發(fā)布時間：2025年12月26日點(diǎn)擊數(shù)：

可觀測性（Observability）不再是運(yùn)維工程師的工具箱，而是CIO手中的“水晶球”。

當(dāng)AI開始接管業(yè)務(wù)，傳統(tǒng)的“監(jiān)控”已經(jīng)失效。企業(yè)必須從“被動響應(yīng)”進(jìn)化到“自主運(yùn)營”。這不僅關(guān)乎IT穩(wěn)定性，更關(guān)乎在AI時代企業(yè)的生存能力。

——別再盯著儀表盤發(fā)呆了！可觀測性的終局是“自主運(yùn)營”

當(dāng)你的微服務(wù)崩潰時，你需要知道的不僅僅是“CPU飆升了”，而是“這一秒鐘我們損失了多少錢？”

這正是監(jiān)控（Monitoring）與可觀測性（Observability）的本質(zhì)區(qū)別。

然而，在AI重塑數(shù)字生態(tài)的今天，即使是“可觀測性”也不夠用了。Forrester分析師Carlos Casanova指出，整個行業(yè)正在經(jīng)歷一場深刻的進(jìn)化：從單純的診斷問題，邁向自主修復(fù)（Self-Healing）。

Pacvue、SpotOn和Oracle的技術(shù)領(lǐng)袖們共同勾勒出了一個清晰的5級成熟度模型。你的企業(yè)正處在哪一級？

??讀完本文，你將獲得關(guān)于IT運(yùn)營轉(zhuǎn)型的3大核心戰(zhàn)略洞察。

?? 洞察一：從“技術(shù)信號”到“金錢語言”

（Level 3：Business Observability）

前兩級（Level 1監(jiān)控、Level 2技術(shù)可觀測性）解決了工程師的問題：發(fā)生了什么？為什么發(fā)生？但這對CIO來說還不夠。

到了第3級，可觀測性必須回答商業(yè)問題：

延遲如何影響轉(zhuǎn)化率？
這次宕機(jī)造成了多少收入損失？
哪些高凈值客戶受到了影響？

案例：Pacvue他們的團(tuán)隊(duì)發(fā)現(xiàn)，MTTR（平均修復(fù)時間）與客戶流失率直接相關(guān)。通過自動化可觀測性減少漏洞，直接提升了客戶留存率。?

睿信咨詢顧問解讀：

這標(biāo)志著可觀測性從“成本中心”轉(zhuǎn)向“價值中心”。當(dāng)你能把系統(tǒng)穩(wěn)定性直接換算成美元時，你在董事會上的話語權(quán)將截然不同。

?? 洞察二：AI的雙重角色——是“副駕駛”，也是“被監(jiān)管者”

（Level 4：AI-Assisted Observability）

數(shù)據(jù)太多，人腦不夠用了。這時候，AI副駕駛（Co-pilot）進(jìn)場。它可以像氣象預(yù)報員一樣，跨越數(shù)千個微服務(wù)，識別出人類無法察覺的“風(fēng)暴前夕”。

但這里有一個悖論：我們用AI來觀測系統(tǒng)，誰來觀測AI？AI模型會漂移（Drift）、會產(chǎn)生幻覺（Hallucination）。因此，現(xiàn)代可觀測性管道必須納入全新的指標(biāo)：漂移檢測、數(shù)據(jù)新鮮度、幻覺監(jiān)測。

睿信咨詢顧問解讀：

這是一個雙向系統(tǒng)：AI增強(qiáng)了可觀測性，而可觀測性也讓AI更可信。沒有護(hù)欄的AI是危險的，沒有AI的可觀測性是盲目的。

?? 洞察三：終極形態(tài)——系統(tǒng)自己修好自己

（Level 5：Autonomous Operations）

進(jìn)化的終點(diǎn)，是不再需要人類介入。在Pacvue，低風(fēng)險的故障已經(jīng)實(shí)現(xiàn)了全自動修復(fù)。AI智能體（Agent）負(fù)責(zé)調(diào)查，另一個AI智能體（Agent）負(fù)責(zé)修復(fù)，只有涉及核心數(shù)據(jù)的高風(fēng)險操作才需要人工審批。

這不僅是效率的提升，更是組織韌性的飛躍。 SpotOn通過AI提供上下文解釋，讓初級工程師也能像老專家一樣處理故障，從而降低了對個別核心人員的依賴（“巴士系數(shù)”風(fēng)險：關(guān)鍵系統(tǒng)依賴于一兩個人的知識，如果他們不在場，就會造成脆弱性）。

?? 戰(zhàn)略啟示：給CIO的進(jìn)階指南

要沿著這5級階梯向上攀登，你需要做三件事：

統(tǒng)一數(shù)據(jù)底座（OpenTelemetry）：拋棄碎片化的工具。如果你的日志、指標(biāo)和鏈路追蹤不在同一個平臺上，AI就無法獲得完整的上下文。擁抱OpenTelemetry等開放標(biāo)準(zhǔn)是必經(jīng)之路。
建立“業(yè)務(wù)-技術(shù)”映射：不要只看SLI（服務(wù)水平指標(biāo)），要看SLA（服務(wù)等級協(xié)議）背后的商業(yè)承諾。把每一個技術(shù)警報都掛鉤到一個業(yè)務(wù)影響上。
為自動化設(shè)定“護(hù)欄”：不要試圖一夜之間實(shí)現(xiàn)全自動。先自動化“調(diào)查”，再自動化“低風(fēng)險修復(fù)”。建立信任是一個漸進(jìn)的過程。

總結(jié)

可觀測性的進(jìn)化，本質(zhì)上是一場認(rèn)知的升級。

它不再是關(guān)于修好一臺服務(wù)器，而是關(guān)于如何讓你的數(shù)字業(yè)務(wù)在混亂和不確定中，保持反脆弱性。

當(dāng)你的系統(tǒng)能夠在故障發(fā)生的毫秒級內(nèi)自主感知、決策并修復(fù)時，你就擁有了AI時代最堅固的護(hù)城河。

原文：可觀測性（Observability）成熟度的五個階段

隨著AI重塑數(shù)字生態(tài)系統(tǒng)，可觀測性正在演進(jìn)為一項(xiàng)業(yè)務(wù)關(guān)鍵型能力：它不僅能夠預(yù)測故障、保障收入，還日益具備自主修復(fù)問題的能力。

圖源：Rob Schultz / Shutterstock

當(dāng)CIO（首席信息官）們談?wù)摽捎^測性（Observability）時，他們可能指的是日志儀表盤、實(shí)時因果圖，或是在客戶尚未感知前就揭示業(yè)務(wù)風(fēng)險的 AI 智能體（Agent）。這個詞已被過度使用，以至于連資深分析師聽到它都會皺眉。

Forrester 的 Carlos Casanova 就是其中之一。他表示，整個行業(yè)把這個詞濫用到了極致：從 APM（應(yīng)用性能監(jiān)控）工具、網(wǎng)絡(luò)遙測到完整的平臺智能，統(tǒng)統(tǒng)被塞進(jìn)可觀測性的大筐。然而，在混亂的表象之下，一件更重要的事正在發(fā)生——可觀測性正沿著一條清晰的路徑演進(jìn)：系統(tǒng)不僅能檢測和診斷問題，還將基于業(yè)務(wù)影響自主修復(fù)。

與三位技術(shù)領(lǐng)袖的訪談勾勒出了一個明確的五級成熟度模型。Pacvue 全球 DevOps 總監(jiān) Michael Woodside、SpotOn 工程副總裁 Jeremy White，以及 Oracle 首席云架構(gòu)師 Khushboo Nigam 一致認(rèn)為，不同階段的進(jìn)展不僅僅是工具的變化，可觀測性的進(jìn)步重塑了企業(yè)如何保護(hù)收入、保障客戶體驗(yàn)并治理日益依賴的 AI 系統(tǒng)。

一、階段 1：監(jiān)控——對已發(fā)生故障的被動視角

傳統(tǒng)監(jiān)控圍繞閾值、指標(biāo)和儀表盤構(gòu)建：CPU 飆升、錯誤率或延遲超過警戒線即觸發(fā)警報。監(jiān)控在設(shè)計上是反應(yīng)性的（Reactive），因?yàn)樗趩栴}發(fā)生后告訴你出了什么問題。在單體、本地部署、故障域狹小的年代，這種“事后諸葛亮”已足夠了。

如今，分布式系統(tǒng)產(chǎn)生海量遙測數(shù)據(jù)，一個微服務(wù)的故障可能波及數(shù)十個依賴項(xiàng)?；陂撝档木瘓蠹冉忉尣涣藶槭裁矗才袛嗖涣诉@是小麻煩還是百萬美元的大災(zāi)難。CIO 們需要更前瞻、更貼合業(yè)務(wù)語境的能力。

二、階段 2：技術(shù)可觀測性——穿透整個技術(shù)棧

從監(jiān)控到可觀測性的轉(zhuǎn)變引入了對系統(tǒng)行為更深、更立體的理解?，F(xiàn)代可觀測性平臺匯聚日志、指標(biāo)、鏈路追蹤（Traces）與配置上下文，繪制服務(wù)依賴圖，讓工程師得以復(fù)盤事故全過程。

但數(shù)據(jù)的激增帶來了新問題。SpotOn 為餐廳和酒店業(yè)務(wù)提供服務(wù)，White 及其團(tuán)隊(duì)在高度分散的環(huán)境中運(yùn)行核心服務(wù)和基礎(chǔ)設(shè)施，以確保支付、訂購和店內(nèi)系統(tǒng)的正常運(yùn)行。他描述了公司最初使用可觀測性平臺 Grafana Cloud 的經(jīng)歷如何導(dǎo)致信號與噪聲的過載：“我們從數(shù)據(jù)不足跳到數(shù)據(jù)過載，工程師拿到了他們要求的細(xì)粒度遙測數(shù)據(jù)，卻無從辨別哪些是真正重要的。技術(shù)可觀測性解決了‘發(fā)生了什么’的問題，卻仍未回答‘這意味著什么’。”

技術(shù)可觀測性加快了診斷速度，但如果沒有業(yè)務(wù)視角，它仍會把人淹沒在噪音里。于是，這自然演進(jìn)到下一階段：將遙測數(shù)據(jù)與收入、客戶體驗(yàn)、風(fēng)險直接聯(lián)系起來。

三、階段 3：業(yè)務(wù)可觀測性——當(dāng)技術(shù)信號與金錢相遇

業(yè)務(wù)可觀測性讓可觀測性從工程話題升級為“CIO級戰(zhàn)略議題”。在這一階段，企業(yè)不再滿足于遙測技術(shù)，而是提出更具后果性的問題：哪些交易正面臨風(fēng)險？延遲如何影響轉(zhuǎn)化率？這次降級帶來多少收入損失？該優(yōu)先向哪些客戶主動發(fā)出關(guān)懷？在業(yè)務(wù)高峰時段，如何按經(jīng)濟(jì)影響給事故排優(yōu)先級？

CIO 們不僅想知道發(fā)生了什么，更想知道代價有多大。Pacvue 幫助品牌管理和自動化市場中的活動，清楚地展示了這一轉(zhuǎn)變。Woodside 的團(tuán)隊(duì)分析了運(yùn)營指標(biāo)與業(yè)務(wù)結(jié)果之間的相關(guān)性，特別是客戶流失率。他說：“當(dāng)?MTTR（平均修復(fù)時間）下降，流失率就跟著下降?！蓖瑯?，減少生產(chǎn)缺陷能提升留存率。自動化可觀測性為?CI/CD流水線提供數(shù)據(jù)，減少漏洞數(shù)量，穩(wěn)定功能，并提高客戶保留率。對 Woodside 而言，這是實(shí)打?qū)嵉睦麧櫽绊?，而非紙上談兵?/span>

Oracle 的 Nigam 直接與企業(yè)合作設(shè)計云和可觀測架構(gòu)，她揭示了這種聯(lián)系背后的結(jié)構(gòu)：延遲、錯誤率等SLI（服務(wù)水平指標(biāo)）匯聚成?SLO（服務(wù)水平目標(biāo)），再支撐對外承諾的?SLA（服務(wù)等級協(xié)議）。她說：“領(lǐng)導(dǎo)和客戶只看 SLA，但 SLA 源自最基礎(chǔ)的遙測?！币坏┻b測數(shù)據(jù)缺位或采集不一致，企業(yè)就無從量化業(yè)務(wù)風(fēng)險。

SpotOn 的 White 補(bǔ)充了客戶體驗(yàn)維度。他的團(tuán)隊(duì)會主動識別餐廳網(wǎng)絡(luò)故障，通常是在餐廳自己意識到之前。他說：“服務(wù)商先打電話告訴你‘我們發(fā)現(xiàn)問題了’，這會完全改變整個體驗(yàn)?！奔词沟讓庸收鲜窍嗤?，客戶也感受到被關(guān)懷，而非被拖累。

業(yè)務(wù)可觀測性將可觀測性從技術(shù)安全網(wǎng)轉(zhuǎn)變?yōu)闃I(yè)務(wù)韌性系統(tǒng)，但要規(guī)?；\(yùn)作，它需要新搭檔：AI。

四、階段 4：AI 輔助可觀測性——上下文、關(guān)聯(lián)與副駕駛

AI 的到來并非替代可觀測性，而是將其推向新高度。隨著遙測數(shù)據(jù)量的激增，人類的解讀成為瓶頸。團(tuán)隊(duì)缺的不是數(shù)據(jù)，而是時間、上下文與認(rèn)知帶寬。AI 副駕駛（Co-pilot）正在開始填補(bǔ)這一鴻溝。

Casanova 把 AI 比作氣象預(yù)報員。他說，本地工程師或許了解巴黎或倫敦的天氣，卻沒人能俯瞰整個大西洋上正在形成的巨型氣象系統(tǒng)。AI 能夠跨域拼接信號，識別單點(diǎn)團(tuán)隊(duì)無法監(jiān)測的模式，并在這些模式顯現(xiàn)前就做出預(yù)測。

Nigam 指出，AI 副駕駛擅長在數(shù)十萬條日志中抽絲剝繭，總結(jié)因果鏈，并提供關(guān)于哪些環(huán)節(jié)出錯的假設(shè)，這縮短了?MTTD（平均檢測時間）和 MTTU（平均理解時間）。

Woodside 注意到，AI 的可解釋性——他稱之為“面包屑”——已成為贏得信任的關(guān)鍵。當(dāng) AI 生成的診斷能清晰展示推導(dǎo)過程時，工程師接受得更快、猶豫得更少。結(jié)果之一是他的 DevOps 團(tuán)隊(duì)花費(fèi)更少時間在監(jiān)控日志上，更多時間投入成本優(yōu)化與架構(gòu)升級。

然而，可觀測性在此又完成一次進(jìn)化躍遷：AI 不僅增強(qiáng)可觀測性，自身也成為必須被觀測的系統(tǒng)，因?yàn)槟Ｐ蜁?、性能會退化、答案會波動，甚至偶爾會產(chǎn)生幻覺。因此，現(xiàn)代可觀測性管道必須納入全新遙測：漂移指標(biāo)、數(shù)據(jù)新鮮度檢查、可變性指標(biāo)、幻覺監(jiān)測以及保障可信行動的護(hù)欄。依賴 AI 的企業(yè)，必須確保 AI 本身是可靠的、可審計的和穩(wěn)定的。

在這一階段，可觀測性變成雙向系統(tǒng)：AI 讓可觀測性更強(qiáng)，可觀測性也讓 AI 更可信。

五、階段 5：自主運(yùn)營——從洞察到行動

進(jìn)化的終點(diǎn)不僅是檢測或診斷事故，而是自主解決事故，這已經(jīng)在所采訪企業(yè)中的一些領(lǐng)域發(fā)生。

在 Pacvue，Woodside 描述了一條日益由 AI 智能體（Agent）驅(qū)動的生產(chǎn)工作流：一個智能體（Agent）負(fù)責(zé)調(diào)查，另一個負(fù)責(zé)潛在修復(fù)，低風(fēng)險場景可全自動執(zhí)行；涉及持久化數(shù)據(jù)存儲等高風(fēng)險操作，則保留人工審批回路。這種平衡讓團(tuán)隊(duì)在擴(kuò)大自動化規(guī)模的同時仍保有安全閘口。

這里的核心創(chuàng)新是“智能體（Agent）到智能體（Agent）”協(xié)議的出現(xiàn)，它讓 AI 智能體（Agent）之間可以像微服務(wù)一樣傳遞完整上下文。一旦上下文可被機(jī)器讀取，許多任務(wù)的主要操作者就不再是人，而是機(jī)器。

在 SpotOn，White 看到由于升級鏈的崩潰所帶來的影響：過去新工程師必須依賴少數(shù)老專家才能摸清系統(tǒng)的隱性依賴；如今 AI 提供上下文解釋，初級工程師也能自信、高效地參與應(yīng)急通話。這還降低了“巴士系數(shù)”風(fēng)險，即關(guān)鍵系統(tǒng)依賴于一兩個人的知識，如果他們不在場，就會造成脆弱性。

自主運(yùn)營提升的是人類，而非取代人類。企業(yè)通常先自動化調(diào)查環(huán)節(jié)，再對低風(fēng)險場景進(jìn)行補(bǔ)救。隨著信任、透明度與治理機(jī)制的成熟，自動化會穩(wěn)步向更高價值的工作流擴(kuò)張。

六、如何沿著五級成熟度模型進(jìn)階

組織不能僅僅通過增加更多儀表板或啟用選定的機(jī)器學(xué)習(xí)功能來實(shí)現(xiàn)自主運(yùn)營。自主性需要在兩個維度上實(shí)現(xiàn)可觀測：業(yè)務(wù)可觀測性與 AI 可觀測性，而這兩者都要求達(dá)到少數(shù)企業(yè)尚未實(shí)現(xiàn)的紀(jì)律水平。

第一，連貫性（Consistency）。公司必須拋棄碎片化工具，構(gòu)建能一致采集日志、指標(biāo)、鏈路追蹤與模型信號的統(tǒng)一遙測管線。對許多人來說，這意味著擁抱 OpenTelemetry 等開放標(biāo)準(zhǔn)，整合數(shù)據(jù)源，讓 AI 擁有完整的環(huán)境視圖。沒有這一基礎(chǔ)，再高級的 AI 副駕駛也缺乏可靠上下文。

第二，業(yè)務(wù)對齊（Business Alignment）。那些成功從監(jiān)控走向可觀測、再走向自主運(yùn)營的企業(yè)，都學(xué)會了把技術(shù)信號與業(yè)務(wù)結(jié)果對應(yīng)起來。領(lǐng)導(dǎo)層不僅想知道微服務(wù)拋出的錯誤數(shù)量，還想知道受影響的客戶、潛在的收入損失，或者如果問題持續(xù)下去的 SLA 暴露情況。業(yè)務(wù)可觀測性讓這種對話成為可能，也為自動化提供了經(jīng)濟(jì)合理性。

第三，AI 治理（AI Governance）。正如 Nigam 所言，AI 模型會隨時間改變特性，因此可觀測性必須延伸到 AI 層，實(shí)時洞察模型行為與不穩(wěn)定性早期跡象。越依賴 AI，企業(yè)越要承擔(dān)新的運(yùn)營責(zé)任，以確保 AI 本身保持可靠、可審計和安全。

最后，為自動化建立護(hù)欄（Guardrails）。Casanova 與 Woodside 一致認(rèn)為，邁向自主運(yùn)營不是一夜躍遷，而是人類審查和機(jī)器自動處理之間的界限逐步擴(kuò)展。成熟的組織先自動化調(diào)查步驟，再對低風(fēng)險場景實(shí)施自愈，待可追溯性與信心建立后，才擴(kuò)展到更復(fù)雜的工作流。

這些要素共同構(gòu)成了下一代數(shù)字運(yùn)營的框架，讓可觀測性反映的是業(yè)務(wù)現(xiàn)實(shí)而非工程噪音，讓自動化不再是風(fēng)險，而是戰(zhàn)略優(yōu)勢。

作者：Pat Brans ?譯者：木青 ?編審：@lex