av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线

你好,歡迎您來到福建信息主管(CIO)網(wǎng)! 設(shè)為首頁|加入收藏|會(huì)員中心
您現(xiàn)在的位置:>> 新聞資訊 >>
從“事后諸葛亮”到“預(yù)知未來”:企業(yè)級(jí)AI可觀測(cè)性(Observability)必須跨越的5級(jí)進(jìn)化階梯
作者:CIO.com&睿觀 來源:CIOCDO 發(fā)布時(shí)間:2025年12月26日 點(diǎn)擊數(shù):

可觀測(cè)性(Observability)不再是運(yùn)維工程師的工具箱,而是CIO手中的“水晶球”。

當(dāng)AI開始接管業(yè)務(wù),傳統(tǒng)的“監(jiān)控”已經(jīng)失效。企業(yè)必須從“被動(dòng)響應(yīng)”進(jìn)化到“自主運(yùn)營(yíng)”。這不僅關(guān)乎IT穩(wěn)定性,更關(guān)乎在AI時(shí)代企業(yè)的生存能力。



——?jiǎng)e再盯著儀表盤發(fā)呆了!可觀測(cè)性的終局是“自主運(yùn)營(yíng)”

當(dāng)你的微服務(wù)崩潰時(shí),你需要知道的不僅僅是“CPU飆升了”,而是“這一秒鐘我們損失了多少錢?”

這正是監(jiān)控(Monitoring)可觀測(cè)性(Observability)的本質(zhì)區(qū)別。

然而,在AI重塑數(shù)字生態(tài)的今天,即使是“可觀測(cè)性”也不夠用了。Forrester分析師Carlos Casanova指出,整個(gè)行業(yè)正在經(jīng)歷一場(chǎng)深刻的進(jìn)化:從單純的診斷問題,邁向自主修復(fù)(Self-Healing)。

Pacvue、SpotOn和Oracle的技術(shù)領(lǐng)袖們共同勾勒出了一個(gè)清晰的5級(jí)成熟度模型。你的企業(yè)正處在哪一級(jí)?

??讀完本文,你將獲得關(guān)于IT運(yùn)營(yíng)轉(zhuǎn)型的3大核心戰(zhàn)略洞察。

?? 洞察一:從“技術(shù)信號(hào)”到“金錢語言”

(Level 3:Business Observability)

前兩級(jí)(Level 1監(jiān)控、Level 2技術(shù)可觀測(cè)性)解決了工程師的問題:發(fā)生了什么?為什么發(fā)生? 但這對(duì)CIO來說還不夠。

到了第3級(jí),可觀測(cè)性必須回答商業(yè)問題:

  • 延遲如何影響轉(zhuǎn)化率?

  • 這次宕機(jī)造成了多少收入損失?

  • 哪些高凈值客戶受到了影響?

案例:Pacvue他們的團(tuán)隊(duì)發(fā)現(xiàn),MTTR(平均修復(fù)時(shí)間)與客戶流失率直接相關(guān)。通過自動(dòng)化可觀測(cè)性減少漏洞,直接提升了客戶留存率。?

睿信咨詢顧問解讀:

這標(biāo)志著可觀測(cè)性從“成本中心”轉(zhuǎn)向“價(jià)值中心”。當(dāng)你能把系統(tǒng)穩(wěn)定性直接換算成美元時(shí),你在董事會(huì)上的話語權(quán)將截然不同。

?? 洞察二:AI的雙重角色——是“副駕駛”,也是“被監(jiān)管者”

(Level 4:AI-Assisted Observability)

數(shù)據(jù)太多,人腦不夠用了。這時(shí)候,AI副駕駛(Co-pilot)進(jìn)場(chǎng)。 它可以像氣象預(yù)報(bào)員一樣,跨越數(shù)千個(gè)微服務(wù),識(shí)別出人類無法察覺的“風(fēng)暴前夕”。

但這里有一個(gè)悖論:我們用AI來觀測(cè)系統(tǒng),誰來觀測(cè)AI?AI模型會(huì)漂移(Drift)、會(huì)產(chǎn)生幻覺(Hallucination)。因此,現(xiàn)代可觀測(cè)性管道必須納入全新的指標(biāo):漂移檢測(cè)、數(shù)據(jù)新鮮度、幻覺監(jiān)測(cè)。

睿信咨詢顧問解讀:

這是一個(gè)雙向系統(tǒng):AI增強(qiáng)了可觀測(cè)性,而可觀測(cè)性也讓AI更可信。沒有護(hù)欄的AI是危險(xiǎn)的,沒有AI的可觀測(cè)性是盲目的。

?? 洞察三:終極形態(tài)——系統(tǒng)自己修好自己

(Level 5:Autonomous Operations)

進(jìn)化的終點(diǎn),是不再需要人類介入。 在Pacvue,低風(fēng)險(xiǎn)的故障已經(jīng)實(shí)現(xiàn)了全自動(dòng)修復(fù)。AI智能體(Agent)負(fù)責(zé)調(diào)查,另一個(gè)AI智能體(Agent)負(fù)責(zé)修復(fù),只有涉及核心數(shù)據(jù)的高風(fēng)險(xiǎn)操作才需要人工審批。

這不僅是效率的提升,更是組織韌性的飛躍。 SpotOn通過AI提供上下文解釋,讓初級(jí)工程師也能像老專家一樣處理故障,從而降低了對(duì)個(gè)別核心人員的依賴(“巴士系數(shù)”風(fēng)險(xiǎn):關(guān)鍵系統(tǒng)依賴于一兩個(gè)人的知識(shí),如果他們不在場(chǎng),就會(huì)造成脆弱性)。

?? 戰(zhàn)略啟示:給CIO的進(jìn)階指南

要沿著這5級(jí)階梯向上攀登,你需要做三件事:

  1. 統(tǒng)一數(shù)據(jù)底座(OpenTelemetry):拋棄碎片化的工具。如果你的日志、指標(biāo)和鏈路追蹤不在同一個(gè)平臺(tái)上,AI就無法獲得完整的上下文。擁抱OpenTelemetry等開放標(biāo)準(zhǔn)是必經(jīng)之路。

  2. 建立“業(yè)務(wù)-技術(shù)”映射:不要只看SLI(服務(wù)水平指標(biāo)),要看SLA(服務(wù)等級(jí)協(xié)議)背后的商業(yè)承諾。把每一個(gè)技術(shù)警報(bào)都掛鉤到一個(gè)業(yè)務(wù)影響上。

  3. 為自動(dòng)化設(shè)定“護(hù)欄”:不要試圖一夜之間實(shí)現(xiàn)全自動(dòng)。先自動(dòng)化“調(diào)查”,再自動(dòng)化“低風(fēng)險(xiǎn)修復(fù)”。建立信任是一個(gè)漸進(jìn)的過程。

總結(jié)

可觀測(cè)性的進(jìn)化,本質(zhì)上是一場(chǎng)認(rèn)知的升級(jí)。

它不再是關(guān)于修好一臺(tái)服務(wù)器,而是關(guān)于如何讓你的數(shù)字業(yè)務(wù)在混亂和不確定中,保持脆弱性。

當(dāng)你的系統(tǒng)能夠在故障發(fā)生的毫秒級(jí)內(nèi)自主感知、決策并修復(fù)時(shí),你就擁有了AI時(shí)代最堅(jiān)固的護(hù)城河。

原文:可觀測(cè)性(Observability)成熟度的五個(gè)階段


隨著AI重塑數(shù)字生態(tài)系統(tǒng),可觀測(cè)性正在演進(jìn)為一項(xiàng)業(yè)務(wù)關(guān)鍵型能力:它不僅能夠預(yù)測(cè)故障、保障收入,還日益具備自主修復(fù)問題的能力。



圖源:Rob Schultz / Shutterstock

當(dāng)CIO首席信息官)們談?wù)摽捎^測(cè)性(Observability)時(shí),他們可能指的是日志儀表盤、實(shí)時(shí)因果圖,或是在客戶尚未感知前就揭示業(yè)務(wù)風(fēng)險(xiǎn)的 AI 智能體(Agent)。這個(gè)詞已被過度使用,以至于連資深分析師聽到它都會(huì)皺眉。

Forrester 的 Carlos Casanova 就是其中之一。他表示,整個(gè)行業(yè)把這個(gè)詞濫用到了極致:從 APM(應(yīng)用性能監(jiān)控)工具、網(wǎng)絡(luò)遙測(cè)到完整的平臺(tái)智能,統(tǒng)統(tǒng)被塞進(jìn)可觀測(cè)性的大筐。然而,在混亂的表象之下,一件更重要的事正在發(fā)生——可觀測(cè)性正沿著一條清晰的路徑演進(jìn):系統(tǒng)不僅能檢測(cè)和診斷問題,還將基于業(yè)務(wù)影響自主修復(fù)。

與三位技術(shù)領(lǐng)袖的訪談勾勒出了一個(gè)明確的五級(jí)成熟度模型。Pacvue 全球 DevOps 總監(jiān) Michael Woodside、SpotOn 工程副總裁 Jeremy White,以及 Oracle 首席云架構(gòu)師 Khushboo Nigam 一致認(rèn)為,不同階段的進(jìn)展不僅僅是工具的變化,可觀測(cè)性的進(jìn)步重塑了企業(yè)如何保護(hù)收入、保障客戶體驗(yàn)并治理日益依賴的 AI 系統(tǒng)。

一、階段 1:監(jiān)控——對(duì)已發(fā)生故障的被動(dòng)視角


傳統(tǒng)監(jiān)控圍繞閾值、指標(biāo)和儀表盤構(gòu)建:CPU 飆升、錯(cuò)誤率或延遲超過警戒線即觸發(fā)警報(bào)。監(jiān)控在設(shè)計(jì)上是反應(yīng)性的(Reactive),因?yàn)樗趩栴}發(fā)生后告訴你出了什么問題。在單體、本地部署、故障域狹小的年代,這種“事后諸葛亮”已足夠了。

如今,分布式系統(tǒng)產(chǎn)生海量遙測(cè)數(shù)據(jù),一個(gè)微服務(wù)的故障可能波及數(shù)十個(gè)依賴項(xiàng)。基于閾值的警報(bào)既解釋不了為什么,也判斷不了這是小麻煩還是百萬美元的大災(zāi)難。CIO 們需要更前瞻、更貼合業(yè)務(wù)語境的能力。

二、階段 2:技術(shù)可觀測(cè)性——穿透整個(gè)技術(shù)棧


從監(jiān)控到可觀測(cè)性的轉(zhuǎn)變引入了對(duì)系統(tǒng)行為更深、更立體的理解?,F(xiàn)代可觀測(cè)性平臺(tái)匯聚日志、指標(biāo)、鏈路追蹤(Traces)與配置上下文,繪制服務(wù)依賴圖,讓工程師得以復(fù)盤事故全過程。

但數(shù)據(jù)的激增帶來了新問題。SpotOn 為餐廳和酒店業(yè)務(wù)提供服務(wù),White 及其團(tuán)隊(duì)在高度分散的環(huán)境中運(yùn)行核心服務(wù)和基礎(chǔ)設(shè)施,以確保支付、訂購和店內(nèi)系統(tǒng)的正常運(yùn)行。他描述了公司最初使用可觀測(cè)性平臺(tái) Grafana Cloud 的經(jīng)歷如何導(dǎo)致信號(hào)與噪聲的過載:“我們從數(shù)據(jù)不足跳到數(shù)據(jù)過載,工程師拿到了他們要求的細(xì)粒度遙測(cè)數(shù)據(jù),卻無從辨別哪些是真正重要的。技術(shù)可觀測(cè)性解決了‘發(fā)生了什么’的問題,卻仍未回答‘這意味著什么’。

技術(shù)可觀測(cè)性加快了診斷速度,但如果沒有業(yè)務(wù)視角,它仍會(huì)把人淹沒在噪音里。于是,這自然演進(jìn)到下一階段:將遙測(cè)數(shù)據(jù)與收入、客戶體驗(yàn)、風(fēng)險(xiǎn)直接聯(lián)系起來。

三、階段 3:業(yè)務(wù)可觀測(cè)性——當(dāng)技術(shù)信號(hào)與金錢相遇


業(yè)務(wù)可觀測(cè)性讓可觀測(cè)性從工程話題升級(jí)為“CIO級(jí)戰(zhàn)略議題”。在這一階段,企業(yè)不再滿足于遙測(cè)技術(shù),而是提出更具后果性的問題:哪些交易正面臨風(fēng)險(xiǎn)?延遲如何影響轉(zhuǎn)化率?這次降級(jí)帶來多少收入損失?該優(yōu)先向哪些客戶主動(dòng)發(fā)出關(guān)懷?在業(yè)務(wù)高峰時(shí)段,如何按經(jīng)濟(jì)影響給事故排優(yōu)先級(jí)?

CIO 們不僅想知道發(fā)生了什么,更想知道代價(jià)有多大。Pacvue 幫助品牌管理和自動(dòng)化市場(chǎng)中的活動(dòng),清楚地展示了這一轉(zhuǎn)變。Woodside 的團(tuán)隊(duì)分析了運(yùn)營(yíng)指標(biāo)與業(yè)務(wù)結(jié)果之間的相關(guān)性,特別是客戶流失率。他說:“當(dāng)?MTTR平均修復(fù)時(shí)間)下降,流失率就跟著下降。”同樣,減少生產(chǎn)缺陷能提升留存率。自動(dòng)化可觀測(cè)性為?CI/CD流水線提供數(shù)據(jù),減少漏洞數(shù)量,穩(wěn)定功能,并提高客戶保留率。對(duì) Woodside 而言,這是實(shí)打?qū)嵉睦麧?rùn)影響,而非紙上談兵。

Oracle 的 Nigam 直接與企業(yè)合作設(shè)計(jì)云和可觀測(cè)架構(gòu),她揭示了這種聯(lián)系背后的結(jié)構(gòu):延遲、錯(cuò)誤率等SLI服務(wù)水平指標(biāo)匯聚成?SLO(服務(wù)水平目標(biāo)),再支撐對(duì)外承諾的?SLA(服務(wù)等級(jí)協(xié)議)。她說:“領(lǐng)導(dǎo)和客戶只看 SLA,但 SLA 源自最基礎(chǔ)的遙測(cè)?!币坏┻b測(cè)數(shù)據(jù)缺位或采集不一致,企業(yè)就無從量化業(yè)務(wù)風(fēng)險(xiǎn)。

SpotOn 的 White 補(bǔ)充了客戶體驗(yàn)維度。他的團(tuán)隊(duì)會(huì)主動(dòng)識(shí)別餐廳網(wǎng)絡(luò)故障,通常是在餐廳自己意識(shí)到之前。他說:“服務(wù)商先打電話告訴你‘我們發(fā)現(xiàn)問題了’,這會(huì)完全改變整個(gè)體驗(yàn)?!奔词沟讓庸收鲜窍嗤模蛻粢哺惺艿奖魂P(guān)懷,而非被拖累。

業(yè)務(wù)可觀測(cè)性將可觀測(cè)性從技術(shù)安全網(wǎng)轉(zhuǎn)變?yōu)闃I(yè)務(wù)韌性系統(tǒng),但要規(guī)模化運(yùn)作,它需要新搭檔:AI。

四、階段 4:AI 輔助可觀測(cè)性——上下文、關(guān)聯(lián)與副駕駛


AI 的到來并非替代可觀測(cè)性,而是將其推向新高度。隨著遙測(cè)數(shù)據(jù)量的激增,人類的解讀成為瓶頸。團(tuán)隊(duì)缺的不是數(shù)據(jù),而是時(shí)間、上下文與認(rèn)知帶寬。AI 副駕駛(Co-pilot)正在開始填補(bǔ)這一鴻溝。

Casanova 把 AI 比作氣象預(yù)報(bào)員。他說,本地工程師或許了解巴黎或倫敦的天氣,卻沒人能俯瞰整個(gè)大西洋上正在形成的巨型氣象系統(tǒng)。AI 能夠跨域拼接信號(hào),識(shí)別單點(diǎn)團(tuán)隊(duì)無法監(jiān)測(cè)的模式,并在這些模式顯現(xiàn)前就做出預(yù)測(cè)。

Nigam 指出,AI 副駕駛擅長(zhǎng)在數(shù)十萬條日志中抽絲剝繭,總結(jié)因果鏈,并提供關(guān)于哪些環(huán)節(jié)出錯(cuò)的假設(shè),這縮短了?MTTD平均檢測(cè)時(shí)間)和 MTTU(平均理解時(shí)間)。

Woodside 注意到,AI 的可解釋性——他稱之為“面包屑”——已成為贏得信任的關(guān)鍵。當(dāng) AI 生成的診斷能清晰展示推導(dǎo)過程時(shí),工程師接受得更快、猶豫得更少。結(jié)果之一是他的 DevOps 團(tuán)隊(duì)花費(fèi)更少時(shí)間在監(jiān)控日志上,更多時(shí)間投入成本優(yōu)化與架構(gòu)升級(jí)。

然而,可觀測(cè)性在此又完成一次進(jìn)化躍遷:AI 不僅增強(qiáng)可觀測(cè)性,自身也成為必須被觀測(cè)的系統(tǒng),因?yàn)槟P蜁?huì)漂移、性能會(huì)退化、答案會(huì)波動(dòng),甚至偶爾會(huì)產(chǎn)生幻覺。因此,現(xiàn)代可觀測(cè)性管道必須納入全新遙測(cè):漂移指標(biāo)、數(shù)據(jù)新鮮度檢查、可變性指標(biāo)、幻覺監(jiān)測(cè)以及保障可信行動(dòng)的護(hù)欄。依賴 AI 的企業(yè),必須確保 AI 本身是可靠的、可審計(jì)的和穩(wěn)定的。

在這一階段,可觀測(cè)性變成雙向系統(tǒng):AI 讓可觀測(cè)性更強(qiáng),可觀測(cè)性也讓 AI 更可信。

五、階段 5:自主運(yùn)營(yíng)——從洞察到行動(dòng)


進(jìn)化的終點(diǎn)不僅是檢測(cè)或診斷事故,而是自主解決事故,這已經(jīng)在所采訪企業(yè)中的一些領(lǐng)域發(fā)生。

在 Pacvue,Woodside 描述了一條日益由 AI 智能體(Agent)驅(qū)動(dòng)的生產(chǎn)工作流:一個(gè)智能體(Agent)負(fù)責(zé)調(diào)查,另一個(gè)負(fù)責(zé)潛在修復(fù),低風(fēng)險(xiǎn)場(chǎng)景可全自動(dòng)執(zhí)行;涉及持久化數(shù)據(jù)存儲(chǔ)等高風(fēng)險(xiǎn)操作,則保留人工審批回路。這種平衡讓團(tuán)隊(duì)在擴(kuò)大自動(dòng)化規(guī)模的同時(shí)仍保有安全閘口。

這里的核心創(chuàng)新是“智能體(Agent)到智能體(Agent)”協(xié)議的出現(xiàn),它讓 AI 智能體(Agent)之間可以像微服務(wù)一樣傳遞完整上下文。一旦上下文可被機(jī)器讀取,許多任務(wù)的主要操作者就不再是人,而是機(jī)器。

在 SpotOn,White 看到由于升級(jí)鏈的崩潰所帶來的影響:過去新工程師必須依賴少數(shù)老專家才能摸清系統(tǒng)的隱性依賴;如今 AI 提供上下文解釋,初級(jí)工程師也能自信、高效地參與應(yīng)急通話。這還降低了“巴士系數(shù)”風(fēng)險(xiǎn),即關(guān)鍵系統(tǒng)依賴于一兩個(gè)人的知識(shí),如果他們不在場(chǎng),就會(huì)造成脆弱性

自主運(yùn)營(yíng)提升的是人類,而非取代人類。企業(yè)通常先自動(dòng)化調(diào)查環(huán)節(jié),再對(duì)低風(fēng)險(xiǎn)場(chǎng)景進(jìn)行補(bǔ)救。隨著信任、透明度與治理機(jī)制的成熟,自動(dòng)化會(huì)穩(wěn)步向更高價(jià)值的工作流擴(kuò)張。

六、如何沿著五級(jí)成熟度模型進(jìn)階


組織不能僅僅通過增加更多儀表板或啟用選定的機(jī)器學(xué)習(xí)功能來實(shí)現(xiàn)自主運(yùn)營(yíng)。自主性需要在兩個(gè)維度上實(shí)現(xiàn)可觀測(cè):業(yè)務(wù)可觀測(cè)性與 AI 可觀測(cè)性,而這兩者都要求達(dá)到少數(shù)企業(yè)尚未實(shí)現(xiàn)的紀(jì)律水平。

第一,連貫性(Consistency)。公司必須拋棄碎片化工具,構(gòu)建能一致采集日志、指標(biāo)、鏈路追蹤與模型信號(hào)的統(tǒng)一遙測(cè)管線。對(duì)許多人來說,這意味著擁抱 OpenTelemetry 等開放標(biāo)準(zhǔn),整合數(shù)據(jù)源,讓 AI 擁有完整的環(huán)境視圖。沒有這一基礎(chǔ),再高級(jí)的 AI 副駕駛也缺乏可靠上下文。

第二,業(yè)務(wù)對(duì)齊(Business Alignment)。那些成功從監(jiān)控走向可觀測(cè)、再走向自主運(yùn)營(yíng)的企業(yè),都學(xué)會(huì)了把技術(shù)信號(hào)與業(yè)務(wù)結(jié)果對(duì)應(yīng)起來。領(lǐng)導(dǎo)層不僅想知道微服務(wù)拋出的錯(cuò)誤數(shù)量,還想知道受影響的客戶、潛在的收入損失,或者如果問題持續(xù)下去的 SLA 暴露情況。業(yè)務(wù)可觀測(cè)性讓這種對(duì)話成為可能,也為自動(dòng)化提供了經(jīng)濟(jì)合理性。

第三,AI 治理(AI Governance)。正如 Nigam 所言,AI 模型會(huì)隨時(shí)間改變特性,因此可觀測(cè)性必須延伸到 AI 層,實(shí)時(shí)洞察模型行為與不穩(wěn)定性早期跡象。越依賴 AI,企業(yè)越要承擔(dān)新的運(yùn)營(yíng)責(zé)任,以確保 AI 本身保持可靠、可審計(jì)和安全。

最后,為自動(dòng)化建立護(hù)欄(Guardrails)。Casanova 與 Woodside 一致認(rèn)為,邁向自主運(yùn)營(yíng)不是一夜躍遷,而是人類審查和機(jī)器自動(dòng)處理之間的界限逐步擴(kuò)展。成熟的組織先自動(dòng)化調(diào)查步驟,再對(duì)低風(fēng)險(xiǎn)場(chǎng)景實(shí)施自愈,待可追溯性與信心建立后,才擴(kuò)展到更復(fù)雜的工作流。

這些要素共同構(gòu)成了下一代數(shù)字運(yùn)營(yíng)的框架,讓可觀測(cè)性反映的是業(yè)務(wù)現(xiàn)實(shí)而非工程噪音,讓自動(dòng)化不再是風(fēng)險(xiǎn),而是戰(zhàn)略優(yōu)勢(shì)。

作者:Pat Brans ?譯者:木青 ?編審:@lex

东源县| 雅安市| 辛集市| 吴忠市| 吴旗县| 嘉义市| 德化县| 营口市| 宜宾市| 尤溪县| 丹江口市| 丹东市| 芦溪县| 汝城县| 连山| 隆回县| 竹溪县| 石首市| 读书| 教育| 望城县| 孟津县| 临海市| 错那县| 通许县| 射洪县| 花莲县| 安龙县| 宁蒗| 晋中市| 青阳县| 如东县| 白山市| 西昌市| 邵阳县| 阿尔山市| 蕲春县| 临夏县| 天等县| 叶城县| 沈阳市|