核心摘要:去年星巴克和麥當勞的宕機事件只是冰山一角。隨著企業(yè) IT 生態(tài)系統(tǒng)因微服務(wù)、SaaS 和 API 而日益糾纏,加上即將到來的 Agentic AI(AI 自主智能體)浪潮,單一組件的故障可能瞬間引爆系統(tǒng)性災(zāi)難。CIO 必須重新定義“韌性”,從追求完美運行轉(zhuǎn)向確?!白钚】尚袠I(yè)務(wù)(MVB)”。

還記得去年 11 月星巴克和麥當勞的那次大規(guī)模服務(wù)中斷嗎?或者 2024 年那次讓航班停飛的網(wǎng)絡(luò)安全更新?
這些災(zāi)難揭示了一個殘酷的現(xiàn)實:我們的 IT 系統(tǒng)已經(jīng)從“復(fù)雜”變成了“脆弱”。
如果說疫情期間為了維持業(yè)務(wù)運轉(zhuǎn)而引入的數(shù)十種新應(yīng)用是復(fù)雜的“第一樂章”,那么即將來臨的 Agentic AI(自主智能體)將奏響更危險的“第二樂章”。
德勤和 IDC 的專家指出,企業(yè)實際上已經(jīng)將復(fù)雜性制度化了。
過度連接:從本地到云端,從微服務(wù)到 SaaS,API 調(diào)用和端點數(shù)量呈指數(shù)級增長。
連鎖反應(yīng):以前一個組件壞了只是局部問題,現(xiàn)在通過互聯(lián)系統(tǒng),任何一個微小的故障都能被無限放大,像病毒一樣瞬間癱瘓整個業(yè)務(wù)。
在這個即使是亞馬遜云服務(wù)也可能宕機的時代,追求 100% 的在線率是不現(xiàn)實的。CIO 的首要任務(wù)是定義并保護最小可行業(yè)務(wù)(Minimum Viable Business, MVB)。
什么是你的 MVB?對于航空公司,是航班預(yù)訂系統(tǒng);對于醫(yī)院,是電子病歷(EHR)。
策略:分割關(guān)鍵平臺。像前 MultiCare CIO Bradd Busick 那樣,將核心系統(tǒng)(如 EHR)與一般辦公 IT 系統(tǒng)物理或邏輯隔離,建立防波堤。

Forrester 分析師建議構(gòu)建多層次的防御體系:
主動防御(Proactive):也是最重要的一環(huán)。定期進行“火災(zāi)演習(xí)”,壓力測試關(guān)鍵系統(tǒng)和員工反應(yīng)。在合同層面就要求供應(yīng)商提供韌性保障。
主動監(jiān)測(Active):從監(jiān)控(Monitoring)升級為可觀測性(Observability)。不要只盯著已知問題,要具備發(fā)現(xiàn)“未知的未知”的能力。
被動響應(yīng)(Reactive):傳統(tǒng)的災(zāi)備、備份和危機管理計劃,這是最后的底線。
Agentic AI 能規(guī)?;嵘a(chǎn)力,也能規(guī)?;卮輾ЫM織。去年一個 AI 編碼工具誤刪整個數(shù)據(jù)庫的案例就是警鐘。當 AI 開始自主行動,風(fēng)險將被成倍放大。
結(jié)語
在這個沒有 100% 安全的世界里,CIO 的目標不是完美,而是“足夠好”。通過降低不必要的復(fù)雜性、增加關(guān)鍵環(huán)節(jié)的冗余,并打破技術(shù)與業(yè)務(wù)之間的隔離墻,我們才能在下一次多米諾骨牌倒下時,護住那塊最核心的業(yè)務(wù)基石。
摘要:由于 IT 相互依賴的廣泛性,在服務(wù)中斷中維持最低可行業(yè)務(wù)變得越來越具有挑戰(zhàn)性。人工智能很快將加劇復(fù)雜性,帶來更大風(fēng)險。

去年 11 月,星巴克、麥當勞及許多大型品牌的數(shù)字服務(wù)因數(shù)據(jù)庫錯誤而癱瘓。2024 年,一項網(wǎng)絡(luò)安全更新導(dǎo)致航班停飛、手術(shù)取消以及數(shù)千項其他服務(wù)中斷。
如今,IT 相關(guān)災(zāi)難都有了自己的“年度回顧”。而明天,Agentic AI(AI 自主智能體)系統(tǒng)的日益普及將加劇復(fù)雜性并帶來更大風(fēng)險。
由公有云和私有云、邊緣網(wǎng)絡(luò)、以及配備 GPU 和專用硬件的所謂“AI 工廠”支持著這些新興工作負載——每一個都是復(fù)雜網(wǎng)絡(luò)中的環(huán)節(jié),任何組件宕機時都可能危及業(yè)務(wù)韌性。
“隨著技術(shù)領(lǐng)導(dǎo)者展望未來,問題在于如何構(gòu)建能夠在人工智能要求的規(guī)模、速度和復(fù)雜性下茁壯成長的基礎(chǔ)設(shè)施,”德勤綜合研究中心助理經(jīng)理 Iram Parveen 指出。
好消息是,IT 領(lǐng)導(dǎo)者可以專注于控制他們能控制的部分,采取措施降低廣泛 IT 依賴的風(fēng)險——也許,甚至可能避免災(zāi)難。但首先,讓我們回顧一下組織是如何變得如此被復(fù)雜性籠罩的。
數(shù)字服務(wù)經(jīng)歷了艱難的幾年,但沒人應(yīng)該感到驚訝。
在 COVID-19 疫情期間,組織為了維護全球分布式團隊的業(yè)務(wù)生產(chǎn)力,急于采用數(shù)十種新的應(yīng)用和服務(wù)——無論是本地部署還是云端——從而推高了復(fù)雜性。
這反過來加深了客戶與其服務(wù)提供商之間的相互依賴,API 調(diào)用和端點數(shù)量超過了大多數(shù)組織的業(yè)務(wù)支持范圍。從本地部署到云端,從微服務(wù)到 SaaS,故障點繁多且不斷增加。
Frazier Healthcare Partners 的 AI、數(shù)據(jù)與技術(shù)負責(zé)人、前 MultiCare Health System 首席信息官 Bradd Busick 表示,對于 CIO 而言,風(fēng)險特征已從數(shù)據(jù)中心正常運行時間 (uptime)轉(zhuǎn)向了生態(tài)系統(tǒng)脆弱性。
換句話說:IDC 分析師 Frank Dickson 表示,企業(yè)實際上已經(jīng)將復(fù)雜性制度化了。“將復(fù)雜性引入互聯(lián)系統(tǒng)后,以前可能只導(dǎo)致單一系統(tǒng)問題的因素,現(xiàn)在可以通過所有系統(tǒng)進行復(fù)制和擴散,”他補充道。
在大多數(shù)組織不斷增加應(yīng)用和服務(wù)的當下——尤其是在人工智能的誘惑無法忽視的情況下——IT 領(lǐng)導(dǎo)者該如何應(yīng)對?在日益復(fù)雜化的環(huán)境中,IT 韌性的應(yīng)對手冊是什么?
總體而言,CIO 必須將網(wǎng)絡(luò)安全、業(yè)務(wù)連續(xù)性和架構(gòu)融合為一個假設(shè)會失敗并圍繞其進行設(shè)計的企業(yè)學(xué)科,Busick 說。
IT 領(lǐng)導(dǎo)者必須利用這些元素來運營他們的最小可行業(yè)務(wù) (MVB)。MVB 的定義因行業(yè)而異,但對于航空公司來說,這包括確保其航班預(yù)訂系統(tǒng)始終對客戶可用。
“如果終端用戶無法查看電子郵件,那就是個問題,”IDC 的 Dickson 說,“但如果航空公司不能飛他們的飛機,那他們的生意就完了。”
IT 領(lǐng)導(dǎo)者在實際操作中是如何做到這一點的?該方法必須是多層次的,包含三類保護:主動 (Proactive)、活躍 (Active) 和被動 (Reactive)。
Forrester Research 首席分析師 Brent Ellis 表示,主動措施是關(guān)鍵,這包括技術(shù)架構(gòu)選擇和旨在提升生產(chǎn)環(huán)境中技術(shù)韌性態(tài)勢的合同方法。這些可能包括“火災(zāi)演習(xí)”,對員工和關(guān)鍵系統(tǒng)進行壓力測試,以應(yīng)對停機、網(wǎng)絡(luò)安全事件和自然災(zāi)害。
Busick 表示,他將關(guān)鍵平臺(如電子健康記錄 (EHR) 系統(tǒng)、藥物和監(jiān)控系統(tǒng))從一般企業(yè) IT 系統(tǒng)中分割出來,以防范停機或網(wǎng)絡(luò)攻擊的波及。
IT 領(lǐng)導(dǎo)者自然擁有豐富的技術(shù)工具來輔助這些工作。
其中一套工具包括可觀測性 (Observability),這是一種旨在通過日志、指標和追蹤等遙測數(shù)據(jù),深入了解 IT 系統(tǒng)健康狀況和性能的軟件工具集。過去的方法主要是監(jiān)控已知問題,而可觀測性使 IT 人員能夠查詢系統(tǒng)行為,在新問題對環(huán)境產(chǎn)生不利影響之前發(fā)現(xiàn)和調(diào)試它們。
活躍措施涵蓋日常運營以及用于監(jiān)控和管理業(yè)務(wù)技術(shù)的服務(wù)。經(jīng)典的被動措施包括備份、災(zāi)難恢復(fù)基礎(chǔ)設(shè)施、故障轉(zhuǎn)移和高可用性環(huán)境、事件計劃以及危機管理實踐。
Ellis 表示,這些領(lǐng)域中有些可能會重疊,但最終建立系統(tǒng)層面的韌性,而非僅僅在組件或服務(wù)層面,才是關(guān)鍵。隨著技術(shù)環(huán)境的變化,韌性也必須受到考驗。
“從組織層面來看,企業(yè)必須打破技術(shù)實施與業(yè)務(wù)之間的壁壘,”Ellis 說,“因為在這一點上,技術(shù)就是業(yè)務(wù),技術(shù)韌性就是業(yè)務(wù)韌性?!?/span>
這些最佳實踐旨在保護核心及輔助業(yè)務(wù)運營免受系統(tǒng)性故障、網(wǎng)絡(luò)安全攻擊及其他風(fēng)險,都是 IT 韌性箭囊中的關(guān)鍵利箭。隨著組織對 AI 工作負載消耗的增加,這些方法將變得更加重要。
雖然大多數(shù)組織尚未大規(guī)模推出?Agentic AI(AI 自主智能體),但當這項技術(shù)主流化時,它將指數(shù)級增加業(yè)務(wù)風(fēng)險。畢竟,雖然 Agentic 系統(tǒng)可以提升生產(chǎn)力,但它們也可能“大規(guī)模毀掉整個組織”,Dickson 引用了去年一個 AI 編碼工具誤刪整個數(shù)據(jù)庫的事件說道。
無論是 IT 領(lǐng)導(dǎo)者保護 Agentic 系統(tǒng),還是物理或虛擬供應(yīng)鏈,都沒有 100% 的解決方案。盡管大家都在談?wù)撆囵B(yǎng)人才、技術(shù)和流程,組織仍然受制于其供應(yīng)商、工具以及傳統(tǒng)的人為錯誤。
“這不是關(guān)于完美;這是關(guān)于足夠好 (Good),”Dickson 說,“我們?nèi)绾谓档蛷?fù)雜度,增加冗余性,又如何讓這些系統(tǒng)變得更好?”