Gartner預警：60%的AI項目將死于數(shù)據(jù)底座！你的存儲配得上你的GPU嗎？

作者：CIO.com 來源：CIOCDO 發(fā)布時間：2026年01月08日點擊數(shù)：

摘要：如果存儲跟不上，再強大的GPU也只是昂貴的“擺設”。AI時代的算力革命，首先是一場存儲革命。

如果英偉達CEO黃仁勛所言非虛——“通用計算時代正走向終結”，那么我們此刻正站在兩百年前“馬力”向“蒸汽”躍遷的歷史關口。

然而，在這場轟轟烈烈的AI算力軍備競賽中，一個隱秘但致命的短板正在暴露：存儲。

麥肯錫估算，為跟上AI算力需求，全球需投入7萬億美元。但在瘋狂搶購GPU的同時，許多企業(yè)卻在用“上個時代”的存儲系統(tǒng)來喂養(yǎng)“這個時代”的最強大腦。

結果是什么？GPU閑置、訓練中斷、投資回報率（ROI）雪崩。

01 當GPU“等米下鍋”：傳統(tǒng)存儲的崩潰時刻

傳統(tǒng)的存儲系統(tǒng)是為數(shù)據(jù)庫和虛擬化設計的，它們習慣了“排隊打飯”式的順序讀寫。

但AI工作負載完全不同。成千上萬個GPU線程像饑餓的野獸，以并行、隨機、高吞吐的方式同時轟擊存儲系統(tǒng)。

這種錯配會產(chǎn)生級聯(lián)效應：

GPU閑置：存儲吞吐量跟不上計算速度，昂貴的GPU只能空轉等待數(shù)據(jù)。
成本飆升：訓練是一種投資，每一小時的停滯都在推遲價值實現(xiàn)。
模型重訓：數(shù)據(jù)一旦損壞或丟失，往往意味著從頭再來，帶來巨額的意外成本。

02 可靠性危機：AI不能承受之重

對于大模型訓練而言，可靠性（Reliability）不僅僅是一個技術指標，它是生存指標。

Gartner發(fā)出嚴厲警告：“到2026年，組織將放棄60%以上沒有得到AI就緒數(shù)據(jù)支撐的AI項目?！?/strong>

為什么？因為傳統(tǒng)存儲依賴的本地RAID或雙機熱備（HA-pair）架構，只能應對小規(guī)模故障。在AI這種海量數(shù)據(jù)、超大規(guī)模并發(fā)的場景下，它們顯得捉襟見肘。

劣質數(shù)據(jù)每年已令單家企業(yè)損失1290萬–1500萬美元，管道故障則每小時造成約30萬美元的洞察力損失。

03 破局之道：以AI的速度重構存儲

要解決這個問題，修修補補已經(jīng)不夠了。AI需要原生高性能、專為AI設計的存儲系統(tǒng)。

3.1 架構革新：從RAID到糾刪碼

現(xiàn)代設計必須利用多級糾刪碼（Erasure Coding）和無共享架構（Shared-nothing）。即使多個節(jié)點同時故障，也能確保數(shù)據(jù)完整且業(yè)務不中斷，提供集群范圍的容錯能力。

3.2 性能與成本的平衡：混合架構

采用閃存+磁盤的混合架構：將高性能數(shù)據(jù)保留在閃存上，確保GPU“吃得飽”；將不太關鍵的信息分層到低成本介質上，確保預算“受得了”。

3.3 運營自動化

在臟數(shù)據(jù)進入AI管道前，通過自動完整性檢查發(fā)現(xiàn)并隔離；通過定期恢復演練，確保在災難發(fā)生時能迅速回血。

結語

不要有任何誤解，高性能存儲不僅僅是錦上添花，它是AI基礎設施的地基。

如果你的存儲系統(tǒng)還停留在“通用計算時代”，那么你的AI項目可能還沒起跑就已經(jīng)輸了。在AI時代，沒有更快、更可靠的數(shù)據(jù)系統(tǒng)，再強大的GPU也會閑置。

原文：AI如何重塑計算與存儲的根基

AI工作負載正在打破傳統(tǒng)的存儲方式，如果沒有更快、更可靠的數(shù)據(jù)系統(tǒng)，再強大的GPU也會閑置。

圖源：Credit: optimarc/Shutterstock

如果黃仁勛所言非虛——通用計算時代正走向終結——那么我們正在見證一場堪比兩百年前“馬力”向“蒸汽”躍遷的深刻變革。

這場新革命的核心在于AI和數(shù)據(jù)基礎設施領域的交匯發(fā)展：前所未有的計算能力正試圖與同樣極致的速度、可靠性和規(guī)模需求對齊。

AI通過創(chuàng)造史上數(shù)據(jù)最密集的工作負載，徹底重塑企業(yè)基礎設施。全球數(shù)據(jù)中心擴容的天價投資證明了這一點：Meta最新公布的6000億美元計劃只是眾多公告之一。今年4月，麥肯錫曾估算“為跟上算力需求”需投入7萬億美元；若AI勢頭不減，這個數(shù)字還可能上調。

這對數(shù)據(jù)存儲帶來根本沖擊——傳統(tǒng)的存儲是為像數(shù)據(jù)庫和虛擬化這樣的可預測的順序工作負載而設計的，而AI讓成千上萬的GPU線程以并行、隨機、高吞吐的方式同時轟擊系統(tǒng)。

這種性能問題會在基礎設施組件之間產(chǎn)生級聯(lián)效應。當存儲無法跟上時，GPU會閑置，訓練周期停滯，總體成本上升。每個小時的GPU缺乏都會延遲投資回報，因為訓練是一種投資，停滯或低效的周期會推遲價值實現(xiàn)的時間。風險還不止于此：數(shù)據(jù)一旦損壞或丟失，往往需重訓整個模型，這會帶來巨額意外成本。影響甚至延伸到推理階段——推理是變現(xiàn)環(huán)節(jié)，緩慢或不穩(wěn)定的數(shù)據(jù)管道會直接削減AI應用的商業(yè)回報。為應對這一問題，傳統(tǒng)廠商正在嘗試改造現(xiàn)有架構以滿足AI需求，但多數(shù)設計仍受限于性能與擴展性。

破局之道，始于一條共識：AI需要原生高性能、專為AI設計的存儲系統(tǒng)。

一、可靠性101

這些性能壓力也暴露出一個更根本的問題——可靠性。大模型訓練依賴對數(shù)據(jù)的不間斷訪問，任何中斷——無論是元數(shù)據(jù)服務器故障、數(shù)據(jù)損壞還是其他意外，都會顯著影響生產(chǎn)力并損害結果。

事實上，可靠性不僅僅是單一的指標；而是耐久性、可用性和可恢復性的乘積。這些是至關重要的問題，因為保持連續(xù)運營和數(shù)據(jù)完整性的能力不僅僅是技術保障，它決定了AI投資是否真正帶來價值。

問題在于，許多傳統(tǒng)系統(tǒng)仍然依賴本地RAID或HA-pair架構，這可以防止小規(guī)模故障，但在AI規(guī)模上卻無法應對。相比之下，現(xiàn)代設計利用多級糾刪碼和無共享架構來提供集群范圍的容錯能力，即使在多個同時故障的情況下也能確保持續(xù)的正常運行時間。

遺留問題的連鎖反應是巨大的，Gartner警告稱：“到2026年，組織將放棄60%以上沒有得到AI就緒數(shù)據(jù)支撐的AI項目。”更糟糕的是，劣質數(shù)據(jù)每年已令單家企業(yè)損失1290–1500萬美元，管道故障則每小時造成約30萬美元的洞察力損失和SLA的錯過。

二、以AI速度運行的存儲

要構建AI系統(tǒng)所需的可靠性，必須從技術和運營架構層面徹底重新思考。例如，彈性能力必須在一開始就內嵌，而不是等應用更迭后再對舊存儲產(chǎn)品進行事后添加。

在技術層面，多級糾刪碼這類現(xiàn)代分布式數(shù)據(jù)保護機制將取代傳統(tǒng)RAID的有限容錯能力，提供跨多個節(jié)點的保護，即使多個組件同時失效，也能確保數(shù)據(jù)的完整性。

同時，閃存+磁盤的混合架構通過將高性能數(shù)據(jù)保留在閃存上，將不太關鍵的信息分層到成本較低的介質上，兼顧性能與成本。模塊化、無共享設計則消除單點故障，只需添加標準服務器節(jié)點即可線性擴展性能，無需專有硬件。

運營層面同樣關鍵：例如，自動數(shù)據(jù)完整性檢查可在損壞數(shù)據(jù)進入AI管道前發(fā)現(xiàn)并隔離；定期恢復演練確?；謴瓦^程在AI生產(chǎn)所需的嚴格時間范圍內正常工作。將這些技術層和操作層與治理和合規(guī)框架對齊，可以最小化技術和監(jiān)管風險。

不要有任何誤解，這些功能不僅僅是錦上添花，而是設計AI基礎設施的基本要素。不可避免的是，AI工作負載和數(shù)據(jù)集將繼續(xù)擴展，存儲架構必須模塊化、廠商中立，才能在無需整體替換的前提下實現(xiàn)容量與性能的平滑升級。

作者：Ken Claffey（肯·克拉菲）

譯者：木青 ? ?編審：@lex

上一篇：2026 基礎設施大重構：讓 AI 智能體落地…

下一篇：工業(yè)和信息化部等八部門關于印發(fā)《“人工…

熱門文章

CIO避坑指南：如何向高管高效傳達“壞消…

給 CIO 們的 4 條建議：在人工智能變革中…

【學習觀察】火山引擎AI創(chuàng)新巡展·福州站…

最新資訊

CIO避坑指南：如何向…

給 CIO 們的 4 條建議…

【學習觀察】火山引擎…

在AI信任危機的時代，…

AI不是大廠專屬！我們…

av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线

摘要：如果存儲跟不上，再強大的GPU也只是昂貴的“擺設”。AI時代的算力革命，首先是一場存儲革命。

01 當GPU“等米下鍋”：傳統(tǒng)存儲的崩潰時刻

02 可靠性危機：AI不能承受之重

03 破局之道：以AI的速度重構存儲

結語

摘要：如果存儲跟不上，再強大的GPU也只是昂貴的“擺設”。AI時代的算力革命，首先是一場存儲革命。