
如果英偉達CEO黃仁勛所言非虛——“通用計算時代正走向終結”,那么我們此刻正站在兩百年前“馬力”向“蒸汽”躍遷的歷史關口。
然而,在這場轟轟烈烈的AI算力軍備競賽中,一個隱秘但致命的短板正在暴露:存儲。
麥肯錫估算,為跟上AI算力需求,全球需投入7萬億美元。但在瘋狂搶購GPU的同時,許多企業(yè)卻在用“上個時代”的存儲系統(tǒng)來喂養(yǎng)“這個時代”的最強大腦。
結果是什么?GPU閑置、訓練中斷、投資回報率(ROI)雪崩。
傳統(tǒng)的存儲系統(tǒng)是為數(shù)據(jù)庫和虛擬化設計的,它們習慣了“排隊打飯”式的順序讀寫。
但AI工作負載完全不同。成千上萬個GPU線程像饑餓的野獸,以并行、隨機、高吞吐的方式同時轟擊存儲系統(tǒng)。
這種錯配會產(chǎn)生級聯(lián)效應:
GPU閑置:存儲吞吐量跟不上計算速度,昂貴的GPU只能空轉等待數(shù)據(jù)。
成本飆升:訓練是一種投資,每一小時的停滯都在推遲價值實現(xiàn)。
模型重訓:數(shù)據(jù)一旦損壞或丟失,往往意味著從頭再來,帶來巨額的意外成本。
對于大模型訓練而言,可靠性(Reliability)不僅僅是一個技術指標,它是生存指標。
Gartner發(fā)出嚴厲警告:“到2026年,組織將放棄60%以上沒有得到AI就緒數(shù)據(jù)支撐的AI項目?!?/strong>
為什么?因為傳統(tǒng)存儲依賴的本地RAID或雙機熱備(HA-pair)架構,只能應對小規(guī)模故障。在AI這種海量數(shù)據(jù)、超大規(guī)模并發(fā)的場景下,它們顯得捉襟見肘。
劣質數(shù)據(jù)每年已令單家企業(yè)損失1290萬–1500萬美元,管道故障則每小時造成約30萬美元的洞察力損失。
要解決這個問題,修修補補已經(jīng)不夠了。AI需要原生高性能、專為AI設計的存儲系統(tǒng)。
3.1 架構革新:從RAID到糾刪碼
現(xiàn)代設計必須利用多級糾刪碼(Erasure Coding)和無共享架構(Shared-nothing)。即使多個節(jié)點同時故障,也能確保數(shù)據(jù)完整且業(yè)務不中斷,提供集群范圍的容錯能力。
3.2 性能與成本的平衡:混合架構
采用閃存+磁盤的混合架構:將高性能數(shù)據(jù)保留在閃存上,確保GPU“吃得飽”;將不太關鍵的信息分層到低成本介質上,確保預算“受得了”。
3.3 運營自動化
在臟數(shù)據(jù)進入AI管道前,通過自動完整性檢查發(fā)現(xiàn)并隔離;通過定期恢復演練,確保在災難發(fā)生時能迅速回血。
不要有任何誤解,高性能存儲不僅僅是錦上添花,它是AI基礎設施的地基。
如果你的存儲系統(tǒng)還停留在“通用計算時代”,那么你的AI項目可能還沒起跑就已經(jīng)輸了。在AI時代,沒有更快、更可靠的數(shù)據(jù)系統(tǒng),再強大的GPU也會閑置。
原文:AI如何重塑計算與存儲的根基
AI工作負載正在打破傳統(tǒng)的存儲方式,如果沒有更快、更可靠的數(shù)據(jù)系統(tǒng),再強大的GPU也會閑置。

圖源:Credit: optimarc/Shutterstock
如果黃仁勛所言非虛——通用計算時代正走向終結——那么我們正在見證一場堪比兩百年前“馬力”向“蒸汽”躍遷的深刻變革。
這場新革命的核心在于AI和數(shù)據(jù)基礎設施領域的交匯發(fā)展:前所未有的計算能力正試圖與同樣極致的速度、可靠性和規(guī)模需求對齊。
AI通過創(chuàng)造史上數(shù)據(jù)最密集的工作負載,徹底重塑企業(yè)基礎設施。全球數(shù)據(jù)中心擴容的天價投資證明了這一點:Meta最新公布的6000億美元計劃只是眾多公告之一。今年4月,麥肯錫曾估算“為跟上算力需求”需投入7萬億美元;若AI勢頭不減,這個數(shù)字還可能上調。
這對數(shù)據(jù)存儲帶來根本沖擊——傳統(tǒng)的存儲是為像數(shù)據(jù)庫和虛擬化這樣的可預測的順序工作負載而設計的,而AI讓成千上萬的GPU線程以并行、隨機、高吞吐的方式同時轟擊系統(tǒng)。
這種性能問題會在基礎設施組件之間產(chǎn)生級聯(lián)效應。當存儲無法跟上時,GPU會閑置,訓練周期停滯,總體成本上升。每個小時的GPU缺乏都會延遲投資回報,因為訓練是一種投資,停滯或低效的周期會推遲價值實現(xiàn)的時間。風險還不止于此:數(shù)據(jù)一旦損壞或丟失,往往需重訓整個模型,這會帶來巨額意外成本。影響甚至延伸到推理階段——推理是變現(xiàn)環(huán)節(jié),緩慢或不穩(wěn)定的數(shù)據(jù)管道會直接削減AI應用的商業(yè)回報。為應對這一問題,傳統(tǒng)廠商正在嘗試改造現(xiàn)有架構以滿足AI需求,但多數(shù)設計仍受限于性能與擴展性。
破局之道,始于一條共識:AI需要原生高性能、專為AI設計的存儲系統(tǒng)。
一、可靠性101
這些性能壓力也暴露出一個更根本的問題——可靠性。大模型訓練依賴對數(shù)據(jù)的不間斷訪問,任何中斷——無論是元數(shù)據(jù)服務器故障、數(shù)據(jù)損壞還是其他意外,都會顯著影響生產(chǎn)力并損害結果。
事實上,可靠性不僅僅是單一的指標;而是耐久性、可用性和可恢復性的乘積。這些是至關重要的問題,因為保持連續(xù)運營和數(shù)據(jù)完整性的能力不僅僅是技術保障,它決定了AI投資是否真正帶來價值。
問題在于,許多傳統(tǒng)系統(tǒng)仍然依賴本地RAID或HA-pair架構,這可以防止小規(guī)模故障,但在AI規(guī)模上卻無法應對。相比之下,現(xiàn)代設計利用多級糾刪碼和無共享架構來提供集群范圍的容錯能力,即使在多個同時故障的情況下也能確保持續(xù)的正常運行時間。
遺留問題的連鎖反應是巨大的,Gartner警告稱:“到2026年,組織將放棄60%以上沒有得到AI就緒數(shù)據(jù)支撐的AI項目。”更糟糕的是,劣質數(shù)據(jù)每年已令單家企業(yè)損失1290–1500萬美元,管道故障則每小時造成約30萬美元的洞察力損失和SLA的錯過。
二、以AI速度運行的存儲
要構建AI系統(tǒng)所需的可靠性,必須從技術和運營架構層面徹底重新思考。例如,彈性能力必須在一開始就內嵌,而不是等應用更迭后再對舊存儲產(chǎn)品進行事后添加。
在技術層面,多級糾刪碼這類現(xiàn)代分布式數(shù)據(jù)保護機制將取代傳統(tǒng)RAID的有限容錯能力,提供跨多個節(jié)點的保護,即使多個組件同時失效,也能確保數(shù)據(jù)的完整性。
同時,閃存+磁盤的混合架構通過將高性能數(shù)據(jù)保留在閃存上,將不太關鍵的信息分層到成本較低的介質上,兼顧性能與成本。模塊化、無共享設計則消除單點故障,只需添加標準服務器節(jié)點即可線性擴展性能,無需專有硬件。
運營層面同樣關鍵:例如,自動數(shù)據(jù)完整性檢查可在損壞數(shù)據(jù)進入AI管道前發(fā)現(xiàn)并隔離;定期恢復演練確?;謴瓦^程在AI生產(chǎn)所需的嚴格時間范圍內正常工作。將這些技術層和操作層與治理和合規(guī)框架對齊,可以最小化技術和監(jiān)管風險。
不要有任何誤解,這些功能不僅僅是錦上添花,而是設計AI基礎設施的基本要素。不可避免的是,AI工作負載和數(shù)據(jù)集將繼續(xù)擴展,存儲架構必須模塊化、廠商中立,才能在無需整體替換的前提下實現(xiàn)容量與性能的平滑升級。
作者:Ken Claffey(肯·克拉菲)
譯者:木青 ? ?編審:@lex