av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线

你好,歡迎您來到福建信息主管(CIO)網(wǎng)! 設為首頁|加入收藏|會員中心
您現(xiàn)在的位置:>> 新聞資訊 >>
Gartner預警:60%的AI項目將死于數(shù)據(jù)底座!你的存儲配得上你的GPU嗎?
作者:CIO.com 來源:CIOCDO 發(fā)布時間:2026年01月08日 點擊數(shù):

摘要:如果存儲跟不上,再強大的GPU也只是昂貴的“擺設”。AI時代的算力革命,首先是一場存儲革命。


如果英偉達CEO黃仁勛所言非虛——“通用計算時代正走向終結”,那么我們此刻正站在兩百年前“馬力”向“蒸汽”躍遷的歷史關口。

然而,在這場轟轟烈烈的AI算力軍備競賽中,一個隱秘但致命的短板正在暴露:存儲

麥肯錫估算,為跟上AI算力需求,全球需投入7萬億美元。但在瘋狂搶購GPU的同時,許多企業(yè)卻在用“上個時代”的存儲系統(tǒng)來喂養(yǎng)“這個時代”的最強大腦。

結果是什么?GPU閑置、訓練中斷、投資回報率(ROI)雪崩。

01 當GPU“等米下鍋”:傳統(tǒng)存儲的崩潰時刻


傳統(tǒng)的存儲系統(tǒng)是為數(shù)據(jù)庫和虛擬化設計的,它們習慣了“排隊打飯”式的順序讀寫。

但AI工作負載完全不同。成千上萬個GPU線程像饑餓的野獸,以并行、隨機、高吞吐的方式同時轟擊存儲系統(tǒng)。

這種錯配會產(chǎn)生級聯(lián)效應:

  • GPU閑置:存儲吞吐量跟不上計算速度,昂貴的GPU只能空轉等待數(shù)據(jù)。

  • 成本飆升:訓練是一種投資,每一小時的停滯都在推遲價值實現(xiàn)。

  • 模型重訓:數(shù)據(jù)一旦損壞或丟失,往往意味著從頭再來,帶來巨額的意外成本。


02 可靠性危機:AI不能承受之重


對于大模型訓練而言,可靠性(Reliability)不僅僅是一個技術指標,它是生存指標。

Gartner發(fā)出嚴厲警告:“到2026年,組織將放棄60%以上沒有得到AI就緒數(shù)據(jù)支撐的AI項目?!?/strong>

為什么?因為傳統(tǒng)存儲依賴的本地RAID或雙機熱備(HA-pair)架構,只能應對小規(guī)模故障。在AI這種海量數(shù)據(jù)、超大規(guī)模并發(fā)的場景下,它們顯得捉襟見肘。

劣質數(shù)據(jù)每年已令單家企業(yè)損失1290萬–1500萬美元,管道故障則每小時造成約30萬美元的洞察力損失。

03 破局之道:以AI的速度重構存儲


要解決這個問題,修修補補已經(jīng)不夠了。AI需要原生高性能、專為AI設計的存儲系統(tǒng)。

3.1 架構革新:從RAID到糾刪碼

現(xiàn)代設計必須利用多級糾刪碼Erasure Coding)和無共享架構(Shared-nothing)。即使多個節(jié)點同時故障,也能確保數(shù)據(jù)完整且業(yè)務不中斷,提供集群范圍的容錯能力。

3.2 性能與成本的平衡:混合架構

采用閃存+磁盤的混合架構:將高性能數(shù)據(jù)保留在閃存上,確保GPU“吃得飽”;將不太關鍵的信息分層到低成本介質上,確保預算“受得了”。

3.3 運營自動化

在臟數(shù)據(jù)進入AI管道前,通過自動完整性檢查發(fā)現(xiàn)并隔離;通過定期恢復演練,確保在災難發(fā)生時能迅速回血。

結語

不要有任何誤解,高性能存儲不僅僅是錦上添花,它是AI基礎設施的地基

如果你的存儲系統(tǒng)還停留在“通用計算時代”,那么你的AI項目可能還沒起跑就已經(jīng)輸了。在AI時代,沒有更快、更可靠的數(shù)據(jù)系統(tǒng),再強大的GPU也會閑置。

原文:AI如何重塑計算與存儲的根基

AI工作負載正在打破傳統(tǒng)的存儲方式,如果沒有更快、更可靠的數(shù)據(jù)系統(tǒng),再強大的GPU也會閑置。

圖源:Credit: optimarc/Shutterstock

如果黃仁勛所言非虛——通用計算時代正走向終結——那么我們正在見證一場堪比兩百年前“馬力”向“蒸汽”躍遷的深刻變革。

這場新革命的核心在AI和數(shù)據(jù)基礎設施領域的交匯發(fā)展:前所未有的計算能力正試圖與同樣極致的速度、可靠性和規(guī)模需求對齊。

AI通過創(chuàng)造史上數(shù)據(jù)最密集的工作負載,徹底重塑企業(yè)基礎設施。全球數(shù)據(jù)中心擴容的天價投資證明了這一點Meta最新公布的6000億美元計劃只是眾多公告之一。今年4月,麥肯錫曾估算“為跟上算力需求”需投入7萬億美元;若AI勢頭不減,這個數(shù)字還可能上調。

這對數(shù)據(jù)存儲帶來根本沖擊——傳統(tǒng)的存儲是為像數(shù)據(jù)庫和虛擬化這樣的可預測的順序工作負載而設計的,AI讓成千上萬的GPU線程以并行、隨機、高吞吐的方式同時轟擊系統(tǒng)。

這種性能問題會在基礎設施組件之間產(chǎn)生級聯(lián)效應。當存儲無法跟上時,GPU會閑置,訓練周期停滯,總體成本上升。每個小時的GPU缺乏都會延遲投資回報,因為訓練是一種投資,停滯或低效的周期會推遲價值實現(xiàn)的時間。風險還不止于此:數(shù)據(jù)一旦損壞或丟失,往往需重訓整個模型,這會帶來巨額意外成本。影響甚至延伸到推理階段——推理是變現(xiàn)環(huán)節(jié),緩慢或不穩(wěn)定的數(shù)據(jù)管道會直接削減AI應用的商業(yè)回報。為應對這一問題,傳統(tǒng)廠商正在嘗試改造現(xiàn)有架構以滿足AI需求,但多數(shù)設計仍受限于性能與擴展性。

破局之道,始于一條共識:AI需要原生高性能、專為AI設計的存儲系統(tǒng)。

一、可靠性101

這些性能壓力也暴露出一個更根本的問題——可靠性。大模型訓練依賴對數(shù)據(jù)的不間斷訪問,任何中斷——無論是元數(shù)據(jù)服務器故障、數(shù)據(jù)損壞還是其他意外,都會顯著影響生產(chǎn)力并損害結果。

事實上,可靠性不僅僅是單一的指標;是耐久性、可用性和可恢復性的乘積。這些是至關重要的問題,因為保持連續(xù)運營和數(shù)據(jù)完整性的能力不僅僅是技術保障它決定了AI投資是否真正帶來價值。

問題在于,許多傳統(tǒng)系統(tǒng)仍依賴本地RAID或HA-pair架構,這可以防止小規(guī)模故障,但在AI規(guī)模上卻無法應對。相比之下,現(xiàn)代設計利用多級糾刪碼和無共享架構來提供集群范圍的容錯能力,即使在多個同時故障的情況下也能確保持續(xù)的正常運行時間。

遺留問題的連鎖反應是巨大的,Gartner警告稱:“到2026年,組織將放棄60%以上沒有得到AI就緒數(shù)據(jù)支撐AI項目。”更糟糕的是,劣質數(shù)據(jù)每年已令單家企業(yè)損失1290–1500萬美元,管道故障則每小時造成約30萬美元的洞察力損失和SLA的錯過。

二、AI速度運行的存儲

要構建AI系統(tǒng)所需的可靠性,必須從技術和運營架構層面徹底重新思考。例如,彈性能力必須在一開始就內嵌,而不是等應用更迭后再對舊存儲產(chǎn)品進行事后添加。

技術層面,多級糾刪碼這類現(xiàn)代分布式數(shù)據(jù)保護機制將取代傳統(tǒng)RAID有限容錯能力,提供跨多個節(jié)點的保護,即使多個組件同時失效,也能確保數(shù)據(jù)的完整性。

同時,閃存+磁盤的混合架構通過將高性能數(shù)據(jù)保留在閃存上,將不太關鍵的信息分層到成本較低的介質上,兼顧性能與成本。模塊化、無共享設計則消除單點故障,只需添加標準服務器節(jié)點即可線性擴展性能,無需專有硬件。

運營層面同樣關鍵例如,自動數(shù)據(jù)完整性檢查可在損壞數(shù)據(jù)進入AI管道前發(fā)現(xiàn)并隔離;定期恢復演練確?;謴瓦^程在AI生產(chǎn)所需的嚴格時間范圍內正常工作。將這些技術層和操作層與治理和合規(guī)框架對齊,可以最小化技術和監(jiān)管風險。

不要有任何誤解,這些功能不僅僅是錦上添花,而是設計AI基礎設施的基本要素。不可避免的是,AI工作負載和數(shù)據(jù)集將繼續(xù)擴展,存儲架構必須模塊化、廠商中立,才能在無需整體替換的前提下實現(xiàn)容量與性能的平滑升級。

作者:Ken Claffey(肯·克拉菲)

譯者:木青 ? ?編審:@lex

革吉县| 鄂伦春自治旗| 潼关县| 沙雅县| 偃师市| 韶山市| 吴桥县| 泾川县| 钦州市| 额尔古纳市| 尉犁县| 舟山市| 吴桥县| 榆林市| 吴桥县| 榆林市| 盐源县| 青田县| 丰城市| 安庆市| 长宁县| 吴旗县| 施甸县| 孙吴县| 汝阳县| 咸丰县| 伽师县| 合作市| 湄潭县| 拜泉县| 黄龙县| 南部县| 永胜县| 岳西县| 兴义市| 瑞昌市| 汝州市| 荃湾区| 平度市| 雷波县| 株洲市|