av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线

你好,歡迎您來(lái)到福建信息主管(CIO)網(wǎng)! 設(shè)為首頁(yè)|加入收藏|會(huì)員中心
您現(xiàn)在的位置:>> 新聞資訊 >>
Gartner預(yù)警:60%的AI項(xiàng)目將死于數(shù)據(jù)底座!你的存儲(chǔ)配得上你的GPU嗎?
作者:CIO.com 來(lái)源:CIOCDO 發(fā)布時(shí)間:2026年01月08日 點(diǎn)擊數(shù):

摘要:如果存儲(chǔ)跟不上,再?gòu)?qiáng)大的GPU也只是昂貴的“擺設(shè)”。AI時(shí)代的算力革命,首先是一場(chǎng)存儲(chǔ)革命。


如果英偉達(dá)CEO黃仁勛所言非虛——“通用計(jì)算時(shí)代正走向終結(jié)”,那么我們此刻正站在兩百年前“馬力”向“蒸汽”躍遷的歷史關(guān)口。

然而,在這場(chǎng)轟轟烈烈的AI算力軍備競(jìng)賽中,一個(gè)隱秘但致命的短板正在暴露:存儲(chǔ)。

麥肯錫估算,為跟上AI算力需求,全球需投入7萬(wàn)億美元。但在瘋狂搶購(gòu)GPU的同時(shí),許多企業(yè)卻在用“上個(gè)時(shí)代”的存儲(chǔ)系統(tǒng)來(lái)喂養(yǎng)“這個(gè)時(shí)代”的最強(qiáng)大腦。

結(jié)果是什么?GPU閑置、訓(xùn)練中斷、投資回報(bào)率(ROI)雪崩。

01 當(dāng)GPU“等米下鍋”:傳統(tǒng)存儲(chǔ)的崩潰時(shí)刻


傳統(tǒng)的存儲(chǔ)系統(tǒng)是為數(shù)據(jù)庫(kù)和虛擬化設(shè)計(jì)的,它們習(xí)慣了“排隊(duì)打飯”式的順序讀寫。

但AI工作負(fù)載完全不同。成千上萬(wàn)個(gè)GPU線程像饑餓的野獸,以并行、隨機(jī)、高吞吐的方式同時(shí)轟擊存儲(chǔ)系統(tǒng)。

這種錯(cuò)配會(huì)產(chǎn)生級(jí)聯(lián)效應(yīng):

  • GPU閑置:存儲(chǔ)吞吐量跟不上計(jì)算速度,昂貴的GPU只能空轉(zhuǎn)等待數(shù)據(jù)。

  • 成本飆升:訓(xùn)練是一種投資,每一小時(shí)的停滯都在推遲價(jià)值實(shí)現(xiàn)。

  • 模型重訓(xùn):數(shù)據(jù)一旦損壞或丟失,往往意味著從頭再來(lái),帶來(lái)巨額的意外成本。


02 可靠性危機(jī):AI不能承受之重


對(duì)于大模型訓(xùn)練而言,可靠性(Reliability)不僅僅是一個(gè)技術(shù)指標(biāo),它是生存指標(biāo)。

Gartner發(fā)出嚴(yán)厲警告:“到2026年,組織將放棄60%以上沒(méi)有得到AI就緒數(shù)據(jù)支撐的AI項(xiàng)目?!?/strong>

為什么?因?yàn)閭鹘y(tǒng)存儲(chǔ)依賴的本地RAID或雙機(jī)熱備(HA-pair)架構(gòu),只能應(yīng)對(duì)小規(guī)模故障。在AI這種海量數(shù)據(jù)、超大規(guī)模并發(fā)的場(chǎng)景下,它們顯得捉襟見(jiàn)肘。

劣質(zhì)數(shù)據(jù)每年已令單家企業(yè)損失1290萬(wàn)–1500萬(wàn)美元,管道故障則每小時(shí)造成約30萬(wàn)美元的洞察力損失。

03 破局之道:以AI的速度重構(gòu)存儲(chǔ)


要解決這個(gè)問(wèn)題,修修補(bǔ)補(bǔ)已經(jīng)不夠了。AI需要原生高性能、專為AI設(shè)計(jì)的存儲(chǔ)系統(tǒng)。

3.1 架構(gòu)革新:從RAID到糾刪碼

現(xiàn)代設(shè)計(jì)必須利用多級(jí)糾刪碼Erasure Coding)和無(wú)共享架構(gòu)(Shared-nothing)。即使多個(gè)節(jié)點(diǎn)同時(shí)故障,也能確保數(shù)據(jù)完整且業(yè)務(wù)不中斷,提供集群范圍的容錯(cuò)能力。

3.2 性能與成本的平衡:混合架構(gòu)

采用閃存+磁盤的混合架構(gòu):將高性能數(shù)據(jù)保留在閃存上,確保GPU“吃得飽”;將不太關(guān)鍵的信息分層到低成本介質(zhì)上,確保預(yù)算“受得了”。

3.3 運(yùn)營(yíng)自動(dòng)化

在臟數(shù)據(jù)進(jìn)入AI管道前,通過(guò)自動(dòng)完整性檢查發(fā)現(xiàn)并隔離;通過(guò)定期恢復(fù)演練,確保在災(zāi)難發(fā)生時(shí)能迅速回血。

結(jié)語(yǔ)

不要有任何誤解,高性能存儲(chǔ)不僅僅是錦上添花,它是AI基礎(chǔ)設(shè)施的地基。

如果你的存儲(chǔ)系統(tǒng)還停留在“通用計(jì)算時(shí)代”,那么你的AI項(xiàng)目可能還沒(méi)起跑就已經(jīng)輸了。在AI時(shí)代,沒(méi)有更快、更可靠的數(shù)據(jù)系統(tǒng),再?gòu)?qiáng)大的GPU也會(huì)閑置。

原文:AI如何重塑計(jì)算與存儲(chǔ)的根基

AI工作負(fù)載正在打破傳統(tǒng)的存儲(chǔ)方式,如果沒(méi)有更快、更可靠的數(shù)據(jù)系統(tǒng),再?gòu)?qiáng)大的GPU也會(huì)閑置。

圖源:Credit: optimarc/Shutterstock

如果黃仁勛所言非虛——通用計(jì)算時(shí)代正走向終結(jié)——那么我們正在見(jiàn)證一場(chǎng)堪比兩百年前“馬力”向“蒸汽”躍遷的深刻變革。

這場(chǎng)新革命的核心在AI和數(shù)據(jù)基礎(chǔ)設(shè)施領(lǐng)域的交匯發(fā)展:前所未有的計(jì)算能力正試圖與同樣極致的速度、可靠性和規(guī)模需求對(duì)齊。

AI通過(guò)創(chuàng)造史上數(shù)據(jù)最密集的工作負(fù)載,徹底重塑企業(yè)基礎(chǔ)設(shè)施。全球數(shù)據(jù)中心擴(kuò)容的天價(jià)投資證明了這一點(diǎn)Meta最新公布的6000億美元計(jì)劃只是眾多公告之一。今年4月,麥肯錫曾估算“為跟上算力需求”需投入7萬(wàn)億美元;若AI勢(shì)頭不減,這個(gè)數(shù)字還可能上調(diào)。

這對(duì)數(shù)據(jù)存儲(chǔ)帶來(lái)根本沖擊——傳統(tǒng)的存儲(chǔ)是為像數(shù)據(jù)庫(kù)和虛擬化這樣的可預(yù)測(cè)的順序工作負(fù)載而設(shè)計(jì)的,AI讓成千上萬(wàn)的GPU線程以并行、隨機(jī)、高吞吐的方式同時(shí)轟擊系統(tǒng)。

這種性能問(wèn)題會(huì)在基礎(chǔ)設(shè)施組件之間產(chǎn)生級(jí)聯(lián)效應(yīng)。當(dāng)存儲(chǔ)無(wú)法跟上時(shí),GPU會(huì)閑置,訓(xùn)練周期停滯,總體成本上升。每個(gè)小時(shí)的GPU缺乏都會(huì)延遲投資回報(bào),因?yàn)橛?xùn)練是一種投資,停滯或低效的周期會(huì)推遲價(jià)值實(shí)現(xiàn)的時(shí)間。風(fēng)險(xiǎn)還不止于此:數(shù)據(jù)一旦損壞或丟失,往往需重訓(xùn)整個(gè)模型,這會(huì)帶來(lái)巨額意外成本。影響甚至延伸到推理階段——推理是變現(xiàn)環(huán)節(jié),緩慢或不穩(wěn)定的數(shù)據(jù)管道會(huì)直接削減AI應(yīng)用的商業(yè)回報(bào)。為應(yīng)對(duì)這一問(wèn)題,傳統(tǒng)廠商正在嘗試改造現(xiàn)有架構(gòu)以滿足AI需求,但多數(shù)設(shè)計(jì)仍受限于性能與擴(kuò)展性。

破局之道,始于一條共識(shí):AI需要原生高性能、專為AI設(shè)計(jì)的存儲(chǔ)系統(tǒng)。

一、可靠性101

這些性能壓力也暴露出一個(gè)更根本的問(wèn)題——可靠性。大模型訓(xùn)練依賴對(duì)數(shù)據(jù)的不間斷訪問(wèn),任何中斷——無(wú)論是元數(shù)據(jù)服務(wù)器故障、數(shù)據(jù)損壞還是其他意外,都會(huì)顯著影響生產(chǎn)力并損害結(jié)果。

事實(shí)上,可靠性不僅僅是單一的指標(biāo);是耐久性、可用性和可恢復(fù)性的乘積。這些是至關(guān)重要的問(wèn)題,因?yàn)楸3诌B續(xù)運(yùn)營(yíng)和數(shù)據(jù)完整性的能力不僅僅是技術(shù)保障它決定了AI投資是否真正帶來(lái)價(jià)值。

問(wèn)題在于,許多傳統(tǒng)系統(tǒng)仍依賴本地RAID或HA-pair架構(gòu),這可以防止小規(guī)模故障,但在AI規(guī)模上卻無(wú)法應(yīng)對(duì)。相比之下,現(xiàn)代設(shè)計(jì)利用多級(jí)糾刪碼和無(wú)共享架構(gòu)來(lái)提供集群范圍的容錯(cuò)能力,即使在多個(gè)同時(shí)故障的情況下也能確保持續(xù)的正常運(yùn)行時(shí)間。

遺留問(wèn)題的連鎖反應(yīng)是巨大的Gartner警告稱:“到2026年,組織將放棄60%以上沒(méi)有得到AI就緒數(shù)據(jù)支撐AI項(xiàng)目。”更糟糕的是,劣質(zhì)數(shù)據(jù)每年已令單家企業(yè)損失1290–1500萬(wàn)美元,管道故障則每小時(shí)造成約30萬(wàn)美元的洞察力損失和SLA的錯(cuò)過(guò)。

二、AI速度運(yùn)行的存儲(chǔ)

要構(gòu)建AI系統(tǒng)所需的可靠性,必須從技術(shù)和運(yùn)營(yíng)架構(gòu)層面徹底重新思考。例如,彈性能力必須在一開(kāi)始就內(nèi)嵌,而不是等應(yīng)用更迭后再對(duì)舊存儲(chǔ)產(chǎn)品進(jìn)行事后添加。

技術(shù)層面,多級(jí)糾刪碼這類現(xiàn)代分布式數(shù)據(jù)保護(hù)機(jī)制將取代傳統(tǒng)RAID有限容錯(cuò)能力,提供跨多個(gè)節(jié)點(diǎn)的保護(hù),即使多個(gè)組件同時(shí)失效,也能確保數(shù)據(jù)的完整性。

同時(shí),閃存+磁盤的混合架構(gòu)通過(guò)將高性能數(shù)據(jù)保留在閃存上,將不太關(guān)鍵的信息分層到成本較低的介質(zhì)上,兼顧性能與成本。模塊化、無(wú)共享設(shè)計(jì)則消除單點(diǎn)故障,只需添加標(biāo)準(zhǔn)服務(wù)器節(jié)點(diǎn)即可線性擴(kuò)展性能,無(wú)需專有硬件。

運(yùn)營(yíng)層面同樣關(guān)鍵例如,自動(dòng)數(shù)據(jù)完整性檢查可在損壞數(shù)據(jù)進(jìn)入AI管道前發(fā)現(xiàn)并隔離;定期恢復(fù)演練確?;謴?fù)過(guò)程在AI生產(chǎn)所需的嚴(yán)格時(shí)間范圍內(nèi)正常工作。將這些技術(shù)層和操作層與治理和合規(guī)框架對(duì)齊,可以最小化技術(shù)和監(jiān)管風(fēng)險(xiǎn)。

不要有任何誤解,這些功能不僅僅是錦上添花,而是設(shè)計(jì)AI基礎(chǔ)設(shè)施的基本要素。不可避免的是,AI工作負(fù)載和數(shù)據(jù)集將繼續(xù)擴(kuò)展,存儲(chǔ)架構(gòu)必須模塊化、廠商中立,才能在無(wú)需整體替換的前提下實(shí)現(xiàn)容量與性能的平滑升級(jí)。

作者:Ken Claffey(肯·克拉菲)

譯者:木青 ? ?編審:@lex

广德县| 阳城县| 杂多县| 南乐县| 成安县| 天台县| 太湖县| 镇江市| 锦州市| 乐平市| 澄城县| 榆社县| 闽侯县| 桐乡市| 安新县| 三河市| 资中县| 教育| 郁南县| 盈江县| 克什克腾旗| 抚远县| 句容市| 安宁市| 沂水县| 衡阳县| 榕江县| 福鼎市| 永顺县| 北辰区| 崇文区| 民丰县| 克什克腾旗| 莱阳市| 通化县| 绥中县| 鸡泽县| 宜州市| 岳普湖县| 丹凤县| 封丘县|