
在微軟最新的《人工智能基礎(chǔ)設(shè)施狀況》報告中,一個殘酷的現(xiàn)實被揭開:在受訪的1500多名商業(yè)領(lǐng)袖中,超過一半的人承認,他們沒有合適的基礎(chǔ)設(shè)施來支持想要運行的AI工作負載。
許多企業(yè)在POC(概念驗證)階段順風順水,一旦試圖擴展到生產(chǎn)環(huán)境,項目便轟然倒塌。
Colt Technology Services的首席AI官Frank Miller打了一個極其形象的比喻:
“在遺留架構(gòu)上運行AI,就像通過撥號網(wǎng)絡(luò)流式傳輸4K視頻。你可以欺騙自己它會起作用,但現(xiàn)實會給你狠狠一擊。”?
你投入了巨額資金,不能毀在基建上。以下是構(gòu)建現(xiàn)代化AI架構(gòu)的四大關(guān)鍵支柱。
對于企業(yè)IT來說,高可用性和災(zāi)備是基本功。但AI——尤其是GPU集群訓(xùn)練和推理——對網(wǎng)絡(luò)提出了完全不同的要求。
IDC副總裁Daniel Saroff警告:“這不僅是買幾塊顯卡的問題。你必須綜合考慮GPU基礎(chǔ)設(shè)施、帶寬、網(wǎng)絡(luò)可用性以及應(yīng)用間的連接性?!?/span>
你需要關(guān)注的硬核技術(shù):
低延遲、高帶寬:AI流量具有突發(fā)性和大規(guī)模并行的特點。
新型網(wǎng)絡(luò)硬件:SmartNICs(智能網(wǎng)卡)、InfiniBand或RoCE(融合以太網(wǎng)RDMA)。
智能路由:采用智能、自適應(yīng)路由和動態(tài)多路徑I/O,確保一條擁塞路徑不會中斷整個AI管道。
VAST Data的Jason Hammons指出,隨著AI智能體(Agents)的興起,其復(fù)雜的I/O模式會讓系統(tǒng)更加脆弱,對存儲和網(wǎng)絡(luò)的要求甚至比單純的模型訓(xùn)練更高。?
云服務(wù)商Leaseweb的CEO Richard Copeland指出,很多企業(yè)的AI架構(gòu)就像“魯布·戈德堡機械”——設(shè)計得過度復(fù)雜,迂回曲折。?
工具、代理、隊列、存儲層……每一層都在增加延遲和脆弱性。數(shù)據(jù)在到達模型前必須在這些堆棧中上下移動,每一次跳轉(zhuǎn)都是成本。
如何簡化?
扁平化架構(gòu):去除冗余的中間件。
計算靠近數(shù)據(jù):將工作負載轉(zhuǎn)移到數(shù)據(jù)已經(jīng)存在的環(huán)境中,解決“數(shù)據(jù)引力”問題。
彈性設(shè)計:將彈性視為設(shè)計原則,而不是保險策略。
傳統(tǒng)的數(shù)據(jù)庫拼湊已經(jīng)跟不上AI對延遲和治理的要求。SingleStore的CTO Nadeem Asghar認為,統(tǒng)一的智能平面將取代碎片化的堆棧。
圖數(shù)據(jù)庫提供商Memgraph的CEO Dominik Tomicevic則提出了一個極具參考價值的架構(gòu)思路:
將“智能層”(模型和代理)與“知識層”(事實和數(shù)據(jù))分開。
知識圖譜/GraphRAG:建立一個強類型的知識存儲,像關(guān)鍵任務(wù)數(shù)據(jù)庫一樣進行備份和監(jiān)控。
細粒度訪問控制:在圖級別進行控制,確保存儲層永遠不會泄露底層不允許的數(shù)據(jù),即使LLM對此“感到好奇”。
如何讓AI從一系列零散的實驗變成企業(yè)的一種核心能力?答案是平臺化。
Domino Data Lab的Jarrod Vawdrey指出,每家公司都面臨同樣的痛點:“你需要AI來競爭,但你所有的實際業(yè)務(wù)都跑在比iPhone還老的傳統(tǒng)系統(tǒng)上。”
你需要建立統(tǒng)一的平臺工作流,引入“前置部署工程師”作為翻譯者,將現(xiàn)代AI能力與陳舊的ERP系統(tǒng)集成。同時,必須引入FinOps(財務(wù)運營)。
IDC預(yù)測,到2027年,組織將意識到他們低估了AI基礎(chǔ)設(shè)施成本近三分之一。 API管理、實時成本監(jiān)控不再是可選項,而是生存必修課。
正確地進行IT工作,才能正確地進行AI工作。
如果你的架構(gòu)是為彈性而構(gòu)建的,那么你已經(jīng)成功了一半。但剩下一半,需要你果斷地拋棄“撥號上網(wǎng)”時代的舊思維,為AI重塑一個高帶寬、低延遲、智能化的新底座。
原文:為人工智能提供彈性和連續(xù)性
你投入了太多,以至于不能把基礎(chǔ)弄錯。以下是為人工智能正確構(gòu)建架構(gòu)、基礎(chǔ)設(shè)施和網(wǎng)絡(luò)時的樣子。

圖源:Shutterstock / kung_tom
基礎(chǔ)設(shè)施可能是許多組織在將人工智能從POC/Proof - of - Concept(概念驗證)擴展到生產(chǎn)階段時報告失敗的原因。在Microsoft(微軟)最新的《State of AI Infrastructure/人工智能基礎(chǔ)設(shè)施狀況》報告中,幾乎每家公司都談到了擴展和實現(xiàn)人工智能運營所面臨的挑戰(zhàn),來自不同行業(yè)和地區(qū)的? 1500多名商業(yè)領(lǐng)袖中,超過一半的人表示他們沒有合適的基礎(chǔ)設(shè)施來支持他們想要運行的人工智能工作負載——這一比例在其他調(diào)查中也有體現(xiàn)。
在構(gòu)建、部署和運營人工智能模型時,你會發(fā)現(xiàn)自己的基礎(chǔ)設(shè)施到底有多現(xiàn)代化,以及它在哪些方面讓你失望。數(shù)字基礎(chǔ)設(shè)施公司Colt Technology Services的首席人工智能和平臺官Frank Miller(弗蘭克·米勒)說:“在遺留架構(gòu)上運行人工智能就像通過撥號網(wǎng)絡(luò)流式傳輸4K視頻,你可以說服自己它會起作用,但現(xiàn)實卻大不相同。”
如果你不想僅僅為了讓投入大量資金的人工智能保持可用而疲于應(yīng)對各種問題,你就需要治理和現(xiàn)代架構(gòu)。“這意味著用混合云原生設(shè)計取代僵化的傳統(tǒng)系統(tǒng),這些設(shè)計可以為人工智能工作負載進行擴展,”他補充道,“高帶寬、低延遲的連接確??焖俚臄?shù)據(jù)訪問;冗余和自動故障轉(zhuǎn)移提供連續(xù)性;帶有加密的零信任安全保護敏感的人工智能流程。增加可觀測性和預(yù)測性監(jiān)控有助于在問題干擾運營之前預(yù)測到它們,從而創(chuàng)建一個具有彈性、安全且為人工智能創(chuàng)新做好準備的基礎(chǔ)設(shè)施。”
IDC集團副總裁Daniel Saroff(丹尼爾·薩羅夫)認為,可以把這看作是技術(shù)債務(wù),因為大多數(shù)企業(yè)都低估了人工智能對連接性和計算能力的壓力。孤立的基礎(chǔ)設(shè)施無法滿足人工智能的需求,首席信息官們需要以更綜合的方式考慮這些及其他因素,以使人工智能取得成功。“你必須考慮你的GPU/Graphics Processing Unit(圖形處理單元)基礎(chǔ)設(shè)施、帶寬、網(wǎng)絡(luò)可用性以及各個應(yīng)用程序之間的連接性,”他說,“如果你沒有為高事務(wù)性、GPU密集型環(huán)境設(shè)置好環(huán)境,你就會遇到問題,”Saroff(薩羅夫)警告說,“而且基礎(chǔ)設(shè)施非常分散意味著你需要提取數(shù)據(jù)并集成多個不同的系統(tǒng),尤其是當你開始考慮智能體時。”
訓(xùn)練、RAG/Retrieval-Augmented Generation(檢索增強生成)和智能體工作流程假定數(shù)據(jù)不僅是正確的,而且始終是可訪問的,并且不存在瓶頸。他補充說,像MCP這樣的通用API(應(yīng)用程序編程接口)技術(shù)正在成為一種標準化數(shù)據(jù)訪問的方式,而傳統(tǒng)系統(tǒng)可能不容易支持這一點。
一、精于GPU
對于企業(yè)IT來說,彈性并不是一個新的概念。高可用性、故障轉(zhuǎn)移和災(zāi)難恢復(fù)是普遍要求,以至于微軟在其Azure Copilot中添加的前六個智能體之一就是專門為了提高云的彈性。在本地,企業(yè)有幾十年的基礎(chǔ)設(shè)施經(jīng)驗可以借鑒,但這很少包括對人工智能至關(guān)重要的昂貴GPU和其他加速器,無論你是進行訓(xùn)練還是運行推理。
無論是需要用正確的驅(qū)動程序和操作符自動配置GPU Kubernetes集群所增加的復(fù)雜性,還是構(gòu)建更難維護的專用人工智能基礎(chǔ)設(shè)施,以及需要針對具有不熟悉且快速變化模式的分布式流量的高速網(wǎng)絡(luò),它們的要求都更高。
VAST Data的國際系統(tǒng)工程副總裁Jason Hammons(杰森·哈蒙斯)說:“構(gòu)建GPU基礎(chǔ)設(shè)施真的很困難。在很大程度上,這是因為其大規(guī)模并行的性質(zhì),也因為其組件。它們就是要復(fù)雜得多?!?/span>
人工智能需要具有低延遲且可預(yù)測的高帶寬網(wǎng)絡(luò),以傳輸大量的數(shù)據(jù)有效負載以及少量的推理和API調(diào)用有效負載。這可能意味著企業(yè)網(wǎng)絡(luò)的至少一部分看起來更像云數(shù)據(jù)中心中的網(wǎng)絡(luò),可能包括SmartNICs(智能網(wǎng)絡(luò)接口卡)、InfiniBand(無限帶寬)或RoCE/RDMA over Converged Ethernet(融合以太網(wǎng)?RDMA),以及像SONiC這樣的可編程網(wǎng)絡(luò)操作系統(tǒng),還有與人工智能數(shù)據(jù)中心和云API的穩(wěn)定直接連接。
Hammons(哈蒙斯)表示,如果企業(yè)內(nèi)部到GPU集群本身有高速網(wǎng)絡(luò),就可以提供良好的人工智能體驗,但構(gòu)建代理在存儲和網(wǎng)絡(luò)方面的要求更高。“當你開始擴展代理工作負載時,由于它們表現(xiàn)出的復(fù)雜I/O模式,保持這些系統(tǒng)正常運行的復(fù)雜性質(zhì)可能會加劇,”他說。
在人工智能中,智能路由和底層優(yōu)化更為重要,負載平衡也比以往任何時候都更關(guān)鍵,這需要智能、自適應(yīng)的路由以及動態(tài)、多路徑I/O,這樣一條擁塞或不健康的路徑就不會中斷人工智能管道。你必須給予關(guān)鍵的人工智能流量足夠高的優(yōu)先級,以支持你的工作負載,同時又不會妨礙像ERP/Enterprise Resource Planning(企業(yè)資源規(guī)劃)和支付服務(wù),或VoIP(IP語音)和視頻會議等關(guān)鍵生產(chǎn)系統(tǒng)。
軟件開發(fā)公司Fastly的首席技術(shù)官Artur Bergman(阿圖爾·伯格曼)說:“人工智能工作流程更加基于網(wǎng)絡(luò)。你必須在多臺機器上進行擴展,這與對網(wǎng)絡(luò)或延遲要求沒有那么高的企業(yè)工作負載相比,是一個相當大的轉(zhuǎn)變。”
這不再僅僅是避免關(guān)鍵故障或快速從故障中恢復(fù)的問題。你還必須設(shè)計系統(tǒng)以實現(xiàn)優(yōu)雅降級,這樣在出現(xiàn)故障時它們?nèi)匀荒軌蛴凶銐蚝玫男阅鼙憩F(xiàn)。
同樣,具有彈性的人工智能需要的不僅僅是你習慣用于任何生產(chǎn)工作負載的同步復(fù)制。Hammons(哈蒙斯)說:“很多這些系統(tǒng)需要在站點之間進行負載平衡,并在多個域之間具有冗余,”這種復(fù)雜性甚至讓成熟的組織都轉(zhuǎn)向像CoreWeave這樣的供應(yīng)商,以及他所說的人工智能原生新云。
采用混合API的方法幾乎是普遍存在的。無論你是將工作負載擴展到人工智能數(shù)據(jù)中心,在超大規(guī)模GPU基礎(chǔ)設(shè)施和云數(shù)據(jù)庫上構(gòu)建,還是調(diào)用云API,你都需要考慮這些連接。這意味著更新傳統(tǒng)網(wǎng)絡(luò),并考慮多個連接提供商以實現(xiàn)冗余。
如果你在邊緣進行人工智能應(yīng)用,特別是在像工廠和零售這樣的近實時環(huán)境中,你還必須考慮分布式可靠性,以及需要什么樣的連接性和延遲來進行推理或跨站點更新本地模型以確保一致性。
Bergman(伯格曼)說:“跨云通信只會不斷增長。Fastly的客戶已經(jīng)在那里保存訓(xùn)練集數(shù)據(jù),以便他們可以在多個云中使用它。‘我們可以將其引入所有云,而無需支付云出口費用’。”
他建議,未來代表員工進行操作時,對代理訪問和權(quán)限進行身份驗證可能會增加復(fù)雜性。這不需要底層網(wǎng)絡(luò)更改,但在應(yīng)用層,他預(yù)計為了以安全、可靠的方式擴展這些功能,會發(fā)生很多演變。
二、簡化你的架構(gòu)
云服務(wù)提供商Leaseweb的首席執(zhí)行官Richard Copeland(理查德·科普蘭)表示,如今大多數(shù)人工智能的采用都是在從未為這種波動性水平設(shè)計的架構(gòu)上進行的。“每個人都想要人工智能的魔力,但一旦他們進行擴展,就會面臨數(shù)據(jù)引力、延遲預(yù)算和存儲經(jīng)濟性的混亂現(xiàn)實,”他補充道,“團隊試圖保護端點、擴展管道、添加GPU并增加帶寬,但如果其基礎(chǔ)沒有特意設(shè)計為具有彈性,那么這些都無法阻止運營混亂。”
他指出,幾乎可以肯定的是,你需要更多的存儲來支持人工智能,而不僅僅是用于訓(xùn)練集。“你要存儲嵌入向量、向量索引、模型檢查點、代理日志、合成數(shù)據(jù)集,而且代理本身每秒都在產(chǎn)生新的數(shù)據(jù),”他說。所以花時間計算出你實際需要存儲多少數(shù)據(jù)、存儲在哪里以及存儲多長時間。
但為連續(xù)性而設(shè)計意味著將彈性視為一個設(shè)計原則,而不是一份保險政策。Copeland(科普蘭)說,保持領(lǐng)先的組織正在簡化架構(gòu),將計算推向更接近數(shù)據(jù)的位置,自動化生命周期策略,并構(gòu)建人工智能管道可以在無人緊張的情況下進行故障轉(zhuǎn)移的環(huán)境。
更扁平的架構(gòu)還可以減少技術(shù)債務(wù),但大多數(shù)企業(yè)已經(jīng)積累了太多層的工具、代理、隊列、存儲層和檢查點,以至于他們的人工智能管道就像Rube Goldberg machines(魯布·戈德堡機械,是一種被設(shè)計得過度復(fù)雜的機械組合,以迂回曲折的方法去完成一些其實非常簡單的工作)一樣。“數(shù)據(jù)在到達需要它的模型之前必須在這個堆棧中上下移動,每一次跳轉(zhuǎn)都會增加延遲、脆弱性和運營開銷,”他說。
找出延遲來自哪里,你可能會發(fā)現(xiàn)一些不需要的系統(tǒng)。“去除冗余的中間件,自動化數(shù)據(jù)放置和生命周期策略,并將工作負載轉(zhuǎn)移到數(shù)據(jù)已經(jīng)存在的環(huán)境中,”他繼續(xù)說道。整合存儲層,將GPU工作負載轉(zhuǎn)移到更簡單的區(qū)域或本地環(huán)境中,并調(diào)整網(wǎng)絡(luò)路徑,應(yīng)該可以使系統(tǒng)表現(xiàn)得可預(yù)測而不是混亂。
三、設(shè)計數(shù)據(jù)架構(gòu)
要使人工智能實現(xiàn)擴展,幾乎肯定意味著要認真審視你的數(shù)據(jù)架構(gòu)。每個數(shù)據(jù)庫都增加了人工智能相關(guān)的功能。lakehouses(數(shù)據(jù)湖倉)承諾可以將運營數(shù)據(jù)和分析結(jié)合在一起,而不會影響生產(chǎn)工作負載的SLAs/Service - Level Agreements(服務(wù)級別協(xié)議)。或者你可以進一步使用像Azure Fabric這樣的數(shù)據(jù)平臺,它引入流數(shù)據(jù)和時間序列數(shù)據(jù)以用于人工智能應(yīng)用程序。
如果你已經(jīng)嘗試過不同的方法,你可能需要重新構(gòu)建數(shù)據(jù)層,以擺脫碎片化微服務(wù)的運營混亂,在這種情況下,不同的向量存儲、圖數(shù)據(jù)庫和文檔孤島之間的每一次數(shù)據(jù)交接都會引入延遲和治理差距。太多的故障點使得很難提供高可用性保證。
云人工智能數(shù)據(jù)庫平臺SingleStore的首席產(chǎn)品和技術(shù)官Nadeem Asghar(納迪姆·阿斯加爾)說:“傳統(tǒng)的數(shù)據(jù)庫、管道和定制向量存儲的拼湊根本無法跟上人工智能對延遲、治理和規(guī)模的要求。統(tǒng)一的智能平面將取代如今碎片化的堆棧,將數(shù)據(jù)、計算和推理整合到一個單一的實時系統(tǒng)中。”
圖數(shù)據(jù)庫提供商Memgraph的首席執(zhí)行官Dominik Tomicevic(多米尼克·托米切維奇)建議,將構(gòu)成智能層的模型和代理與知識層分開,在知識層中,事實、數(shù)據(jù)和信息存在,并且需要在各個區(qū)域之間進行同步或近同步復(fù)制。
盡管人工智能基礎(chǔ)設(shè)施意味著要處理數(shù)據(jù)和網(wǎng)絡(luò)密集型的分布式系統(tǒng),但他認為這是一個可以解決的工程問題。“一個具有彈性的人工智能堆棧始于一個強類型的知識圖譜或GraphRAG存儲,它可以像任何其他關(guān)鍵任務(wù)數(shù)據(jù)庫一樣進行集群、復(fù)制、備份、監(jiān)控和訪問控制,”他說。
這為你提供了分別擴展搜索和數(shù)據(jù)節(jié)點的靈活性,甚至可以在未來更改模型和供應(yīng)商。這也意味著安全性和彈性是相輔相成的。
“在圖級別進行細粒度的訪問控制意味著檢索層永遠不會泄露底層數(shù)據(jù)庫不允許的數(shù)據(jù),即使LLM(大語言模型)對此感到好奇,”他補充說,“在此基礎(chǔ)上,你還專門為人工智能制定可觀測性和服務(wù)級別目標,比如GraphRAG查詢的延遲和錯誤預(yù)算、檢索結(jié)果的質(zhì)量指標以及模型調(diào)用的成本預(yù)算。”
四、建立平臺
從原型到能夠?qū)崿F(xiàn)人工智能價值的生產(chǎn)部署的壓力意味著單個項目需要有可遵循的政策和最佳實踐,而不是必須自己做出所有正確的決策,這樣他們就可以專注于選擇模型等技術(shù)問題,而不是構(gòu)建基礎(chǔ)設(shè)施。
如果這聽起來像是平臺工程的原則,那是因為這樣你才能使人工智能成為一種能力,而不是一系列實驗。IDC的Saroff(薩羅夫)認為,你已經(jīng)完成的統(tǒng)一平臺工作流程為你提供了流程、API、數(shù)據(jù)和技術(shù)的支柱。你不是一遍又一遍地解決同樣的問題,而是交付包括GPU和加速器、多種計算類型、模型的可觀測性、API調(diào)用和應(yīng)用程序,以及成本管理和治理的基礎(chǔ)設(shè)施。
所有這些系統(tǒng)都需要將數(shù)據(jù)輸入到具有近實時反饋的可觀測性和優(yōu)化工具中。你不能等到收到每月的云賬單時才發(fā)現(xiàn)已經(jīng)超出預(yù)算,或者等到出現(xiàn)停機時才意識到依賴的API返回錯誤并且需要多次重試。API管理是跟蹤使用情況和優(yōu)化成本的關(guān)鍵。
而且你需要所有這些與現(xiàn)有的基礎(chǔ)設(shè)施和工作流程集成。Domino Data Lab的現(xiàn)場首席數(shù)據(jù)科學(xué)家Jarrod Vawdrey(賈羅德·沃德雷)認為:“每家公司都有同樣的問題。你需要人工智能來競爭,但你所有的實際業(yè)務(wù)都在早于iPhone出現(xiàn)的傳統(tǒng)基礎(chǔ)設(shè)施和軟件上運行。”
他將前置部署工程師定義為在期望的業(yè)務(wù)成果、傳統(tǒng)系統(tǒng)和現(xiàn)代人工智能能力之間應(yīng)對復(fù)雜性的“翻譯者”。“他們可以駕馭大型語言模型,并將其與20年來沒有人想碰的ERP系統(tǒng)集成。”
集成將是新的,但基本原則不是。技術(shù)研究和咨詢公司CCS Insight的企業(yè)研究主管Bola Rotibi(博拉·羅蒂比)表示,正確地進行IT工作才能讓你正確地進行人工智能工作。
好消息是,你可能已經(jīng)完成了一些繁重的工作,例如,為云使用精心設(shè)計的框架,因為人工智能應(yīng)用程序?qū)⒗^承這種冗余、異常處理和混沌工程。“如果你的架構(gòu)是為彈性而構(gòu)建的,那么很可能你已經(jīng)開始考慮支持人工智能所需的所有事情,”她說。
當然,所有這一切都將花費資金。IDC預(yù)測,到2027年,組織將意識到他們低估了人工智能基礎(chǔ)設(shè)施成本近三分之一,并將開始對其應(yīng)用FinOps(是一種將財務(wù)管理原則和實踐應(yīng)用于云計算和其他技術(shù)服務(wù)的方法,旨在優(yōu)化成本、提高效率和實現(xiàn)業(yè)務(wù)價值)。
但Rotibi(羅蒂比)建議,真正的彈性依賴于理解業(yè)務(wù)和運營背景,從而創(chuàng)造一個更綜合、協(xié)作的環(huán)境。雖然首席信息官們通常難以證明基礎(chǔ)設(shè)施投資的合理性,但將其與提供可靠和安全的人工智能聯(lián)系起來,使IT能夠繼續(xù)提供與業(yè)務(wù)優(yōu)先級一致的價值,而不是被視為成本中心。
作者:Mary Branscombe(瑪麗·布蘭斯科姆)
Mary Branscombe(瑪麗·布蘭斯科姆)是一名自由記者,三十多年來一直報道科技領(lǐng)域的新聞,撰寫的內(nèi)容涵蓋編程語言、早期版本的Windows和Office辦公軟件、網(wǎng)絡(luò)的興起,以及消費電子產(chǎn)品和家庭娛樂等各個方面。
譯者:寶藍