
【導讀】
2025年,AI的雄心正在超越數(shù)據(jù)的準備度。IBM的一項研究顯示,全球1700名CDO中,僅有26%的人對自己的數(shù)據(jù)能夠支持AI收入流感到自信。
這并非個例。長期以來的“應用孤島”策略,導致企業(yè)擁有海量數(shù)據(jù),卻缺乏統(tǒng)一的標準和治理。當AI需要動態(tài)、實時、細粒度的數(shù)據(jù)管道時,傳統(tǒng)架構顯得力不從心。
作為CIO,如何重建一個“AI-Ready”的數(shù)據(jù)戰(zhàn)略?我們結合IBM、IDC和Salesforce專家的建議,為您提煉了8個核心步驟。
傳統(tǒng)數(shù)據(jù)戰(zhàn)略是為BI報表設計的,而AI需要的是模型驅動的工作流。
痛點:數(shù)據(jù)碎片化、缺乏上下文元數(shù)據(jù)。
解法:建立集成的企業(yè)數(shù)據(jù)架構。無論數(shù)據(jù)誕生于何處(本地、云端、SaaS),都應適用同一套標準和治理。
技術棧:投資現(xiàn)代數(shù)據(jù)湖(Data Lakes)、數(shù)據(jù)湖倉(Lakehouses)和向量數(shù)據(jù)庫,以處理多模態(tài)數(shù)據(jù)。
誰擁有數(shù)據(jù)?這個問題在AI時代有了新答案。
舊模式:數(shù)據(jù)歸IT或特定業(yè)務部門“私有”。
新模式:將“數(shù)據(jù)所有者”重新定義為“數(shù)據(jù)管理者”(Data Stewards)。
原則:他們不擁有數(shù)據(jù)本身,而是擁有數(shù)據(jù)的意義和質量。數(shù)據(jù)是企業(yè)的公共資產,需在受控、安全的前提下實現(xiàn)民主化。
Thoughtworks首席AI官Shayan Mohanty指出,數(shù)據(jù)生產者和消費者之間存在巨大裂痕。
手段:采用“數(shù)據(jù)產品”思維。
工具:利用模型上下文協(xié)議(MCP)來包裝數(shù)據(jù),提供協(xié)議級訪問,讓AI能自動識別并調用所需數(shù)據(jù)。
非結構化數(shù)據(jù):將客戶通話、文檔等視為“一等公民”,通過向量數(shù)據(jù)庫進行標記和檢索,填補這一巨大的價值盲點。
Salesforce的Shibani Ahuja給出了最務實的建議:不要等到數(shù)據(jù)完美了再動手。
逆向工程:從你想要的AI業(yè)務結果出發(fā),倒推所需的數(shù)據(jù)支持。
增量實施:支持一個AI用例,建立相應的數(shù)據(jù)架構,跑通后,再擴展到下一個。快速上線、觀察、調整、擴展。
【結語】
AI時代的數(shù)據(jù)戰(zhàn)略,不再是收集和存儲一切,而是有意識的、價值驅動的。
CIO們,現(xiàn)在是時候打破孤島,建立跨職能的“數(shù)據(jù)+AI”生態(tài)系統(tǒng)了。只有當IT、安全和業(yè)務部門共享所有權時,AI的飛輪才能真正轉動起來。
隨著 AI 的雄心超越數(shù)據(jù)準備,CIO 們必須革新數(shù)據(jù)策略,打造統(tǒng)一且具備支持企業(yè)范圍應用場景的 AI 基礎。
圖源:Rob Schultz / Shutterstock
任何想要擁有領先AI戰(zhàn)略的組織,首先必須擁有一個成功的數(shù)據(jù)戰(zhàn)略。這是IBM副總裁兼首席數(shù)據(jù)官Ed Lovely傳遞的信息。
“當你考慮擴展AI時,數(shù)據(jù)是基礎,”他說。
然而,他表示,很少有組織擁有與其AI雄心相匹配的數(shù)據(jù)架構。相反,它們擁有的是孤島化的數(shù)據(jù),這些數(shù)據(jù)不受一致數(shù)據(jù)標準的管理——這是長期以來企業(yè)數(shù)據(jù)戰(zhàn)略的產物,這些戰(zhàn)略逐個應用地創(chuàng)建IT環(huán)境,旨在提供特定時間點的決策,而非支持企業(yè)范圍的人工智能部署。
IBM 2025年的研究《人工智能雄心激增,但企業(yè)數(shù)據(jù)準備好了嗎?》顯示了有多少企業(yè)在數(shù)據(jù)方面苦苦掙扎。研究發(fā)現(xiàn),全球1700名CDO中,僅有26%的人對自己的數(shù)據(jù)能夠支持新的AI收入流感到自信。
Lovely表示,需要的是一個集成的企業(yè)數(shù)據(jù)架構,在這個架構中,無論數(shù)據(jù)誕生于何處,都應用相同的標準、治理和元數(shù)據(jù)。
Lovely并非唯一看到組織需要更新數(shù)據(jù)戰(zhàn)略的人。
“大多數(shù)組織需要現(xiàn)代化其數(shù)據(jù)戰(zhàn)略,因為AI不僅改變了數(shù)據(jù)的使用方式,還改變了數(shù)據(jù)被使用的原因以及價值創(chuàng)造的地點,”IDC全球DataSphere和Global StorageSphere研究項目的研究經(jīng)理、2025年報告《生成式人工智能時代的內容創(chuàng)作》的合著者Adam Wright說。
“傳統(tǒng)的數(shù)據(jù)戰(zhàn)略是為報表、BI(商業(yè)智能)和自動化構建的,但AI需要更加動態(tài)、細粒度且實時的數(shù)據(jù)管道,以推動迭代的、模型驅動的工作流。這意味著從靜態(tài)數(shù)據(jù)治理轉向持續(xù)的數(shù)據(jù)質量監(jiān)控、更強的元數(shù)據(jù)和血緣(lineage)追蹤,以及反映AI混合了臨時、緩存和保存數(shù)據(jù)的保留策略,”他說。“AI時代要求組織從‘收集/存儲一切’的心態(tài),進化為有意識的、價值驅動的數(shù)據(jù)戰(zhàn)略,平衡成本、風險和他們想要實現(xiàn)的具體AI成果。”
一、高成熟度數(shù)據(jù)基礎
大多數(shù)組織距離這一目標還很遠。
“許多組織在擁有‘正確’數(shù)據(jù)方面繼續(xù)掙扎,無論是意味著足夠的體量、適當?shù)馁|量,還是支持AI用例所需的上下文元數(shù)據(jù),”Wright說?!霸贗DC的研究和行業(yè)對話中,數(shù)據(jù)準備度始終是實現(xiàn)AI價值的首要障礙之一,往往超過了計算成本或模型選擇。大多數(shù)企業(yè)仍在處理碎片化的系統(tǒng)、不一致的治理,以及對其實際擁有的數(shù)據(jù)及其可信度缺乏可見性?!?/span>
Lovely表示,IBM曾面臨許多此類挑戰(zhàn),但過去三年致力于解決這些問題,使其數(shù)據(jù)為AI做好準備。
IBM在AI時代的數(shù)據(jù)戰(zhàn)略包括對長期方法的多次調整,使其能夠構建Lovely所稱的集成企業(yè)數(shù)據(jù)架構。例如,公司保留了數(shù)據(jù)所有者的概念,但“幫助他們理解數(shù)據(jù)是IBM的資產,如果我們能以受控、安全的方式使其民主化,我們就能以更好、更高效的方式運營業(yè)務,”Lovely說。
結果,IBM從由多個團隊管理孤島數(shù)據(jù),轉變?yōu)槭褂猛ㄓ脴藴屎屯ㄓ眉軜嫷膯我粓F隊。企業(yè)領導者還整合了300TB的數(shù)據(jù),根據(jù)公司尋求的成果以及驅動這些成果的工作流來選擇所需的數(shù)據(jù)。
“我們是有意為之的,”Lovely說,并補充道其數(shù)據(jù)平臺現(xiàn)在覆蓋了約80%的IBM工作流。“如今企業(yè)最大的生產力解鎖之一就是創(chuàng)建一個集成的企業(yè)數(shù)據(jù)架構。因為我們在數(shù)據(jù)上的投資,我們正在公司內迅速部署AI?!?/span>
二、構建更好數(shù)據(jù)戰(zhàn)略的8個建議
為了在數(shù)據(jù)基礎和數(shù)據(jù)消費能力上建立高成熟度,組織需要一個AI時代的數(shù)據(jù)戰(zhàn)略——一個能夠強制執(zhí)行數(shù)據(jù)質量、打破數(shù)據(jù)孤島,并將數(shù)據(jù)能力與業(yè)務優(yōu)先的AI用例相對齊的戰(zhàn)略。
專家們提供了以下步驟:
1. 重新思考數(shù)據(jù)所有權
“當業(yè)務部門、產品團隊和AI平臺都在持續(xù)生成和轉換數(shù)據(jù)時,將數(shù)據(jù)所有權視為純粹IT問題的傳統(tǒng)模式已不再奏效,”Wright解釋道?!袄硐肭闆r下,明確的問責制應由高級數(shù)據(jù)領導者(如CDO)承擔,但沒有CDO的組織必須確保數(shù)據(jù)治理職責在IT、安全和業(yè)務部門之間明確分配。”
他補充說,擁有“一個定義策略的單一權威點和一個執(zhí)行的聯(lián)邦模式至關重要,這樣業(yè)務部門既能獲得授權,又不會不受約束。”
圣托馬斯大學軟件工程與數(shù)據(jù)科學系教授兼系主任、應用人工智能中心主任Manjeet Rege建議組織將數(shù)據(jù)所有者重新定義為數(shù)據(jù)管理者(data stewards)。他們不擁有數(shù)據(jù),而是基于中央數(shù)據(jù)職能部門設定的標準、治理、安全和互操作性,擁有數(shù)據(jù)的意義和質量。
2. 打破孤島
要做到這一點,“CIO需要圍繞共享的AI和數(shù)據(jù)成果來協(xié)調業(yè)務部門,因為只有當工作流、流程和數(shù)據(jù)源在整個企業(yè)內連接起來時,生成式AI才能創(chuàng)造價值,”Wright說。
“這意味著建立跨職能治理,標準化分類法和策略,并為團隊創(chuàng)造共享數(shù)據(jù)而非保護數(shù)據(jù)的激勵機制,”他補充道?!凹夹g通過統(tǒng)一平臺、元數(shù)據(jù)層和通用安全框架提供幫助,但真正的解鎖來自于最高管理層(C-suite)和業(yè)務利益相關者的協(xié)調領導。”
3. 投資于AI時代的數(shù)據(jù)技術
Wright表示,這些技術包括現(xiàn)代數(shù)據(jù)湖(data lakes)和數(shù)據(jù)湖倉(data lakehouses)、向量數(shù)據(jù)庫(vector databases)和可擴展的對象存儲,所有這些“都能在強有力的治理下處理海量的多模態(tài)數(shù)據(jù)。”
組織還需要編排和管道工具,自動化攝取、清洗、轉換和移動,以便AI工作流能端到端可靠運行。元數(shù)據(jù)引擎和治理層對于使模型理解上下文、追蹤血緣,并安全可靠地使用結構化和非結構化數(shù)據(jù)至關重要。
Rege建議構建一個“模塊化、受控且能夠演進”的數(shù)據(jù)平臺層?!澳阈枰环N架構,能將數(shù)據(jù)視為可復用的產品,而不僅僅是為了單一管道,并且可用于批處理和實時需求。”
Rege也支持數(shù)據(jù)湖和數(shù)據(jù)湖倉,稱它們“正在成為AI的骨干,因為它們能處理結構化和非結構化數(shù)據(jù)?!?/span>
此外,Thoughtworks首席AI和數(shù)據(jù)官Shayan Mohanty建議CIO構建一個可組合企業(yè)(composable enterprise),利用模塊化技術和靈活結構,使人類和AI能夠跨多層訪問數(shù)據(jù)并協(xié)作。
專家還建議CIO投資于能夠解決新興數(shù)據(jù)生命周期需求的技術。
“生成式AI正在從根本上重塑數(shù)據(jù)生命周期,創(chuàng)造出一種更加動態(tài)的混合體,包含臨時、緩存和持久存儲的內容。大多數(shù)生成式AI輸出是短暫的,僅使用幾秒、幾分鐘或幾小時,這增加了對DRAM和SSD等高性能基礎設施的需求,以處理快速迭代、緩存和易失性工作流,”Wright說。
“但與此同時,生成式AI輸出中有意義的一部分確實會持久化,例如定稿文檔、獲批的媒體資產、合成訓練數(shù)據(jù)集和合規(guī)相關內容,這些仍然嚴重依賴具有成本效益的高容量HDD進行長期存儲,”他補充道?!半S著生成式AI采用率的增長,組織將需要適應這種全生命周期的數(shù)據(jù)戰(zhàn)略——從用于臨時內容的超快內存到用于持久歸檔的穩(wěn)健HDD系統(tǒng),因為存儲負擔/動態(tài)正在發(fā)生轉移?!?/span>
4. 自動化并為數(shù)據(jù)架構增加智能
Mohanty將企業(yè)數(shù)據(jù)狀況不佳歸咎于“數(shù)據(jù)生產者和數(shù)據(jù)消費者之間的裂痕”,產生的數(shù)據(jù)被“扔進某處的巨大堆里,即所謂的數(shù)據(jù)倉庫”,然后再創(chuàng)建分析層來利用它。他指出,這種方法需要大量的人類知識和手動努力才能奏效。
他建議組織采用數(shù)據(jù)產品思維(data product mindset),“拉近數(shù)據(jù)生產者和消費者的距離”,并向企業(yè)架構中添加自動化和智能,以便AI在需要時能識別并訪問正確的數(shù)據(jù)。
Mohanty說,CIO可以使用模型上下文協(xié)議(MCP)來包裝數(shù)據(jù)并提供協(xié)議級訪問,并指出這種訪問要求組織在目錄和工具中編碼信息,以確數(shù)據(jù)可發(fā)現(xiàn)性。
5. 確保結構化和非結構化數(shù)據(jù)都具備AI就緒性
“當結構化數(shù)據(jù)格式一致、治理良好并富含準確的元數(shù)據(jù)時,它就是AI就緒的,使模型易于理解和使用,”Wright說?!敖M織應優(yōu)先考慮強有力的數(shù)據(jù)質量控制、主數(shù)據(jù)管理和明確的所有權,以確保結構化數(shù)據(jù)集保持可靠、可互操作并與特定AI用例對齊?!?/span>
專家強調,需要將同樣的紀律帶入非結構化數(shù)據(jù),確保非結構化數(shù)據(jù)也得到適當?shù)臉擞?、分類并豐富元數(shù)據(jù),以便AI系統(tǒng)能夠有效地理解和檢索它。
“你需要將非結構化數(shù)據(jù)視為一等數(shù)據(jù)資產,”Rege說?!按蠖鄶?shù)最有趣的AI用例都存在于非結構化數(shù)據(jù)中,如客戶服務音頻通話、消息和文檔,但對于許多組織來說,非結構化數(shù)據(jù)仍然是一個盲點?!?/span>
Rege建議將其存儲在信息可搜索的向量數(shù)據(jù)庫中。
6. 考慮外部數(shù)據(jù)源和合成數(shù)據(jù)
“當現(xiàn)有數(shù)據(jù)不完整、有偏見、太小或與試圖追求的AI用例對齊不佳時,組織絕對應評估是否需要外部或合成數(shù)據(jù)(synthetic data),”Wright說,并指出“當真實數(shù)據(jù)敏感、收集成本高昂或受隱私、監(jiān)管或運營限制時,合成數(shù)據(jù)尤為有用?!?/span>
7. 逐步實施高成熟度數(shù)據(jù)基礎
Salesforce企業(yè)IT戰(zhàn)略高級副總裁Shibani Ahuja表示,不要等到數(shù)據(jù)處于完美狀態(tài)才開始。
“有些組織覺得必須先把所有數(shù)據(jù)都弄好才能扣動扳機,但他們也面臨著開啟旅程的壓力,”她說。
正如大多數(shù)企業(yè)項目成熟過程一樣,CIO及其高管同事可以——也應該——采取增量方法來構建AI時代的數(shù)據(jù)項目。
Ahuja建議通過一個接一個的結果(outcome to outcome)來完善數(shù)據(jù)項目,創(chuàng)建一個數(shù)據(jù)戰(zhàn)略和架構來支持一個AI驅動的結果,然后再推進后續(xù)的。
“這是一種思維方式:從你需要的東西進行逆向工程,”Ahuja說?!鞍涯承〇|西投入生產,確保你有正確的護欄,觀察它,調整它使其擴展,然后再投入下一個?!?/span>
8. 采取跨職能的數(shù)據(jù)團隊建設方法
“數(shù)據(jù)應由一個跨職能生態(tài)系統(tǒng)支持,包括IT、數(shù)據(jù)治理、安全以及實際使用數(shù)據(jù)驅動決策的業(yè)務部門,”Wright說?!爱斶@些團隊共享所有權時,AI時代的數(shù)據(jù)戰(zhàn)略效果最佳:IT團隊賦能基礎設施,治理團隊確保信任和質量,業(yè)務團隊定義背景和價值?!?/span>
作者:Mary K. Pratt(瑪麗·K·普拉特)
Mary K. Pratt(瑪麗·K·普拉特)是馬薩諸塞州的一名自由撰稿人。
譯者:寶藍 ?編審:@lex