
一、 數(shù)據(jù)的真相:人人都有,但并非都有用
企業(yè)并不缺乏數(shù)據(jù)——代碼庫、文檔、提案、合同、客戶數(shù)據(jù)庫浩如煙海。但這些數(shù)據(jù)真的能直接“喂”給 AI 嗎? 根據(jù)波士頓咨詢集團(BCG)和思科的調(diào)查,68% 的決策者認(rèn)為缺乏高質(zhì)量數(shù)據(jù)是關(guān)鍵挑戰(zhàn),僅有 35% 的企業(yè)擁有干凈、集中且可供 AI 實時集成的數(shù)據(jù)。IDC更是預(yù)測,到 2027 年,忽視數(shù)據(jù)質(zhì)量將導(dǎo)致 AI 擴展受阻,直接造成 15% 的生產(chǎn)力損失。
二、?CIO面臨的三大數(shù)據(jù)陷阱
2.1語義的泥沼(Semantic Confusion)
當(dāng)企業(yè)通過并購或新項目積累了多個數(shù)據(jù)源,同一類型的信息(如“客戶”)往往有著不同的定義和結(jié)構(gòu)。如果缺乏統(tǒng)一的語義映射,AI 模型就會在相互沖突的標(biāo)準(zhǔn)中“迷路”。
專家建議:即使數(shù)據(jù)看起來很干凈,也要進行語義映射練習(xí)。先從一個小數(shù)據(jù)量的用例開始,做對之后再擴展。
2.2非結(jié)構(gòu)化的混亂(Unstructured Chaos)
將 OneDrive 或文件存儲直接連接到聊天機器人聽起來很美,但后果往往是災(zāi)難性的。AI 難以區(qū)分“項目計劃_v2”和“項目計劃_v2_最終版”。過時的文檔和未編輯的草稿會嚴(yán)重污染 AI 的輸出。
2.3安全的后門(Security Blind Spots)
這是一個常被忽視的巨大風(fēng)險。傳統(tǒng)的軟件界面有嚴(yán)格的輸入限制(例如數(shù)字字段不能輸入字母),但 AI 代理(Agentic AI)通過?MCP?服務(wù)器自主查詢數(shù)據(jù)庫時,它可能繞過這些傳統(tǒng)的 UI 防護。
現(xiàn)狀:僅有 27% 的企業(yè)擁有動態(tài)且詳細(xì)的 AI 訪問控制。當(dāng)所有數(shù)據(jù)被一股腦倒入數(shù)據(jù)湖時,細(xì)粒度的權(quán)限控制就失效了。
三、 速度陷阱:欲速則不達(dá)
Sutherland Global 的 CIO Doug Gilbert 指出,CIO 們犯的最大錯誤就是“跑得太快”。許多人將數(shù)據(jù)治理和測試視為拖慢進度的障礙,這完全是誤解。?如果在沒有完善基礎(chǔ)設(shè)施和測試的情況下匆忙上線,最終只會被審計叫停,甚至被迫推倒重來。記?。?/span>建立正確的基礎(chǔ)設(shè)施不是減速,而是為了后續(xù)能安全地加速。
四、 破局:用 AI 治理 AI
雖然數(shù)據(jù)問題看似無解,但 AI 本身也許就是解藥。Unisys?的高管 Manju Naglapur 認(rèn)為,AI 工具正變得越來越成熟,它們可以幫助企業(yè)在 12 到 18 個月內(nèi)完成過去需要三年才能完成的數(shù)據(jù)清理和整合工作,實現(xiàn)真正的 360 度客戶視圖。
結(jié)語:2026 年,區(qū)分 AI 項目成敗的關(guān)鍵不在于誰的模型更聰明,而在于誰的數(shù)據(jù)底座更堅實。別讓你的 AI 輸在起跑線上——現(xiàn)在就開始清洗你的數(shù)據(jù)。
多年來,公司一直在收集數(shù)據(jù),希望有朝一日能派上用場。隨著生成式人工智能(Gen AI)的到來,時機已經(jīng)成熟,但艱難的工作才剛剛開始。
生成式 AI 正成為幾乎顛覆所有行業(yè)的力量,但僅使用最好的 AI 模型和工具是不夠的。大家都在使用相同的模型,真正能創(chuàng)造競爭優(yōu)勢的是能夠訓(xùn)練和微調(diào)你自己的模型,或者為模型提供獨特的背景上下文,而這需要數(shù)據(jù)。
貴公司龐大的代碼庫、文檔和變更日志?那是你的編碼智能體(Coding Agents)的燃料。你過去的提案和合同庫?那是你的寫作助手的素材。你的客戶數(shù)據(jù)庫和支持工單?那是你的客戶服務(wù)聊天機器人的知識庫。
但僅僅因為這些數(shù)據(jù)存在,并不意味著它們是好數(shù)據(jù)。
“將模型指向任何可用的數(shù)據(jù)是非常容易的,” Unisys 云、應(yīng)用和基礎(chǔ)設(shè)施解決方案高級副總裁兼總經(jīng)理 Manju Naglapur 表示,“在過去三年里,我們一次又一次地看到這種錯誤。那句老話‘垃圾進,垃圾出’依然適用?!?/span>
根據(jù)波士頓咨詢集團(BCG)去年 9 月發(fā)布的一項調(diào)查,在 1250 名高級人工智能決策者中,有 68% 的人表示,缺乏高質(zhì)量數(shù)據(jù)的訪問權(quán)限是采用 AI 時面臨的關(guān)鍵挑戰(zhàn)。其他最新研究也證實了這一點。在思科 10 月份對 8000 多名 AI 領(lǐng)導(dǎo)者的調(diào)查中,只有 35% 的公司擁有干凈、集中化且能與 AI?智能體實時集成的數(shù)據(jù)。根據(jù) IDC 的數(shù)據(jù),到 2027 年,那些不優(yōu)先考慮高質(zhì)量、AI 就緒(AI-ready)數(shù)據(jù)的公司,將難以擴展生成式 AI 和代理式解決方案,從而導(dǎo)致生產(chǎn)力下降 15%。
一、語義層的混亂
將所有數(shù)據(jù)混合使用的另一個問題是語義層會變得混亂。當(dāng)數(shù)據(jù)來自多個來源時,同一類型的信息可能以多種方式定義和結(jié)構(gòu)化。隨著新項目或并購導(dǎo)致數(shù)據(jù)源數(shù)量激增,挑戰(zhàn)也隨之加劇。對于許多公司來說,僅僅是追蹤“客戶”這一最關(guān)鍵的數(shù)據(jù)類型以及處理基本數(shù)據(jù)問題,都非常困難。
鄧白氏(Dun & Bradstreet)去年報告稱,超過一半的受訪組織對他們用于 AI 的數(shù)據(jù)質(zhì)量和可信度表示擔(dān)憂。例如,在金融服務(wù)行業(yè),52% 的公司表示 AI 項目失敗是因為數(shù)據(jù)質(zhì)量差。根據(jù)去年 12 月發(fā)布的一項針對 2000 多名行業(yè)專業(yè)人士的調(diào)查,44% 的人認(rèn)為數(shù)據(jù)質(zhì)量是他們 2026 年最大的關(guān)注點,僅次于網(wǎng)絡(luò)安全。
云咨詢公司 Lemongrass 的首席技術(shù)官 Eamonn O'Neill 表示,擁有多個相互沖突的數(shù)據(jù)標(biāo)準(zhǔn)對每個人來說都是挑戰(zhàn)。
“每一次不匹配都是風(fēng)險,”他說,“但人類總能找到繞過的方法。”
他補充說,如果你了解挑戰(zhàn)所在,并投入時間和精力去解決,人工智能也可以被配置來處理類似的問題。即使數(shù)據(jù)是干凈的,公司仍應(yīng)進行語義映射練習(xí)。如果數(shù)據(jù)不完美,整理它則需要時間。
“拿一個數(shù)據(jù)量小的用例,把它做對,”他說,“這是可行的。然后再進行擴展。這才是成功應(yīng)用(Adoption)該有的樣子?!?/span>
二、無管理且非結(jié)構(gòu)化的數(shù)據(jù)
O'Neill 說,公司在將 AI 連接到企業(yè)信息時犯的另一個錯誤是,將 AI 指向非結(jié)構(gòu)化的數(shù)據(jù)源。誠然,大語言模型(LLM)非常擅長讀取非結(jié)構(gòu)化數(shù)據(jù)并理解文本和圖像。問題在于,并非所有文檔都值得 AI 去關(guān)注。
例如,文檔可能已經(jīng)過時。或者它們可能是尚未編輯的早期版本,甚至包含錯誤。
“人們經(jīng)??吹竭@種情況,”他說,“我們將你的 OneDrive 或文件存儲連接到聊天機器人,突然之間它分不清‘版本 2’和‘版本 2 最終版’的區(qū)別。”
他補充說,對于人類用戶來說,保持適當(dāng)?shù)陌姹究刂品浅@щy?!拔④浛梢詭湍闾幚聿煌姹?,但人們?nèi)匀涣?xí)慣用‘另存為’,最終你會得到大量混亂的非結(jié)構(gòu)化數(shù)據(jù),”O(jiān)'Neill 說。
三、被忽視的安全問題
當(dāng) CIO 們通常思考與 AI 系統(tǒng)相關(guān)的安全性時,他們可能會考慮模型的護欄,或者對訓(xùn)練數(shù)據(jù)及 RAG(檢索增強生成)嵌入數(shù)據(jù)進行保護。但隨著基于聊天機器人的 AI 演變?yōu)樽灾髦悄荏w AI(Agentic AI),安全問題變得更加復(fù)雜。
舉個例子,假設(shè)有一個員工薪資數(shù)據(jù)庫。如果員工對薪資有疑問,向嵌入其 AI 門戶的聊天機器人提問,傳統(tǒng)的 RAG 方法是使用傳統(tǒng)代碼從數(shù)據(jù)庫僅收集相關(guān)數(shù)據(jù),將其嵌入提示詞中,然后將查詢發(fā)送給 AI。AI 只看到它被允許看到的信息,而傳統(tǒng)的、確定性的軟件棧則負(fù)責(zé)保護其余員工數(shù)據(jù)的安全。
但當(dāng)系統(tǒng)演變?yōu)榇硎较到y(tǒng)時,AI 智能體可以通過 MCP(模型上下文協(xié)議)服務(wù)器自主查詢數(shù)據(jù)庫。由于它們需要能夠回答任何員工的問題,因此需要訪問所有員工數(shù)據(jù),防止數(shù)據(jù)落入錯誤之手就成了一項艱巨的任務(wù)。
根據(jù)思科的調(diào)查,只有 27% 的公司擁有針對 AI 系統(tǒng)的動態(tài)且詳細(xì)的訪問控制,且不到一半的公司對保護敏感數(shù)據(jù)或防止未經(jīng)授權(quán)的訪問有信心。
O'Neill 說,如果所有數(shù)據(jù)都被收集到一個數(shù)據(jù)湖中,情況會更加復(fù)雜。
“如果你輸入了來自許多不同來源的數(shù)據(jù),每個獨立來源可能都有自己的安全模型,”他說,“當(dāng)你把所有東西堆進塊存儲時,你就失去了那種細(xì)粒度的控制能力?!?/span>
事后嘗試添加安全層可能會很困難。他說,解決方案是直接訪問原始數(shù)據(jù)源,完全跳過數(shù)據(jù)湖。
“過去的做法是永遠(yuǎn)保留歷史數(shù)據(jù),因為存儲成本極低,而且機器學(xué)習(xí)可以從中發(fā)現(xiàn)長期模式和趨勢,”他說,“此外,如果混合不同來源的數(shù)據(jù),還可以發(fā)現(xiàn)跨領(lǐng)域的模式?!?/span>
數(shù)字化轉(zhuǎn)型咨詢公司 Sutherland Global 的 CIO 兼 CDO Doug Gilbert 表示,一般來說,當(dāng)參與者從人類變成 AI 智能體時,數(shù)據(jù)訪問會發(fā)生巨大變化。
“對于人類來說,圍繞著操作者有著大量的安全措施,”他說,“例如,大多數(shù)用戶界面都經(jīng)過編寫,如果是僅限數(shù)字的字段,你就無法輸入字母。但一旦你接入了 AI,這些限制都消失了。這相當(dāng)于給你的系統(tǒng)開了一個原始的后門?!?/strong>
四、速度陷阱
但 Gilbert 認(rèn)為 CIO 們犯的第一大錯誤就是動作太快?!斑@就是大多數(shù)項目失敗的原因,”他說,“這就好比一場競速賽。”
他補充道,CIO 們常常將解決數(shù)據(jù)問題視為拖慢進度,但忽略這些問題會帶來巨大的風(fēng)險。“很多做人工智能項目的人都會面臨審計,到時候他們將不得不停下來,把所有事情推倒重來,”他說。
所以,把數(shù)據(jù)做對并不意味著變慢?!爱?dāng)你建立了合適的基礎(chǔ)設(shè)施時,你就能加速創(chuàng)新進程,順利通過審計,并確保持續(xù)合規(guī),”他說。
另一個可能讓人覺得浪費時間的領(lǐng)域是測試。在 AI 領(lǐng)域,“快速行動、打破常規(guī)(Move fast and break things)”然后部署后再修復(fù),并不總是明智的策略。
“一個以光速傳播的錯誤,代價是什么?”他問道,“我總是會先進行測試。令人驚訝的是,我們看到有多少產(chǎn)品在沒有任何測試的情況下就被推向了市場?!?/span>
五、利用 AI 修復(fù)數(shù)據(jù)
缺乏高質(zhì)量數(shù)據(jù)可能讓人覺得是一個無解的問題,而且隨著 AI 應(yīng)用場景的擴大,情況只會變得更糟。
根據(jù) AvePoint 10 月份基于對 775 位全球企業(yè)領(lǐng)袖的調(diào)查發(fā)布的報告,81% 的組織已因數(shù)據(jù)管理或數(shù)據(jù)安全問題推遲了 AI 助手的部署,平均延遲了六個月。
與此同時,不僅 AI 項目數(shù)量持續(xù)增長,數(shù)據(jù)量也在激增。近 52% 的受訪者表示他們的公司管理著超過 500PB 的數(shù)據(jù),而一年前這一比例僅為 41%。
但 Unisys 的 Naglapur 表示,借助 AI,獲得客戶的 360 度全景視圖,以及清理和協(xié)調(diào)其他數(shù)據(jù)源將變得更加容易。
“這就是悖論所在,”他說,“AI 會幫你解決一切。如果你以此前需要三年才能完成的數(shù)字化轉(zhuǎn)型為例,現(xiàn)在利用 AI,你可以在 12 到 18 個月內(nèi)完成?!彼f,這些工具正逐漸接近實用階段,它們將加速變革的步伐。