2026年AI決勝關(guān)鍵：為什么說“垃圾進，垃圾出”依然是鐵律？

作者：CIO.com&睿觀來源：CIOCDO 發(fā)布時間：2026年01月19日點擊數(shù)：

導(dǎo)語：當(dāng)生成式 AI（Gen AI）席卷各行各業(yè)，企業(yè)都在爭先恐后地部署最新的模型。然而，2026年的競爭壁壘不再是擁有最好的模型，而是擁有最好的數(shù)據(jù)。當(dāng)“幻覺”褪去，我們發(fā)現(xiàn)那個古老的計算機科學(xué)定律依然統(tǒng)治著一切：垃圾進，垃圾出（Garbage In, Garbage Out）。

一、數(shù)據(jù)的真相：人人都有，但并非都有用

企業(yè)并不缺乏數(shù)據(jù)——代碼庫、文檔、提案、合同、客戶數(shù)據(jù)庫浩如煙海。但這些數(shù)據(jù)真的能直接“喂”給 AI 嗎？根據(jù)波士頓咨詢集團（BCG）和思科的調(diào)查，68% 的決策者認(rèn)為缺乏高質(zhì)量數(shù)據(jù)是關(guān)鍵挑戰(zhàn)，僅有 35% 的企業(yè)擁有干凈、集中且可供 AI 實時集成的數(shù)據(jù)。IDC更是預(yù)測，到 2027 年，忽視數(shù)據(jù)質(zhì)量將導(dǎo)致 AI 擴展受阻，直接造成 15% 的生產(chǎn)力損失。

二、?CIO面臨的三大數(shù)據(jù)陷阱

2.1語義的泥沼（Semantic Confusion）

當(dāng)企業(yè)通過并購或新項目積累了多個數(shù)據(jù)源，同一類型的信息（如“客戶”）往往有著不同的定義和結(jié)構(gòu)。如果缺乏統(tǒng)一的語義映射，AI 模型就會在相互沖突的標(biāo)準(zhǔn)中“迷路”。

專家建議：即使數(shù)據(jù)看起來很干凈，也要進行語義映射練習(xí)。先從一個小數(shù)據(jù)量的用例開始，做對之后再擴展。

2.2非結(jié)構(gòu)化的混亂（Unstructured Chaos）

將 OneDrive 或文件存儲直接連接到聊天機器人聽起來很美，但后果往往是災(zāi)難性的。AI 難以區(qū)分“項目計劃_v2”和“項目計劃_v2_最終版”。過時的文檔和未編輯的草稿會嚴(yán)重污染 AI 的輸出。

2.3安全的后門（Security Blind Spots）

這是一個常被忽視的巨大風(fēng)險。傳統(tǒng)的軟件界面有嚴(yán)格的輸入限制（例如數(shù)字字段不能輸入字母），但 AI 代理（Agentic AI）通過?MCP?服務(wù)器自主查詢數(shù)據(jù)庫時，它可能繞過這些傳統(tǒng)的 UI 防護。

現(xiàn)狀：僅有 27% 的企業(yè)擁有動態(tài)且詳細(xì)的 AI 訪問控制。當(dāng)所有數(shù)據(jù)被一股腦倒入數(shù)據(jù)湖時，細(xì)粒度的權(quán)限控制就失效了。

三、速度陷阱：欲速則不達(dá)

Sutherland Global 的 CIO Doug Gilbert 指出，CIO 們犯的最大錯誤就是“跑得太快”。許多人將數(shù)據(jù)治理和測試視為拖慢進度的障礙，這完全是誤解。?如果在沒有完善基礎(chǔ)設(shè)施和測試的情況下匆忙上線，最終只會被審計叫停，甚至被迫推倒重來。記?。?/span>建立正確的基礎(chǔ)設(shè)施不是減速，而是為了后續(xù)能安全地加速。

四、破局：用 AI 治理 AI

雖然數(shù)據(jù)問題看似無解，但 AI 本身也許就是解藥。Unisys?的高管 Manju Naglapur 認(rèn)為，AI 工具正變得越來越成熟，它們可以幫助企業(yè)在 12 到 18 個月內(nèi)完成過去需要三年才能完成的數(shù)據(jù)清理和整合工作，實現(xiàn)真正的 360 度客戶視圖。

結(jié)語：2026 年，區(qū)分 AI 項目成敗的關(guān)鍵不在于誰的模型更聰明，而在于誰的數(shù)據(jù)底座更堅實。別讓你的 AI 輸在起跑線上——現(xiàn)在就開始清洗你的數(shù)據(jù)。

全文：說到人工智能，并非所有數(shù)據(jù)都生而平等

多年來，公司一直在收集數(shù)據(jù)，希望有朝一日能派上用場。隨著生成式人工智能（Gen AI）的到來，時機已經(jīng)成熟，但艱難的工作才剛剛開始。

生成式 AI 正成為幾乎顛覆所有行業(yè)的力量，但僅使用最好的 AI 模型和工具是不夠的。大家都在使用相同的模型，真正能創(chuàng)造競爭優(yōu)勢的是能夠訓(xùn)練和微調(diào)你自己的模型，或者為模型提供獨特的背景上下文，而這需要數(shù)據(jù)。

貴公司龐大的代碼庫、文檔和變更日志？那是你的編碼智能體（Coding Agents）的燃料。你過去的提案和合同庫？那是你的寫作助手的素材。你的客戶數(shù)據(jù)庫和支持工單？那是你的客戶服務(wù)聊天機器人的知識庫。

但僅僅因為這些數(shù)據(jù)存在，并不意味著它們是好數(shù)據(jù)。

“將模型指向任何可用的數(shù)據(jù)是非常容易的，” Unisys 云、應(yīng)用和基礎(chǔ)設(shè)施解決方案高級副總裁兼總經(jīng)理 Manju Naglapur 表示，“在過去三年里，我們一次又一次地看到這種錯誤。那句老話‘垃圾進，垃圾出’依然適用?！?/span>

根據(jù)波士頓咨詢集團（BCG）去年 9 月發(fā)布的一項調(diào)查，在 1250 名高級人工智能決策者中，有 68% 的人表示，缺乏高質(zhì)量數(shù)據(jù)的訪問權(quán)限是采用 AI 時面臨的關(guān)鍵挑戰(zhàn)。其他最新研究也證實了這一點。在思科 10 月份對 8000 多名 AI 領(lǐng)導(dǎo)者的調(diào)查中，只有 35% 的公司擁有干凈、集中化且能與 AI?智能體實時集成的數(shù)據(jù)。根據(jù) IDC 的數(shù)據(jù)，到 2027 年，那些不優(yōu)先考慮高質(zhì)量、AI 就緒（AI-ready）數(shù)據(jù)的公司，將難以擴展生成式 AI 和代理式解決方案，從而導(dǎo)致生產(chǎn)力下降 15%。

一、語義層的混亂

將所有數(shù)據(jù)混合使用的另一個問題是語義層會變得混亂。當(dāng)數(shù)據(jù)來自多個來源時，同一類型的信息可能以多種方式定義和結(jié)構(gòu)化。隨著新項目或并購導(dǎo)致數(shù)據(jù)源數(shù)量激增，挑戰(zhàn)也隨之加劇。對于許多公司來說，僅僅是追蹤“客戶”這一最關(guān)鍵的數(shù)據(jù)類型以及處理基本數(shù)據(jù)問題，都非常困難。

鄧白氏（Dun & Bradstreet）去年報告稱，超過一半的受訪組織對他們用于 AI 的數(shù)據(jù)質(zhì)量和可信度表示擔(dān)憂。例如，在金融服務(wù)行業(yè)，52% 的公司表示 AI 項目失敗是因為數(shù)據(jù)質(zhì)量差。根據(jù)去年 12 月發(fā)布的一項針對 2000 多名行業(yè)專業(yè)人士的調(diào)查，44% 的人認(rèn)為數(shù)據(jù)質(zhì)量是他們 2026 年最大的關(guān)注點，僅次于網(wǎng)絡(luò)安全。

云咨詢公司 Lemongrass 的首席技術(shù)官 Eamonn O'Neill 表示，擁有多個相互沖突的數(shù)據(jù)標(biāo)準(zhǔn)對每個人來說都是挑戰(zhàn)。

“每一次不匹配都是風(fēng)險，”他說，“但人類總能找到繞過的方法。”

他補充說，如果你了解挑戰(zhàn)所在，并投入時間和精力去解決，人工智能也可以被配置來處理類似的問題。即使數(shù)據(jù)是干凈的，公司仍應(yīng)進行語義映射練習(xí)。如果數(shù)據(jù)不完美，整理它則需要時間。

“拿一個數(shù)據(jù)量小的用例，把它做對，”他說，“這是可行的。然后再進行擴展。這才是成功應(yīng)用（Adoption）該有的樣子?！?/span>

二、無管理且非結(jié)構(gòu)化的數(shù)據(jù)

O'Neill 說，公司在將 AI 連接到企業(yè)信息時犯的另一個錯誤是，將 AI 指向非結(jié)構(gòu)化的數(shù)據(jù)源。誠然，大語言模型（LLM）非常擅長讀取非結(jié)構(gòu)化數(shù)據(jù)并理解文本和圖像。問題在于，并非所有文檔都值得 AI 去關(guān)注。

例如，文檔可能已經(jīng)過時。或者它們可能是尚未編輯的早期版本，甚至包含錯誤。

“人們經(jīng)?？吹竭@種情況，”他說，“我們將你的 OneDrive 或文件存儲連接到聊天機器人，突然之間它分不清‘版本 2’和‘版本 2 最終版’的區(qū)別。”

他補充說，對于人類用戶來說，保持適當(dāng)?shù)陌姹究刂品浅＠щy?！拔④浛梢詭湍闾幚聿煌姹?，但人們?nèi)匀涣?xí)慣用‘另存為’，最終你會得到大量混亂的非結(jié)構(gòu)化數(shù)據(jù)，”O(jiān)'Neill 說。

三、被忽視的安全問題

當(dāng) CIO 們通常思考與 AI 系統(tǒng)相關(guān)的安全性時，他們可能會考慮模型的護欄，或者對訓(xùn)練數(shù)據(jù)及 RAG（檢索增強生成）嵌入數(shù)據(jù)進行保護。但隨著基于聊天機器人的 AI 演變?yōu)樽灾髦悄荏w AI（Agentic AI），安全問題變得更加復(fù)雜。

舉個例子，假設(shè)有一個員工薪資數(shù)據(jù)庫。如果員工對薪資有疑問，向嵌入其 AI 門戶的聊天機器人提問，傳統(tǒng)的 RAG 方法是使用傳統(tǒng)代碼從數(shù)據(jù)庫僅收集相關(guān)數(shù)據(jù)，將其嵌入提示詞中，然后將查詢發(fā)送給 AI。AI 只看到它被允許看到的信息，而傳統(tǒng)的、確定性的軟件棧則負(fù)責(zé)保護其余員工數(shù)據(jù)的安全。

但當(dāng)系統(tǒng)演變?yōu)榇硎较到y(tǒng)時，AI 智能體可以通過 MCP（模型上下文協(xié)議）服務(wù)器自主查詢數(shù)據(jù)庫。由于它們需要能夠回答任何員工的問題，因此需要訪問所有員工數(shù)據(jù)，防止數(shù)據(jù)落入錯誤之手就成了一項艱巨的任務(wù)。

根據(jù)思科的調(diào)查，只有 27% 的公司擁有針對 AI 系統(tǒng)的動態(tài)且詳細(xì)的訪問控制，且不到一半的公司對保護敏感數(shù)據(jù)或防止未經(jīng)授權(quán)的訪問有信心。

O'Neill 說，如果所有數(shù)據(jù)都被收集到一個數(shù)據(jù)湖中，情況會更加復(fù)雜。

“如果你輸入了來自許多不同來源的數(shù)據(jù)，每個獨立來源可能都有自己的安全模型，”他說，“當(dāng)你把所有東西堆進塊存儲時，你就失去了那種細(xì)粒度的控制能力?！?/span>

事后嘗試添加安全層可能會很困難。他說，解決方案是直接訪問原始數(shù)據(jù)源，完全跳過數(shù)據(jù)湖。

“過去的做法是永遠(yuǎn)保留歷史數(shù)據(jù)，因為存儲成本極低，而且機器學(xué)習(xí)可以從中發(fā)現(xiàn)長期模式和趨勢，”他說，“此外，如果混合不同來源的數(shù)據(jù)，還可以發(fā)現(xiàn)跨領(lǐng)域的模式?！?/span>

數(shù)字化轉(zhuǎn)型咨詢公司 Sutherland Global 的 CIO 兼 CDO Doug Gilbert 表示，一般來說，當(dāng)參與者從人類變成 AI 智能體時，數(shù)據(jù)訪問會發(fā)生巨大變化。

“對于人類來說，圍繞著操作者有著大量的安全措施，”他說，“例如，大多數(shù)用戶界面都經(jīng)過編寫，如果是僅限數(shù)字的字段，你就無法輸入字母。但一旦你接入了 AI，這些限制都消失了。這相當(dāng)于給你的系統(tǒng)開了一個原始的后門?！?/strong>

四、速度陷阱

但 Gilbert 認(rèn)為 CIO 們犯的第一大錯誤就是動作太快?！斑@就是大多數(shù)項目失敗的原因，”他說，“這就好比一場競速賽。”

他補充道，CIO 們常常將解決數(shù)據(jù)問題視為拖慢進度，但忽略這些問題會帶來巨大的風(fēng)險。“很多做人工智能項目的人都會面臨審計，到時候他們將不得不停下來，把所有事情推倒重來，”他說。

所以，把數(shù)據(jù)做對并不意味著變慢?！爱?dāng)你建立了合適的基礎(chǔ)設(shè)施時，你就能加速創(chuàng)新進程，順利通過審計，并確保持續(xù)合規(guī)，”他說。

另一個可能讓人覺得浪費時間的領(lǐng)域是測試。在 AI 領(lǐng)域，“快速行動、打破常規(guī)（Move fast and break things）”然后部署后再修復(fù)，并不總是明智的策略。

“一個以光速傳播的錯誤，代價是什么？”他問道，“我總是會先進行測試。令人驚訝的是，我們看到有多少產(chǎn)品在沒有任何測試的情況下就被推向了市場?！?/span>

五、利用 AI 修復(fù)數(shù)據(jù)

缺乏高質(zhì)量數(shù)據(jù)可能讓人覺得是一個無解的問題，而且隨著 AI 應(yīng)用場景的擴大，情況只會變得更糟。

根據(jù) AvePoint 10 月份基于對 775 位全球企業(yè)領(lǐng)袖的調(diào)查發(fā)布的報告，81% 的組織已因數(shù)據(jù)管理或數(shù)據(jù)安全問題推遲了 AI 助手的部署，平均延遲了六個月。

與此同時，不僅 AI 項目數(shù)量持續(xù)增長，數(shù)據(jù)量也在激增。近 52% 的受訪者表示他們的公司管理著超過 500PB 的數(shù)據(jù)，而一年前這一比例僅為 41%。

但 Unisys 的 Naglapur 表示，借助 AI，獲得客戶的 360 度全景視圖，以及清理和協(xié)調(diào)其他數(shù)據(jù)源將變得更加容易。

“這就是悖論所在，”他說，“AI 會幫你解決一切。如果你以此前需要三年才能完成的數(shù)字化轉(zhuǎn)型為例，現(xiàn)在利用 AI，你可以在 12 到 18 個月內(nèi)完成?！彼f，這些工具正逐漸接近實用階段，它們將加速變革的步伐。

上一篇：并購23 家公司后，這位 CIO總結(jié)出的“AI …

下一篇：2025 復(fù)盤：AI 并未拯救 IT 運營，真正的…

熱門文章

CIO避坑指南：如何向高管高效傳達(dá)“壞消…

給 CIO 們的 4 條建議：在人工智能變革中…

【學(xué)習(xí)觀察】火山引擎AI創(chuàng)新巡展·福州站…

最新資訊

CIO避坑指南：如何向…

給 CIO 們的 4 條建議…

【學(xué)習(xí)觀察】火山引擎…

在AI信任危機的時代，…

AI不是大廠專屬！我們…

av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线

全文：說到人工智能，并非所有數(shù)據(jù)都生而平等

全文：說到人工智能，并非所有數(shù)據(jù)都生而平等