2026年AI決勝關鍵：為什么說“垃圾進，垃圾出”依然是鐵律？

作者：CIO.com&睿觀來源：CIOCDO 發(fā)布時間：2026年01月19日點擊數：

導語：當生成式 AI（Gen AI）席卷各行各業(yè)，企業(yè)都在爭先恐后地部署最新的模型。然而，2026年的競爭壁壘不再是擁有最好的模型，而是擁有最好的數據。當“幻覺”褪去，我們發(fā)現那個古老的計算機科學定律依然統治著一切：垃圾進，垃圾出（Garbage In, Garbage Out）。

一、數據的真相：人人都有，但并非都有用

企業(yè)并不缺乏數據——代碼庫、文檔、提案、合同、客戶數據庫浩如煙海。但這些數據真的能直接“喂”給 AI 嗎？根據波士頓咨詢集團（BCG）和思科的調查，68% 的決策者認為缺乏高質量數據是關鍵挑戰(zhàn)，僅有 35% 的企業(yè)擁有干凈、集中且可供 AI 實時集成的數據。IDC更是預測，到 2027 年，忽視數據質量將導致 AI 擴展受阻，直接造成 15% 的生產力損失。

二、?CIO面臨的三大數據陷阱

2.1語義的泥沼（Semantic Confusion）

當企業(yè)通過并購或新項目積累了多個數據源，同一類型的信息（如“客戶”）往往有著不同的定義和結構。如果缺乏統一的語義映射，AI 模型就會在相互沖突的標準中“迷路”。

專家建議：即使數據看起來很干凈，也要進行語義映射練習。先從一個小數據量的用例開始，做對之后再擴展。

2.2非結構化的混亂（Unstructured Chaos）

將 OneDrive 或文件存儲直接連接到聊天機器人聽起來很美，但后果往往是災難性的。AI 難以區(qū)分“項目計劃_v2”和“項目計劃_v2_最終版”。過時的文檔和未編輯的草稿會嚴重污染 AI 的輸出。

2.3安全的后門（Security Blind Spots）

這是一個常被忽視的巨大風險。傳統的軟件界面有嚴格的輸入限制（例如數字字段不能輸入字母），但 AI 代理（Agentic AI）通過?MCP?服務器自主查詢數據庫時，它可能繞過這些傳統的 UI 防護。

現狀：僅有 27% 的企業(yè)擁有動態(tài)且詳細的 AI 訪問控制。當所有數據被一股腦倒入數據湖時，細粒度的權限控制就失效了。

三、速度陷阱：欲速則不達

Sutherland Global 的 CIO Doug Gilbert 指出，CIO 們犯的最大錯誤就是“跑得太快”。許多人將數據治理和測試視為拖慢進度的障礙，這完全是誤解。?如果在沒有完善基礎設施和測試的情況下匆忙上線，最終只會被審計叫停，甚至被迫推倒重來。記住：建立正確的基礎設施不是減速，而是為了后續(xù)能安全地加速。

四、破局：用 AI 治理 AI

雖然數據問題看似無解，但 AI 本身也許就是解藥。Unisys?的高管 Manju Naglapur 認為，AI 工具正變得越來越成熟，它們可以幫助企業(yè)在 12 到 18 個月內完成過去需要三年才能完成的數據清理和整合工作，實現真正的 360 度客戶視圖。

結語：2026 年，區(qū)分 AI 項目成敗的關鍵不在于誰的模型更聰明，而在于誰的數據底座更堅實。別讓你的 AI 輸在起跑線上——現在就開始清洗你的數據。

全文：說到人工智能，并非所有數據都生而平等

多年來，公司一直在收集數據，希望有朝一日能派上用場。隨著生成式人工智能（Gen AI）的到來，時機已經成熟，但艱難的工作才剛剛開始。

生成式 AI 正成為幾乎顛覆所有行業(yè)的力量，但僅使用最好的 AI 模型和工具是不夠的。大家都在使用相同的模型，真正能創(chuàng)造競爭優(yōu)勢的是能夠訓練和微調你自己的模型，或者為模型提供獨特的背景上下文，而這需要數據。

貴公司龐大的代碼庫、文檔和變更日志？那是你的編碼智能體（Coding Agents）的燃料。你過去的提案和合同庫？那是你的寫作助手的素材。你的客戶數據庫和支持工單？那是你的客戶服務聊天機器人的知識庫。

但僅僅因為這些數據存在，并不意味著它們是好數據。

“將模型指向任何可用的數據是非常容易的，” Unisys 云、應用和基礎設施解決方案高級副總裁兼總經理 Manju Naglapur 表示，“在過去三年里，我們一次又一次地看到這種錯誤。那句老話‘垃圾進，垃圾出’依然適用?！?/span>

根據波士頓咨詢集團（BCG）去年 9 月發(fā)布的一項調查，在 1250 名高級人工智能決策者中，有 68% 的人表示，缺乏高質量數據的訪問權限是采用 AI 時面臨的關鍵挑戰(zhàn)。其他最新研究也證實了這一點。在思科 10 月份對 8000 多名 AI 領導者的調查中，只有 35% 的公司擁有干凈、集中化且能與 AI?智能體實時集成的數據。根據 IDC 的數據，到 2027 年，那些不優(yōu)先考慮高質量、AI 就緒（AI-ready）數據的公司，將難以擴展生成式 AI 和代理式解決方案，從而導致生產力下降 15%。

一、語義層的混亂

將所有數據混合使用的另一個問題是語義層會變得混亂。當數據來自多個來源時，同一類型的信息可能以多種方式定義和結構化。隨著新項目或并購導致數據源數量激增，挑戰(zhàn)也隨之加劇。對于許多公司來說，僅僅是追蹤“客戶”這一最關鍵的數據類型以及處理基本數據問題，都非常困難。

鄧白氏（Dun & Bradstreet）去年報告稱，超過一半的受訪組織對他們用于 AI 的數據質量和可信度表示擔憂。例如，在金融服務行業(yè)，52% 的公司表示 AI 項目失敗是因為數據質量差。根據去年 12 月發(fā)布的一項針對 2000 多名行業(yè)專業(yè)人士的調查，44% 的人認為數據質量是他們 2026 年最大的關注點，僅次于網絡安全。

云咨詢公司 Lemongrass 的首席技術官 Eamonn O'Neill 表示，擁有多個相互沖突的數據標準對每個人來說都是挑戰(zhàn)。

“每一次不匹配都是風險，”他說，“但人類總能找到繞過的方法?！?/span>

他補充說，如果你了解挑戰(zhàn)所在，并投入時間和精力去解決，人工智能也可以被配置來處理類似的問題。即使數據是干凈的，公司仍應進行語義映射練習。如果數據不完美，整理它則需要時間。

“拿一個數據量小的用例，把它做對，”他說，“這是可行的。然后再進行擴展。這才是成功應用（Adoption）該有的樣子?！?/span>

二、無管理且非結構化的數據

O'Neill 說，公司在將 AI 連接到企業(yè)信息時犯的另一個錯誤是，將 AI 指向非結構化的數據源。誠然，大語言模型（LLM）非常擅長讀取非結構化數據并理解文本和圖像。問題在于，并非所有文檔都值得 AI 去關注。

例如，文檔可能已經過時?；蛘咚鼈兛赡苁巧形淳庉嫷脑缙诎姹?，甚至包含錯誤。

“人們經常看到這種情況，”他說，“我們將你的 OneDrive 或文件存儲連接到聊天機器人，突然之間它分不清‘版本 2’和‘版本 2 最終版’的區(qū)別?！?/span>

他補充說，對于人類用戶來說，保持適當的版本控制非常困難。“微軟可以幫你處理不同版本，但人們仍然習慣用‘另存為’，最終你會得到大量混亂的非結構化數據，”O(jiān)'Neill 說。

三、被忽視的安全問題

當 CIO 們通常思考與 AI 系統相關的安全性時，他們可能會考慮模型的護欄，或者對訓練數據及 RAG（檢索增強生成）嵌入數據進行保護。但隨著基于聊天機器人的 AI 演變?yōu)樽灾髦悄荏w AI（Agentic AI），安全問題變得更加復雜。

舉個例子，假設有一個員工薪資數據庫。如果員工對薪資有疑問，向嵌入其 AI 門戶的聊天機器人提問，傳統的 RAG 方法是使用傳統代碼從數據庫僅收集相關數據，將其嵌入提示詞中，然后將查詢發(fā)送給 AI。AI 只看到它被允許看到的信息，而傳統的、確定性的軟件棧則負責保護其余員工數據的安全。

但當系統演變?yōu)榇硎较到y時，AI 智能體可以通過 MCP（模型上下文協議）服務器自主查詢數據庫。由于它們需要能夠回答任何員工的問題，因此需要訪問所有員工數據，防止數據落入錯誤之手就成了一項艱巨的任務。

根據思科的調查，只有 27% 的公司擁有針對 AI 系統的動態(tài)且詳細的訪問控制，且不到一半的公司對保護敏感數據或防止未經授權的訪問有信心。

O'Neill 說，如果所有數據都被收集到一個數據湖中，情況會更加復雜。

“如果你輸入了來自許多不同來源的數據，每個獨立來源可能都有自己的安全模型，”他說，“當你把所有東西堆進塊存儲時，你就失去了那種細粒度的控制能力?！?/span>

事后嘗試添加安全層可能會很困難。他說，解決方案是直接訪問原始數據源，完全跳過數據湖。

“過去的做法是永遠保留歷史數據，因為存儲成本極低，而且機器學習可以從中發(fā)現長期模式和趨勢，”他說，“此外，如果混合不同來源的數據，還可以發(fā)現跨領域的模式?！?/span>

數字化轉型咨詢公司 Sutherland Global 的 CIO 兼 CDO Doug Gilbert 表示，一般來說，當參與者從人類變成 AI 智能體時，數據訪問會發(fā)生巨大變化。

“對于人類來說，圍繞著操作者有著大量的安全措施，”他說，“例如，大多數用戶界面都經過編寫，如果是僅限數字的字段，你就無法輸入字母。但一旦你接入了 AI，這些限制都消失了。這相當于給你的系統開了一個原始的后門?！?/strong>

四、速度陷阱

但 Gilbert 認為 CIO 們犯的第一大錯誤就是動作太快?！斑@就是大多數項目失敗的原因，”他說，“這就好比一場競速賽?！?/span>

他補充道，CIO 們常常將解決數據問題視為拖慢進度，但忽略這些問題會帶來巨大的風險?！昂芏嘧鋈斯ぶ悄茼椖康娜硕紩媾R審計，到時候他們將不得不停下來，把所有事情推倒重來，”他說。

所以，把數據做對并不意味著變慢?！爱斈憬⒘撕线m的基礎設施時，你就能加速創(chuàng)新進程，順利通過審計，并確保持續(xù)合規(guī)，”他說。

另一個可能讓人覺得浪費時間的領域是測試。在 AI 領域，“快速行動、打破常規(guī)（Move fast and break things）”然后部署后再修復，并不總是明智的策略。

“一個以光速傳播的錯誤，代價是什么？”他問道，“我總是會先進行測試。令人驚訝的是，我們看到有多少產品在沒有任何測試的情況下就被推向了市場?！?/span>

五、利用 AI 修復數據

缺乏高質量數據可能讓人覺得是一個無解的問題，而且隨著 AI 應用場景的擴大，情況只會變得更糟。

根據 AvePoint 10 月份基于對 775 位全球企業(yè)領袖的調查發(fā)布的報告，81% 的組織已因數據管理或數據安全問題推遲了 AI 助手的部署，平均延遲了六個月。

與此同時，不僅 AI 項目數量持續(xù)增長，數據量也在激增。近 52% 的受訪者表示他們的公司管理著超過 500PB 的數據，而一年前這一比例僅為 41%。

但 Unisys 的 Naglapur 表示，借助 AI，獲得客戶的 360 度全景視圖，以及清理和協調其他數據源將變得更加容易。

“這就是悖論所在，”他說，“AI 會幫你解決一切。如果你以此前需要三年才能完成的數字化轉型為例，現在利用 AI，你可以在 12 到 18 個月內完成?！彼f，這些工具正逐漸接近實用階段，它們將加速變革的步伐。

上一篇：并購23 家公司后，這位 CIO總結出的“AI …

下一篇：2025 復盤：AI 并未拯救 IT 運營，真正的…

熱門文章

CIO避坑指南：如何向高管高效傳達“壞消…

給 CIO 們的 4 條建議：在人工智能變革中…

【學習觀察】火山引擎AI創(chuàng)新巡展·福州站…

最新資訊

CIO避坑指南：如何向…

給 CIO 們的 4 條建議…

【學習觀察】火山引擎…

在AI信任危機的時代，…

AI不是大廠專屬！我們…

av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线

全文：說到人工智能，并非所有數據都生而平等

全文：說到人工智能，并非所有數據都生而平等