導語:2025年底的一項數據顯示,超過一半的生成式AI項目在做完精美的概念驗證(POC)后,就悄無聲息地被放棄了。為什么在老板面前演示得驚艷無比的AI,一到真刀真槍的生產環(huán)境中就原形畢露?答案很簡單,卻往往被忽視:你的數據底座,根本撐不起AI的野心。

在AI的浪潮中,企業(yè)很容易被各種大模型(LLM)的炫酷能力所吸引,卻往往低估了“喂養(yǎng)”這些模型所需的數據準備工作。今天,我們就來深度剖析,為什么數據質量會成為AI規(guī)模化落地的最大絆腳石,以及CIO們該如何破局。
在概念驗證(POC)階段,技術團隊通常會精心挑選最干凈、結構最完整的數據集,并在嚴格控制的環(huán)境下運行模型。在這個“溫室”里,AI 的表現自然令人驚嘆。
但當項目準備推向全公司時,現實的毒打接踵而至:
結構化數據的謊言:存在ERP或CRM里的表格數據,其實并沒有想象中那么整齊,到處是空值、亂碼和歷史遺留的錯誤分類。
非結構化數據的深坑:那些堆積如山的掃描件、PDF文檔和雜亂的表單,在被AI有效匹配和使用之前,需要極其繁瑣的清洗和轉換。
元數據(Metadata)的缺失:很多組織缺乏標準化的高質量元數據。AI智能體可能有權限訪問數據,但如果不知道某個特定字段在業(yè)務背景下到底代表什么,它依然是個“瞎子”。
這就導致了一個致命的翻譯鴻溝。AI無法理解你的業(yè)務邏輯,輸出的結果必然是不可靠、不完整甚至極具誤導性的。
既然數據是AI的命門,技術領導者該如何破局,跨越從POC到生產環(huán)境的“死亡之谷”?
1. 轉變思維:數據是核心產品,而非副產品
不要再把數據僅僅當成業(yè)務系統(tǒng)運轉后留下的“廢料”。在AI時代,數據必須被視為企業(yè)的一級資產和核心產出。CIO需要像管理任何主營產品一樣,對數據的生命周期進行精心規(guī)劃。
2. 告別“人類速度”,構建“機器友好”的數據管道
過去的數據治理框架,大多是為“人類看報表”而設計的。但AI處理數據的速度和數量是指數級的。
未來的數據交付必須從“以人為中心”轉向“機器可操作”:數據需要被精準的元數據包裹,通過現代協(xié)議(如MCP服務器)對外暴露,并受到嚴格的分級脫敏和訪問控制。
3. 用例導向:不要試圖一次性清洗所有數據
面對堆積如山的歷史數據,企圖一次性全部清洗干凈是不現實的。正確的策略是:挑選5到10個高價值的核心用例,倒推這些用例需要什么樣的數據,然后集中火力去準備這些特定的數據管道。
4. 用 AI 打敗 AI:讓魔法打敗魔法
既然人工清理數據太慢,為什么不用AI來幫忙?
企業(yè)可以使用受到嚴格提示限制的小型語言模型(SLM),專門用來清理、標準化特定領域的數據,甚至起草組織內部的數據定義。當然,這必須建立在嚴格的“人在回路(Human-in-the-loop)”機制上,由人類專家把最后一道關。
總結:
在生成式AI的競賽中,模型的能力只是浮在水面上的冰山一角,沉在水面之下龐大且堅固的數據基石,才是決定項目成敗的關鍵。為AI做好數據準備,永遠不是一個“畢其功于一役”的任務,而是一場需要隨著業(yè)務演進不斷迭代的持久戰(zhàn)。只有把數據底座夯實,AI才能真正從實驗室的“玩具”,變成驅動企業(yè)增長的引擎。
全文:糟糕的數據基礎如何阻礙AI價值落地
統(tǒng)計數據顯示,到去年年底,超過一半的生成式AI(人工智能)項目在POC(概念驗證)之后被放棄,這在很大程度上是由于數據準備不足。那么,IT領導者可以做些什么來更好地實現規(guī)模化落地呢?

圖源:Rob Schultz / Shutterstock
AI的前景是巨大的,但質量不佳的數據破壞了從它那里獲取任何價值的每一次嘗試。如果沒有正確的輸入,AI會產生不可靠、不完整甚至具有誤導性的結果。
Iterate.ai的CTO(首席技術官)Brian Sathianathan(布萊恩·薩蒂亞納坦)表示,對于一般企業(yè)來說,數據以多種形式存在于多個系統(tǒng)中,整合結構化和非結構化數據比大多數AI試點項目所考慮的要困難?!皝碜赃\營系統(tǒng)的結構化數據很少像團隊所假設的那樣整齊,而像掃描文檔和表格這樣的非結構化數據,在能夠有效匹配和使用之前,需要不同的準備過程,”他說,并補充這可能解釋了為什么企業(yè)在試圖超越概念驗證階段時會遇到障礙。
Investec的集團技術戰(zhàn)略主管Rhian Letts(里安·萊茨)表示,擁有令人印象深刻的POC的組織通常會成功,因為它們依賴于精心挑選的數據集、手動解決方法和嚴格控制的環(huán)境。真正的挑戰(zhàn)在于將試點項目轉化為可靠的、生產級別的實施。她補充說,擴展需要高可用數據管道、一致的定義、運營支持以及與真實工作流程的集成。這也提高了對數據治理的要求。
她說:“許多數據治理框架是為人類速度的消費而設計的。AI顯著提高了數據需求的速度和數量,并引入了非人類消費者。因此,治理需要發(fā)展為更加自動化、實時化,并明確說明數據來源和用途?!?/span>
對于技術公司ADG的首席技術官Daniel Acton(丹尼爾·阿克頓)來說,太多的組織急于利用AI做些什么,卻沒有正確分析它們實際想用AI做什么?!癆I可能很有用,但如果你給AI提供不完整和不準確的數據,或者如果它沒有讓模型完成指定任務所需的數據,結果將會令人失望,”他說。
另一個核心問題是缺乏標準化的、高質量元數據。UC San Diego(加州大學圣地亞哥分校)工作場所技術和基礎設施服務執(zhí)行董事Brett Pollak(布雷特·波拉克)說:“元數據的質量是最難克服的挑戰(zhàn)。元數據是至關重要的連接紐帶,它允許智能體解釋用戶的提示,并將其正確地映射到特定的列和行的交叉點上。大多數組織對數據有獨特的、特定于機構的解釋,但很少有適當的記錄或保持最新。”這就產生了一個翻譯差距,即智能體可能有權訪問數據,但缺乏在業(yè)務背景下理解特定字段代表什么的上下文。
一、數據分散與碎片化現狀
不過,僅僅因為存在障礙,并不意味著進展需要暫停。Letts(萊茨)說:“AI的使用應該與當前的成熟度保持一致。組織不應將不完美的數據視為一種限制,而是可以問問AI如何幫助改進和更好地連接他們已經擁有的數據?!?/span>Sathianathan(薩蒂亞納坦)對此表示贊同,并補充說,在新的LLM(大語言模型)世界中,即使是少量準確的數據也可能具有重大價值。他說:“就在幾年前,使用傳統(tǒng)的機器學習,你需要大量的數據來訓練模型。如今,由于大多數LLM都帶有高度預打包的知識,你只需要足夠數量的正確數據,就能使其為你的領域做好準備?!?/span>
Pollak(波拉克)說,對于已經部署了結構化數據倉儲的組織來說,新的障礙是從以人類為中心的存儲向機器可操作的交付轉變?!艾F在,數據準備意味著確保你的數據被特定的元數據所包裹,通過像MCP服務器等現代協(xié)議公開,并由數據分級脫敏與選擇性開放策略進行治理,以確保智能體僅對已治理的數據采取行動,”他說。
二、轉變你對數據的思維方式
如今,許多組織希望迅速從數據混亂轉變?yōu)閿祿寗訝顟B(tài)。但如果這是最終目標,CIO和技術領導者需要注意在組織內將數據視為一級資產。作為這種轉變的一部分,數據不能再被視為業(yè)務系統(tǒng)的副產品,而應被視為一種核心產出,需要像對待任何其他產品或服務一樣精心管理。當這種情況發(fā)生時,業(yè)務領導者可以解鎖他們之前不知道存在的洞察和價值。
此外,根據Letts(萊茨)的說法,以用例為導向的方法至關重要。試圖修復組織中的每個數據集既不實際也不必要。即使數據不完美,通過關注正確的用例,也可以解鎖有意義的價值。通過優(yōu)先考慮五到十個高價值用例,并在生產中規(guī)劃提供這些用例所需的數據,更容易集中精力。然后可以加強基礎以服務于這些優(yōu)先事項。
她補充說,有了AI,對于許多用例來說,可用標準已經降低,特別是那些專注于生產力和知識工作的用例。AI模型可以從上下文中提取價值并建立聯系,即使數據結構并不完美。但風險更高的用例需要更高的質量和更強的控制。她說:“關鍵是要明確目的、風險和運營依賴關系。低風險用例在有明確描述和良好治理的背景下可以更快推進,而高風險應用需要更嚴格的門檻?!?/span>
三、優(yōu)先考慮所有權、治理和安全
Letts(萊茨)補充說,所有治理框架、政策、標準和程序在審查時都應考慮到AI。許多治理框架是為人類的消費節(jié)奏設計的,而AI提高了結構化和非結構化數據的處理速度、規(guī)模和集成度。因此,驗證關鍵數據元素的所有權并建立對其含義的共享業(yè)務理解對于取得進展至關重要。標準化的定義和元數據也應確保諸如 “它是什么意思”以及“它來自哪里”等問題始終能得到解答。她補充說:“默認情況下,AI的訪問必須是安全的。這意味著要有最小特權、審計跟蹤、敏感數據處理以及對檢索的強有力控制。必須始終能夠證明一個模型可以訪問什么和不能訪問什么。”
此外,組織在使用AI時也必須注意數據隱私。Sathianathan(薩蒂亞納坦)說:“自主AI系統(tǒng)需要的訪問數據的權限級別不同于傳統(tǒng)企業(yè)應用程序。需要大規(guī)模地分析數據,而不僅僅是查詢數據。這對權限模型來說是一個重大變化,IT和安全領導者需要仔細考慮所有這些數據將流向何處以及AI系統(tǒng)真正需要什么訪問權限。” 他補充說,如果處理數據的LLM在組織內部或外部運行,情況也是如此,而且這些決策應該在部署之前考慮,而不是之后。
四、使用AI填補空白
Pollak(波拉克)建議,在業(yè)務可能存在不足的領域,可以考慮使用AI來起草和更新組織特定的數據定義。Sathianathan(薩蒂亞納坦)說:“優(yōu)先建立一個嚴格的人在回路機制,以確保這種連接組織的要素是準確和最新的。”此外,有可能使用LLM和較小的語言模型,通過限制性提示來清理某些領域的數據。這樣,你就可以高效地處理數據,避免將大量數據輸入到基于云的大型LLM中而浪費資源。
Letts(萊茨)說,為AI做好準備不是一個一次性的里程碑。AI能力正在迅速發(fā)展,這意味著準備的門檻會隨著時間推移而變化。改善端到端的數據血緣、建立共享語義和本體以便始終如一地理解數據、提高跨平臺和跨領域的互操作性,以及收緊AI系統(tǒng)訪問數據的方式,以確保數據安全、可審計且符合目的,這些都是至關重要的。她說:“隨著用例的發(fā)展,門檻也會發(fā)生變化。所以數據準備必須被視為一項持續(xù)的工作,而不是一項已完成的任務?!?/span>