關(guān)于AI技術(shù)的討論充斥著諸如大型語言模型(LLMs)、代理AI和強化學(xué)習(xí)等專業(yè)術(shù)語。這里有一個在AI討論中并不總是處于核心位置,但其實應(yīng)該受到更多關(guān)注的術(shù)語:數(shù)據(jù)網(wǎng)格。在很多方面,數(shù)據(jù)網(wǎng)格是釋放現(xiàn)代企業(yè)AI全部價值的關(guān)鍵。

圖片來源:Daniel Avancini
考慮到數(shù)據(jù)網(wǎng)格實際上并不是AI解決方案的組成部分,這樣的說法聽起來可能有點奇怪。沒有數(shù)據(jù)網(wǎng)格,你也可以構(gòu)建AI工具和服務(wù)。
然而,如果沒有數(shù)據(jù)網(wǎng)格,要完全釋放企業(yè)AI所能提供的全部好處是非常困難的。數(shù)據(jù)網(wǎng)格并不是構(gòu)建AI的先決條件,但它是構(gòu)建真正創(chuàng)造商業(yè)價值的AI解決方案的重要補充技術(shù)。
一、什么是數(shù)據(jù)網(wǎng)格?
數(shù)據(jù)網(wǎng)格是一種數(shù)據(jù)架構(gòu),它使數(shù)據(jù)的去中心化管理成為可能。大多數(shù)數(shù)據(jù)網(wǎng)格通過連接組織擁有的各種數(shù)據(jù)源來實現(xiàn)這一點,從而使這些數(shù)據(jù)源能夠集中訪問。然而,底層的數(shù)據(jù)源仍然是獨立的,因此可以根據(jù)每個數(shù)據(jù)源的具體情況以最適當?shù)姆绞竭M行管理。
數(shù)據(jù)網(wǎng)格解決了將組織的所有數(shù)據(jù)強行放入單一、僵化位置的難題。當企業(yè)采用這種架構(gòu)時,它們最終會陷入一刀切的數(shù)據(jù)管理方法——這在實踐中是一個問題,因為不同的業(yè)務(wù)領(lǐng)域或部門通常有不同的數(shù)據(jù)管理需求。
有了數(shù)據(jù)網(wǎng)格,每個領(lǐng)域可以創(chuàng)建符合其需求的數(shù)據(jù)產(chǎn)品。由于數(shù)據(jù)通過數(shù)據(jù)網(wǎng)格統(tǒng)一起來,因此它仍然是可集中訪問和管理的,但它也足夠靈活,能夠支持各種不同的需求和用例。
二、數(shù)據(jù)網(wǎng)格在AI中的角色
數(shù)據(jù)網(wǎng)格對企業(yè)AI有效采用和部署至關(guān)重要的主要原因是,數(shù)據(jù)是驅(qū)動AI的燃料——通過以特定領(lǐng)域的方式更輕松地訪問數(shù)據(jù),企業(yè)就能更有效地利用AI技術(shù)的力量。
為了更全面地解釋這意味著什么,讓我們先回顧一下現(xiàn)代AI技術(shù),尤其是生成式AI和代理AI的工作原理,因為這兩種AI正在推動當今最大的創(chuàng)新。
這些類型的AI解決方案由大型語言模型(LLMs)驅(qū)動,而這些模型是通過大量數(shù)據(jù)進行訓(xùn)練的。然而,商業(yè)LLMs的一個主要限制是它們所使用的訓(xùn)練數(shù)據(jù)并不特定于任何業(yè)務(wù)或業(yè)務(wù)領(lǐng)域。它們使用的是通用信息。
因此,目前企業(yè)采用的人工智能工具和服務(wù)背后的商業(yè)LLMs,例如微軟的Copilot,對它們所支持的企業(yè)的特定需求或內(nèi)部運作缺乏了解。它們可以很好地編寫通用代碼或起草通用電子郵件,但它們無法利用特定于業(yè)務(wù)的知識來執(zhí)行諸如開發(fā)定制產(chǎn)品文檔或了解公司的財務(wù)狀況等任務(wù)。
或者至少,商業(yè)LLMs出廠時無法做到這些。不過,可以通過讓LLMs接觸特定于業(yè)務(wù)的數(shù)據(jù)來增強它們的能力,從而使它們能夠執(zhí)行特定于業(yè)務(wù)的任務(wù)。
這就是數(shù)據(jù)網(wǎng)格的用武之地。當企業(yè)已經(jīng)建立了一個數(shù)據(jù)網(wǎng)格來組織其數(shù)據(jù)資產(chǎn)時,數(shù)據(jù)網(wǎng)格就成為了快速高效地將LLMs連接到它們支持高級用例所需數(shù)據(jù)的基礎(chǔ)。
三、數(shù)據(jù)網(wǎng)格對企業(yè)AI的好處
輕松訪問用于增強AI模型的數(shù)據(jù)只是數(shù)據(jù)網(wǎng)格幫助釋放AI技術(shù)全部價值的開始。數(shù)據(jù)網(wǎng)格在企業(yè)AI中提供的全部好處包括:
數(shù)據(jù)發(fā)現(xiàn)和可用性。有了數(shù)據(jù)網(wǎng)格,當企業(yè)想要增強AI模型時,不需要再去尋找相關(guān)的組織特定數(shù)據(jù)。這些數(shù)據(jù)已經(jīng)通過數(shù)據(jù)網(wǎng)格進行了編目并可供訪問。
數(shù)據(jù)質(zhì)量。即使數(shù)據(jù)資產(chǎn)分散在組織的各個環(huán)節(jié),數(shù)據(jù)網(wǎng)格也通過實現(xiàn)一致的集中式數(shù)據(jù)管理方法來鼓勵高質(zhì)量的數(shù)據(jù)標準。
特定領(lǐng)域的數(shù)據(jù)。由于數(shù)據(jù)網(wǎng)格根據(jù)業(yè)務(wù)領(lǐng)域組織數(shù)據(jù),因此可以輕松地向LLMs提供特定于組織某個部分或目標用例的信息。例如,如果你想讓LLM理解你的銷售運營,你可以讓它訪問銷售團隊擁有的數(shù)據(jù)產(chǎn)品。與簡單地在一個只有部分數(shù)據(jù)與特定領(lǐng)域或用例相關(guān)的大型數(shù)據(jù)集上訓(xùn)練LLM相比,這樣更高效,也更有可能獲得更好的性能。
最新的數(shù)據(jù)。由于數(shù)據(jù)網(wǎng)格實現(xiàn)了數(shù)據(jù)的去中心化管理和所有權(quán),它有助于確保數(shù)據(jù)保持更新。這對于有效使用AI至關(guān)重要,因為它使得在數(shù)據(jù)發(fā)生變化時可以重新訓(xùn)練LLMs——這對于模型需要基于最新信息采取行動的情況非常重要。
數(shù)據(jù)安全。數(shù)據(jù)網(wǎng)格通過確保數(shù)據(jù)只對應(yīng)該查看它的利益相關(guān)者開放,從而幫助實現(xiàn)高安全標準。這樣可以減輕AI安全風(fēng)險,例如組織將敏感信息暴露給第三方LLM,而LLM又泄露了這些數(shù)據(jù)的可能性。有了數(shù)據(jù)網(wǎng)格,可以在數(shù)據(jù)源處執(zhí)行訪問控制,限制LLMs讀取敏感信息的能力。
作者:Daniel Avancini(丹尼爾·阿萬西尼)
譯者:穿山甲
睿觀:數(shù)據(jù)網(wǎng)格作為一種去中心化的數(shù)據(jù)架構(gòu),雖非AI組件,卻是釋放企業(yè)AI(尤其是由LLM驅(qū)動的生成式和代理AI)全部價值的關(guān)鍵支撐技術(shù)。它通過連接各業(yè)務(wù)領(lǐng)域獨立管理的數(shù)據(jù)源,實現(xiàn)數(shù)據(jù)的分布式自治與集中式可訪問,為AI模型提供了便捷的數(shù)據(jù)發(fā)現(xiàn)、高質(zhì)量的領(lǐng)域特定數(shù)據(jù)、持續(xù)更新的數(shù)據(jù)以及更強的安全性。這使得企業(yè)能夠高效地增強AI模型處理特定業(yè)務(wù)任務(wù)的能力,從而創(chuàng)造真實的商業(yè)價值。
金句:
AI是引擎,數(shù)據(jù)是燃料,而數(shù)據(jù)網(wǎng)格則是確保燃料精準、高效、安全輸送至引擎的智能管道系統(tǒng)。