如果說2023年是生成式人工智能聊天機(jī)器人和搜索的一年,那么2024年就是人工智能代理(AI Agent)的一年。就像過去的工廠用機(jī)器代替工人進(jìn)行重復(fù)性勞動一樣,現(xiàn)在的AI代理正在代替數(shù)據(jù)團(tuán)隊(duì)進(jìn)行重復(fù)性的數(shù)據(jù)任務(wù)。

【睿觀:本文主要講述了人工智能代理(AI Agent)在數(shù)據(jù)領(lǐng)域快速發(fā)展和應(yīng)用的趨勢,以及這種趨勢將如何改變未來數(shù)據(jù)團(tuán)隊(duì)的工作方式。
趨勢1.2024年是人工智能代理爆發(fā)的一年,尤其在數(shù)據(jù)領(lǐng)域,AI代理正在接管越來越多的數(shù)據(jù)任務(wù),從最基礎(chǔ)的數(shù)據(jù)集成到復(fù)雜的分析和管理。
主要內(nèi)容:
AI代理接管數(shù)據(jù)任務(wù):
傳統(tǒng)的自動化只能執(zhí)行一些基本任務(wù),而新一代AI代理則可以完成更復(fù)雜、更智能的任務(wù)。
谷歌利用Gemini AI改進(jìn)了其數(shù)據(jù)基礎(chǔ)設(shè)施產(chǎn)品BigQuery,使其具備強(qiáng)大的代理功能,可以幫助企業(yè)完成數(shù)據(jù)發(fā)現(xiàn)、清理、準(zhǔn)備、管道管理和分析等工作。
越來越多的公司開始使用這些AI代理來簡化工作流程,例如金融科技公司Julo使用Gemini來自動化查詢生成,日本IT公司Unerry使用Gemini SQL來更快地提供洞察。
不僅大公司在行動,許多初創(chuàng)公司也在開發(fā)針對特定數(shù)據(jù)操作的AI代理,例如AirByte和Fastn專注于數(shù)據(jù)集成,Altimate AI專注于數(shù)據(jù)文檔、測試和轉(zhuǎn)換,Redbird和RapidCanvas則致力于處理AI和分析管道中的大部分?jǐn)?shù)據(jù)任務(wù)。
AI代理支持RAG和其他工作流:
AI代理不僅應(yīng)用于廣泛的數(shù)據(jù)操作,還在檢索增強(qiáng)生成(RAG)和下游工作流自動化等領(lǐng)域發(fā)揮作用。
例如,Weaviate討論了代理RAG的概念,允許AI代理訪問各種工具來檢索和驗(yàn)證數(shù)據(jù),提高答案的準(zhǔn)確性。
Snowflake Intelligence推出了數(shù)據(jù)代理功能,可以利用存儲在Snowflake中的數(shù)據(jù)以及來自其他工具的數(shù)據(jù),根據(jù)自然語言問題提供見解,并采取具體行動,例如將見解輸入表單、上傳文件、寫入Snowflake表等。
未來展望:
文章預(yù)測,AI代理的應(yīng)用將繼續(xù)快速發(fā)展,越來越多的組織會將重復(fù)性任務(wù)委托給AI代理,從而提高效率。
調(diào)查顯示,大部分科技高管計(jì)劃在未來幾年內(nèi)將AI代理集成到他們的系統(tǒng)中,并信任AI代理代表他們分析和綜合數(shù)據(jù),以及處理代碼生成等任務(wù)。
隨著AI代理的不斷發(fā)展,它們的結(jié)果將越來越接近生產(chǎn)級別,甚至超越人類的表現(xiàn)。
這意味著數(shù)據(jù)科學(xué)家和分析師的角色可能會發(fā)生變化,他們可能會轉(zhuǎn)向AI監(jiān)督或處理更高價值的任務(wù)。
總之,AI代理使得數(shù)據(jù)團(tuán)隊(duì)可以把精力放在更需要創(chuàng)造性和思考性的工作上,例如制定數(shù)據(jù)戰(zhàn)略、解決復(fù)雜問題等。未來的數(shù)據(jù)團(tuán)隊(duì)可能更像是“AI監(jiān)督員”,負(fù)責(zé)管理和指導(dǎo)AI代理的工作,而不是自己親自去做大量的數(shù)據(jù)處理工作。】
在這些廣泛的應(yīng)用中,我們今年還看到了數(shù)據(jù)代理的興起——由人工智能驅(qū)動的代理可以處理數(shù)據(jù)基礎(chǔ)設(shè)施堆棧中的不同類型的任務(wù)。有些代理執(zhí)行基本的數(shù)據(jù)集成工作,而另一些代理則處理下游任務(wù),例如數(shù)據(jù)管道中的分析和管理,從而使企業(yè)用戶的工作變得更簡單、更輕松。
這樣做的好處是提高了效率并節(jié)省了成本,這讓許多人不禁想知道:未來幾年數(shù)據(jù)團(tuán)隊(duì)的情況會發(fā)生怎樣的變化?
一、新一代人工智能代理接管數(shù)據(jù)任務(wù)
雖然代理功能已經(jīng)存在了一段時間,允許企業(yè)自動執(zhí)行某些基本任務(wù),但生成式人工智能的興起將事情完全提升到了一個新的水平。
借助新一代人工智能的自然語言處理和工具使用能力,智能體可以超越簡單的推理和回答,真正規(guī)劃多步驟行動,獨(dú)立與數(shù)字系統(tǒng)交互以完成行動,同時與其他智能體和人員協(xié)作。它們還會隨著時間的推移不斷學(xué)習(xí),提高自己的表現(xiàn)。
Cognition AI(Cognition AI是一家專注于人工智能應(yīng)用的創(chuàng)新平臺,致力于開發(fā)先進(jìn)的AI工具,以提升軟件工程領(lǐng)域的效率和智能化水平。其首款產(chǎn)品Devin是全球首個完全自主的AI軟件工程師,能夠執(zhí)行復(fù)雜的編程任務(wù),幫助開發(fā)團(tuán)隊(duì)加速項(xiàng)目進(jìn)程)的Devin是第一款主要的代理產(chǎn)品,可實(shí)現(xiàn)大規(guī)模工程運(yùn)營。隨后,更大的公司開始提供由其模型驅(qū)動的更有針對性的企業(yè)和個人代理。
今年早些時候,在接受VentureBeat(VentureBeat是一個領(lǐng)先的科技新聞平臺,專注于報道變革性技術(shù),尤其是人工智能和游戲領(lǐng)域。它提供最新的新聞、分析和觀點(diǎn))采訪時,Google Cloud(Google Cloud是谷歌提供的一套云計(jì)算服務(wù),它允許個人、企業(yè)和開發(fā)者存儲數(shù)據(jù)、運(yùn)行應(yīng)用程序、分析數(shù)據(jù),并提供機(jī)器學(xué)習(xí)等服務(wù))的Gerrit Kazmaier(格里特·卡茲邁爾)【Gerrit Kazmaier(格里特·卡茲邁爾)是Google Cloud的副總裁兼總經(jīng)理,負(fù)責(zé)數(shù)據(jù)和分析業(yè)務(wù)。他領(lǐng)導(dǎo)著Google Cloud數(shù)據(jù)技術(shù)的開發(fā)和設(shè)計(jì),這包括數(shù)據(jù)管理、分析和相關(guān)的技術(shù)】表示,他從客戶那里聽說,他們的數(shù)據(jù)從業(yè)人員不斷面臨挑戰(zhàn),包括為數(shù)據(jù)團(tuán)隊(duì)實(shí)現(xiàn)手動工作自動化、縮短數(shù)據(jù)管道和分析的周期以及簡化數(shù)據(jù)管理。本質(zhì)上,這些團(tuán)隊(duì)并不缺乏如何從數(shù)據(jù)中創(chuàng)造價值的想法,但他們?nèi)狈r間去實(shí)施這些想法。
Kazmaier(卡茲邁爾)解釋說,為了解決這個問題,谷歌利用Gemini AI(Gemini AI是谷歌開發(fā)的一項(xiàng)革命性的人工智能技術(shù),它是一個多模態(tài)的AI系統(tǒng),能夠理解和生成文本、圖像、音頻等多種類型的數(shù)據(jù))改進(jìn)了其核心數(shù)據(jù)基礎(chǔ)設(shè)施產(chǎn)品BigQuery(BigQuery是Google Cloud提供的一個完全托管的、服務(wù)器無關(guān)的、超大規(guī)模的分析數(shù)據(jù)倉庫服務(wù)。它允許用戶在云端存儲、處理和分析大規(guī)模數(shù)據(jù)集,而無需管理底層基礎(chǔ)設(shè)施)。由此產(chǎn)生的代理功能不僅使企業(yè)能夠發(fā)現(xiàn)、清理和準(zhǔn)備下游應(yīng)用程序的數(shù)據(jù)(打破數(shù)據(jù)孤島并確保質(zhì)量和一致性),而且還支持管道管理和分析,使團(tuán)隊(duì)能夠?qū)W⒂诟邇r值的任務(wù)。
如今,許多企業(yè)都在BigQuery中使用Gemini的代理功能,其中包括金融科技公司Julo(Julo是一家印尼的金融科技公司,通過提供P2P貸款和其他金融服務(wù),致力于推動金融包容性,并在業(yè)務(wù)增長和盈利方面取得了顯著成績),該公司利用Gemini理解復(fù)雜數(shù)據(jù)結(jié)構(gòu)的能力來自動化其查詢生成過程。日本IT公司Unerry(Unerry是一家日本的IT公司,主要業(yè)務(wù)是開發(fā)環(huán)境智能基礎(chǔ)設(shè)施,將現(xiàn)實(shí)世界的數(shù)據(jù)數(shù)字化,為各種商業(yè)和政府客戶提供基于人流數(shù)據(jù)的深入分析和解決方案,以優(yōu)化客戶體驗(yàn)和提高運(yùn)營效率)也在BigQuery中使用Gemini SQL(Gemini SQL是一個利用Google的生成式人工智能模型來幫助用戶將自然語言問題轉(zhuǎn)換成SQL查詢的工具)生成功能來幫助其數(shù)據(jù)團(tuán)隊(duì)更快地提供洞察。
但發(fā)現(xiàn)、準(zhǔn)備和協(xié)助分析僅僅是個開始。隨著底層模型的發(fā)展,即使是由專注于各自領(lǐng)域的初創(chuàng)公司開創(chuàng)的精細(xì)數(shù)據(jù)操作也成為了更深層次的代理驅(qū)動自動化的目標(biāo)。
【睿觀:隨著底層模型(例如大型語言模型)的進(jìn)步,數(shù)據(jù)發(fā)現(xiàn)、準(zhǔn)備和輔助分析等傳統(tǒng)上需要人工干預(yù)的環(huán)節(jié),正逐漸被更深層次的、由代理驅(qū)動的自動化所取代。
理解:
傳統(tǒng)的分析流程通常是:
發(fā)現(xiàn):?找到相關(guān)的數(shù)據(jù)源。
準(zhǔn)備:?清理、轉(zhuǎn)換和整合數(shù)據(jù)。
分析:?使用統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)等技術(shù)進(jìn)行數(shù)據(jù)分析,得出結(jié)論。
而“代理驅(qū)動的自動化”則意味著,通過賦予AI“代理”的能力,使其能夠自主地完成以上步驟,甚至更進(jìn)一步:
自主決策:?代理可以根據(jù)預(yù)設(shè)的目標(biāo)或規(guī)則,自主決定需要哪些數(shù)據(jù)、如何準(zhǔn)備數(shù)據(jù)、使用哪種分析方法。
持續(xù)學(xué)習(xí)和改進(jìn):?代理可以從歷史數(shù)據(jù)和用戶反饋中學(xué)習(xí),不斷改進(jìn)其分析能力和效率。
自動化執(zhí)行:?代理可以自動執(zhí)行分析任務(wù),無需人工干預(yù)或只需少量干預(yù)。
這種自動化不僅僅是簡單的腳本或程序的執(zhí)行,而是基于AI的智能決策和行動。
實(shí)際應(yīng)用案例:
一個很好的例子是AutoML(Automated Machine Learning,自動化機(jī)器學(xué)習(xí))。AutoML旨在自動化機(jī)器學(xué)習(xí)模型的整個生命周期,包括數(shù)據(jù)預(yù)處理、特征工程、模型選擇、超參數(shù)優(yōu)化等。
舉例來說,假設(shè)一個電商公司想要預(yù)測用戶的購買行為。使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法,需要數(shù)據(jù)科學(xué)家花費(fèi)大量時間進(jìn)行數(shù)據(jù)清洗、特征提取、模型選擇和調(diào)參。而使用AutoML,則可以:
自動數(shù)據(jù)準(zhǔn)備:?AutoML可以自動檢測數(shù)據(jù)中的缺失值、異常值,并進(jìn)行相應(yīng)的處理。
自動特征工程:?AutoML可以自動創(chuàng)建新的特征,例如用戶歷史購買頻率、商品類別偏好等。
自動模型選擇和調(diào)參:?AutoML可以嘗試多種不同的機(jī)器學(xué)習(xí)模型(例如邏輯回歸、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)),并自動調(diào)整模型的參數(shù),以找到最佳的模型。
通過AutoML,電商公司可以大大降低機(jī)器學(xué)習(xí)應(yīng)用的門檻,無需專業(yè)的數(shù)據(jù)科學(xué)家也能構(gòu)建高性能的預(yù)測模型。

Modern(現(xiàn)代風(fēng)格)
Tudor(都鐸風(fēng)格)
Ranch(牧場風(fēng)格)
Victorian(維多利亞風(fēng)格)
網(wǎng)址索引:
Google Cloud AutoML:?
https://cloud.google.com/automl
Google Cloud 提供的 AutoML 服務(wù),涵蓋圖像、文本、表格數(shù)據(jù)等多種類型。
Amazon SageMaker Autopilot:?
https://aws.amazon.com/sagemaker/autopilot/
Amazon Web Services 提供的 AutoML 服務(wù),可以自動構(gòu)建、訓(xùn)練和部署機(jī)器學(xué)習(xí)模型。
這些平臺都提供了不同程度的代理驅(qū)動的自動化功能,能夠幫助用戶更高效地進(jìn)行數(shù)據(jù)分析和機(jī)器學(xué)習(xí)。
代理驅(qū)動的自動化是數(shù)據(jù)分析領(lǐng)域的一個重要發(fā)展趨勢。通過賦予AI“代理”的能力,可以實(shí)現(xiàn)數(shù)據(jù)分析流程的更高級別的自動化,降低分析門檻,提高分析效率。AutoML 是一個很好的例子,它展示了如何使用自動化技術(shù)來簡化機(jī)器學(xué)習(xí)模型的開發(fā)和部署。隨著技術(shù)的不斷發(fā)展,我們可以期待看到更多基于代理驅(qū)動的自動化應(yīng)用涌現(xiàn)出來,進(jìn)一步改變數(shù)據(jù)分析的格局。】
例如,AirByte(AirByte是一個開源的數(shù)據(jù)集成平臺,它支持從300多種數(shù)據(jù)源和向量存儲目的地移動數(shù)據(jù),提供靈活的部署選項(xiàng)、安全性和低代碼/無代碼的易用性)和Fastn(Fastn是一個全棧Web開發(fā)框架,它提供了一個集成開發(fā)環(huán)境,支持其專有語言fastn language,用于構(gòu)建用戶界面和內(nèi)容中心的網(wǎng)站)在數(shù)據(jù)集成領(lǐng)域名列前茅。前者推出了一款助手,可在幾秒鐘內(nèi)從API文檔鏈接創(chuàng)建數(shù)據(jù)連接器。與此同時,后者通過代理增強(qiáng)了其更廣泛的應(yīng)用程序開發(fā)產(chǎn)品,這些代理僅使用自然語言描述即可生成企業(yè)級API(無論是用于讀取還是寫入任何主題的信息)。
總部位于舊金山的Altimate AI(Altimate AI是一家專注于人工智能在數(shù)據(jù)管理領(lǐng)域的公司,提供一系列旨在增強(qiáng)數(shù)據(jù)團(tuán)隊(duì)工作流程、提高效率的AI工具)則以不同的數(shù)據(jù)操作為目標(biāo),包括文檔、測試和轉(zhuǎn)換,其新推出的DataMates(DataMates是Altimate AI提供的創(chuàng)新解決方案,這些是作為數(shù)據(jù)團(tuán)隊(duì)的虛擬隊(duì)友的AI代理,可以顯著加快他們的工作流程)技術(shù)利用代理AI從整個數(shù)據(jù)堆棧中提取上下文。其他初創(chuàng)公司,包括Redbird(Redbird是一個人工智能驅(qū)動的企業(yè)分析平臺,它使組織內(nèi)的任何人都可以在幾分鐘內(nèi)輕松自動化和統(tǒng)一他們的分析工作,而無需編寫代碼)和RapidCanvas(RapidCanvas是一個無代碼AutoAI平臺,它賦能業(yè)務(wù)用戶輕松創(chuàng)建、定制和部署AI解決方案。通過利用預(yù)測性和生成式AI,該平臺將原始數(shù)據(jù)轉(zhuǎn)化為可行的洞察,推動顯著的業(yè)務(wù)成果),也朝著同一方向努力,聲稱提供的AI代理可以處理AI和分析管道中所需的高達(dá)90%的數(shù)據(jù)任務(wù)。
二、為RAG等提供支持的代理
除了廣泛的數(shù)據(jù)操作之外,代理功能還在檢索增強(qiáng)生成(RAG)【檢索增強(qiáng)生成(簡稱RAG)是一種結(jié)合了信息檢索技術(shù)與語言生成模型的人工智能技術(shù)】和下游工作流自動化等領(lǐng)域得到了探索。例如,矢量數(shù)據(jù)庫Weaviate(Weaviate是一個開源的向量數(shù)據(jù)庫,專為高效存儲和查詢大規(guī)模向量數(shù)據(jù)而設(shè)計(jì)。Weaviate的靈活性和強(qiáng)大功能使其成為處理非結(jié)構(gòu)化數(shù)據(jù)和實(shí)現(xiàn)AI驅(qū)動應(yīng)用的有力工具,廣泛應(yīng)用于語義搜索、內(nèi)容推薦、圖像識別和自然語言處理等領(lǐng)域)背后的團(tuán)隊(duì)最近討論了代理RAG的想法,這是一種允許AI代理訪問各種工具(如網(wǎng)絡(luò)搜索、計(jì)算器或軟件API的過程,以檢索和驗(yàn)證來自多個來源的數(shù)據(jù),以提高答案的準(zhǔn)確性。
此外,臨近年底,Snowflake Intelligence(Snowflake Intelligence是Snowflake公司推出的一個創(chuàng)新平臺,旨在通過創(chuàng)建數(shù)據(jù)代理來增強(qiáng)企業(yè)用戶對企業(yè)數(shù)據(jù)的分析、總結(jié)和行動能力。使團(tuán)隊(duì)能夠輕松且安全地推進(jìn)業(yè)務(wù),通過數(shù)據(jù)驅(qū)動的洞察實(shí)現(xiàn)可衡量的影響)面世,企業(yè)可以選擇設(shè)置數(shù)據(jù)代理,不僅可以利用存儲在Snowflake實(shí)例中的商業(yè)智能數(shù)據(jù),還可以利用孤立的第三方工具中的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)——例如數(shù)據(jù)庫中的銷售交易、SharePoint(SharePoint是微軟公司開發(fā)的一款企業(yè)級協(xié)同工作平臺和內(nèi)容管理系統(tǒng),它允許用戶存儲、共享和管理文檔,以及協(xié)同工作)等知識庫中的文檔以及Slack(Slack是一個團(tuán)隊(duì)協(xié)作工具,它提供了一個即時通訊平臺,旨在提高團(tuán)隊(duì)間的溝通效率和透明度)、Salesforce(Salesforce是一個客戶關(guān)系管理平臺,它提供了一系列的云服務(wù),幫助企業(yè)管理與客戶之間的關(guān)系)和Google Workspace(Google Workspace是谷歌提供的一套云服務(wù)和協(xié)作工具,它包括了一系列的應(yīng)用程序和服務(wù),旨在提高團(tuán)隊(duì)的生產(chǎn)力和協(xié)作效率)等生產(chǎn)力工具中的信息。
有了這些額外的背景信息,代理便可以根據(jù)自然語言問題提出相關(guān)見解,并針對生成的見解采取具體行動。例如,用戶可以要求數(shù)據(jù)代理將提出的見解輸入到可編輯的表單中,并將文件上傳到Google Drive(Google Drive是谷歌公司提供的一個云存儲服務(wù),允許用戶在云端存儲文件,如文檔、電子表格、演示文稿、PDF、圖片和視頻等)。他們甚至可以被提示寫入Snowflake(Snowflake是一種基于云的數(shù)據(jù)分析平臺,專門設(shè)計(jì)用于存儲和分析大規(guī)模數(shù)據(jù)集。幫助企業(yè)不受數(shù)據(jù)類型、數(shù)據(jù)規(guī)模的制約,并且支持多種不同的計(jì)算需求)表并根據(jù)需要修改數(shù)據(jù)。
三、接下來還有更多
雖然我們可能沒有涵蓋今年看到或宣布的所有數(shù)據(jù)代理應(yīng)用,但有一點(diǎn)非常清楚:這項(xiàng)技術(shù)將繼續(xù)存在。隨著新一代人工智能模型的不斷發(fā)展,人工智能代理的采用將全速發(fā)展,大多數(shù)組織,無論其行業(yè)或規(guī)模如何,都會選擇將重復(fù)性任務(wù)委托給專業(yè)代理。這將直接轉(zhuǎn)化為效率。
作為證據(jù),Capgemini(凱捷公司)【Capgemini(凱捷公司)是一家全球領(lǐng)先的管理咨詢、技術(shù)和外包服務(wù)供應(yīng)商。提供包括咨詢服務(wù)、技術(shù)服務(wù)、外包服務(wù)在內(nèi)的全方位解決方案,以提升客戶的業(yè)務(wù)績效和競爭力】最近對1,100名科技高管進(jìn)行了一項(xiàng)調(diào)查,其中82%的受訪者表示他們打算在未來3年內(nèi)將基于人工智能的代理集成到他們的堆棧中,而目前這一比例僅為10%。更重要的是,多達(dá)70%至75%的受訪者表示,他們會信任人工智能代理代表他們分析和綜合數(shù)據(jù),以及處理諸如生成和迭代改進(jìn)代碼等任務(wù)。
這種由代理驅(qū)動的轉(zhuǎn)變也意味著數(shù)據(jù)團(tuán)隊(duì)運(yùn)作方式將發(fā)生重大變化。目前,代理的結(jié)果不是生產(chǎn)級的,這意味著人類必須在某個時候接管,以根據(jù)他們的需求微調(diào)工作。然而,隨著未來幾年的進(jìn)一步發(fā)展,這一差距很可能會消失——團(tuán)隊(duì)將擁有更快、更準(zhǔn)確、更不容易犯人類通常會犯的錯誤。
因此,總而言之,我們今天看到的數(shù)據(jù)科學(xué)家和分析師的角色可能會發(fā)生變化,用戶可能會轉(zhuǎn)向人工智能監(jiān)督領(lǐng)域(他們可以密切關(guān)注人工智能的行為)或系統(tǒng)可能難以執(zhí)行的更高價值的任務(wù)。
作者:Shubham Sharma(舒巴姆·夏爾馬)
譯者:穿山甲