長久以來,合成數(shù)據(jù)一直用于為人工智能創(chuàng)建更大的訓(xùn)練集,同時保護隱私和敏感信息。但其使用一直局限于那些能夠負擔(dān)數(shù)據(jù)科學(xué)家的公司。生成式人工智能正在改變這一切。

圖片來源:Rob Schultz / Shutterstock
今年,幾乎所有企業(yè)都在迅速采用人工智能,但大多數(shù)企業(yè)部署的都是與其他公司相同的供應(yīng)商平臺。
根據(jù)公司的獨特需求創(chuàng)建定制化的人工智能解決方案需要數(shù)據(jù)。然而,公司手頭的數(shù)據(jù)可能存在重大空白,數(shù)據(jù)本身可能雜亂不堪,并且在隱私或合規(guī)性方面存在問題。此外,數(shù)據(jù)也可能不夠充足。
合成數(shù)據(jù)可以彌補這一空白,幫助企業(yè)在人工智能部署中找到真正的商業(yè)價值。
4月中旬,數(shù)字轉(zhuǎn)型咨詢公司EPAM發(fā)布了一項針對7300多名大型企業(yè)的高管和信息技術(shù)專業(yè)人員的調(diào)查。所有受訪者要么在試驗人工智能,要么在部署人工智能,其中14%剛剛開始,32%正在培養(yǎng)能力,但尚未取得一致的結(jié)果。近一半的受訪者表示,他們正在取得成果,并利用這些成果增強競爭力。但只有5%的受訪者認為自己是顛覆者,在人工智能的使用上處于領(lǐng)先地位。
德勤也發(fā)現(xiàn),30%的高管表示,高質(zhì)量數(shù)據(jù)的短缺是采用生成式人工智能的主要障礙之一。而這就是合成數(shù)據(jù)的用武之地。
德勤咨詢的數(shù)據(jù)云和機器學(xué)習(xí)首席專家Chida Sadayappan(查達·薩達亞帕南)說,“真實數(shù)據(jù)對任何企業(yè)來說都是關(guān)鍵,但用合成數(shù)據(jù)加以補充是一個很好的商業(yè)差異化因素。使用這種合成數(shù)據(jù)生成的人工智能模型將使公司獲得競爭優(yōu)勢。”
根據(jù)Gartner的數(shù)據(jù),到明年,75%的企業(yè)將使用生成式人工智能生成合成客戶數(shù)據(jù),這一比例高于2023年的不到5%。
事實上,根據(jù)Forrester的報告,大多數(shù)全球企業(yè)已經(jīng)在進行涉及合成數(shù)據(jù)的項目。更具體地說,報告顯示,14%的企業(yè)已經(jīng)在企業(yè)規(guī)模部署了多個用例,22%的企業(yè)在部門規(guī)模部署,22%的企業(yè)正在進行初步生產(chǎn)實施。此外,15%的企業(yè)處于試點階段,同樣數(shù)量的企業(yè)處于后期研究和概念驗證階段。
那么,合成數(shù)據(jù)是如何幫助企業(yè)創(chuàng)造商業(yè)價值的呢?以下是主要方式。
1.?構(gòu)建真正了解您業(yè)務(wù)的人工智能
大型人工智能公司的模型必然具有通用性。
數(shù)據(jù)服務(wù)公司Data Axle的首席執(zhí)行官Andy Frawley(安迪·弗萊利)表示,當(dāng)主要的人工智能供應(yīng)商在相同的公開數(shù)據(jù)集上訓(xùn)練模型時,結(jié)果往往是同質(zhì)化的人工智能輸出。這限制了差異化。
“除此之外,這些數(shù)據(jù)集可能會延續(xù)長期以來嵌入的不準確之處,降低人工智能驅(qū)動決策的可靠性?!彼a充道??煽啃赃€可能受到影響,因為大型商業(yè)模型可獲取的信息可能無法涵蓋特定客戶群體的細微差別。
公司可以通過微調(diào)或增強現(xiàn)有的人工智能模型,或者使用自己的數(shù)據(jù)或購買的數(shù)據(jù)構(gòu)建小型定制模型來解決這一差距。而當(dāng)這些方法不夠時,他們可以通過創(chuàng)建新的合成數(shù)據(jù)來實現(xiàn)。
庫存管理公司Nextuple使用合成數(shù)據(jù)創(chuàng)建定制的人工智能和機器學(xué)習(xí)模型,以理解庫存管理挑戰(zhàn)。例如,假設(shè)一批大量庫存進入中央倉庫?!拔覀冃枰獩Q定將其發(fā)送到哪里,”公司聯(lián)合創(chuàng)始人兼首席執(zhí)行官Darpan Seth(達帕恩·塞斯)說。“這是一個高價值的決策?!边@種決策涉及許多物流和優(yōu)化因素,這些因素因公司而異,而合成數(shù)據(jù)的使用多年來對于構(gòu)建和測試這一點至關(guān)重要。
Seth(塞斯)說,“這并不新鮮,但現(xiàn)在使用合成數(shù)據(jù)的方式——其可能性比以往任何時候都更大?!?/span>
他說,Nextuple并不僅僅使用合成數(shù)據(jù)來幫助訓(xùn)練機器學(xué)習(xí)和人工智能模型,生成式人工智能現(xiàn)在用于創(chuàng)建合成數(shù)據(jù),使該過程比以往更快、更容易、更靈活、更智能。
“我們向它輸入了我們在所有客戶中看到的大量需求,”Seth(塞斯)說?!八鼡碛兴羞@些數(shù)據(jù),現(xiàn)在你可以要求它生成用戶故事、測試用例、測試數(shù)據(jù) —— 以及測試自動化?!?/span>
在過去,生成這種合成數(shù)據(jù)將是一個非常手動的過程。例如,可以創(chuàng)建一個包含三件商品的訂單,然后再創(chuàng)建一個包含10?件商品的訂單,依此類推,進行不同的細微變化?!八羞@些如今都非常迅速,因為你可以使用生成式人工智能來完成,”Seth(塞斯)說。
生成式人工智能還使整個過程民主化。
“去年年底,我們?yōu)閳F隊中的每個人配備了人工智能工具,”他說?!斑@是任何人都可以使用的東西。”
由于他們的商業(yè)客戶使用各種平臺,Nextuple構(gòu)建其系統(tǒng)以實現(xiàn)模型不可知。
“我們使用從OpenAI和Claude到Llama和Gemini的一切,”Seth(塞斯)說?!癆WS有Bedrock,還有Azure,所有這些提供商都有一系列模型可用。有超過75到80家公司提供各種不同的模型?!?/span>
因此,Nextuple構(gòu)建其技術(shù)以使后端人工智能可互換?!按送猓魈炷憧赡軙l(fā)現(xiàn)一個不同的模型可以更好地完成任務(wù),或者成本更低?!彼f。
由于Nextuple必須與所有主要的云提供商和人工智能平臺合作,它沒有使用任何特定供應(yīng)商的人工智能技術(shù)棧,而是使用開源組件構(gòu)建了自己的技術(shù)棧,包括LangChain、LangGraph、LangFlow,以及用于RAG嵌入的向量數(shù)據(jù)庫,如PostgreSQL的Pgvector。
“還有一些新的范式正在出現(xiàn),比如模型上下文協(xié)議,”他說?!笆虑樽兓绱酥?。”
2.填補空白
真實數(shù)據(jù)很少是完整的。有時,空白是由于行為的變化。例如,歷史購物數(shù)據(jù)可能會顯示黑色星期五的購物高峰。但今天,每個人都可能在線購物,一天的購物高峰可能會延長到整整一周。有時空白是因為某些情況很少發(fā)生,因此沒有足夠的例子。對于某些企業(yè)來說,這些空白可能具有重要影響。
“我做了很多交通管理工作,”圖夫茨大學(xué)研究生工程學(xué)院院長、IEEE院士Karen Panetta(卡倫·帕內(nèi)塔)說。她表示,來自各種攝像機的交通數(shù)據(jù)很多。但一些最關(guān)鍵的數(shù)據(jù),比如某些類型的交通事故,也是最罕見的。
她說,“我們沒有足夠的翻車事故視頻,所以我們使用合成數(shù)據(jù)來生成這些。”然后是面部識別。有許多在良好光照條件下拍攝的正面照片的人臉數(shù)據(jù)庫。僅在這種數(shù)據(jù)上進行訓(xùn)練會導(dǎo)致系統(tǒng)有時無法正常工作,如果用于安全目的,甚至可能是危險的。
“一旦你轉(zhuǎn)動頭部或戴上眼鏡,或者微笑,或者戴上口罩,它就會失敗。”她說。
圖像生成器可以用來創(chuàng)建模擬不同光照條件或角度的照片排列。但當(dāng)前技術(shù)能做到這一點是有限的。
“我們嘗試為戴口罩的人生成一些合成數(shù)據(jù),但與人體解剖學(xué)不太匹配,”Panetta(帕內(nèi)塔)說。“這些輪廓很重要。所以它徹底失敗了。但如果合成數(shù)據(jù)真的表現(xiàn)出你想要匹配的行為,它是一個很好的工具。”
3.在保護隱私的同時最大化數(shù)據(jù)價值
許多公司有特定的用例是現(xiàn)成的模型無法很好覆蓋的。這不僅僅是專門的庫存管理應(yīng)用程序或自動駕駛汽車。它可能也像為客戶生成一封電子郵件或一個幻燈片那樣簡單。
“關(guān)于如何起草一封給客戶的電子郵件,沒有客觀的答案,”專注于人工智能護欄和合規(guī)性的人工智能公司Dynamo AI的應(yīng)用人工智能副總裁Eric Lin(林育澤)說。這是因為公司有自己的風(fēng)格、語言,當(dāng)然還有獨特的產(chǎn)品信息??梢酝ㄟ^在推理點通過RAG嵌入將人工智能指向一個向量數(shù)據(jù)庫來填補產(chǎn)品信息缺口。但通過對實際客戶電子郵件進行微調(diào)或RAG嵌入來訓(xùn)練人工智能可能會侵犯他們的隱私。你不會希望人工智能將一個客戶的敏感信息包含到另一個客戶的郵件中。
“我們一直因為隱私和安全問題而不敢利用這些數(shù)據(jù),”Lin(林)補充道。但合成數(shù)據(jù)可以剝離所有敏感的私人信息,使其不會進入人工智能的知識庫,并使企業(yè)能夠創(chuàng)建編寫他們所需電子郵件和幻燈片的模型。這不僅僅適用于營銷應(yīng)用。
“例如,對于醫(yī)療保健公司,合成數(shù)據(jù)有助于模擬患者數(shù)據(jù)和臨床場景,確保遵守隱私法規(guī),同時創(chuàng)建多樣化的訓(xùn)練集?!?/span>Kearney數(shù)字和分析業(yè)務(wù)合伙人Bharath Thota(巴拉特·托塔)說。
他說,通過使用合成數(shù)據(jù),醫(yī)療保健公司可以獲得更好的準確性或創(chuàng)造創(chuàng)新的新產(chǎn)品,盡管該領(lǐng)域受到高度監(jiān)管。
4.加速產(chǎn)品開發(fā)和研發(fā)
說到創(chuàng)造產(chǎn)品,如果一家公司正在構(gòu)建新事物,問題可能不是隱私,而是可能沒有歷史數(shù)據(jù)可供使用。當(dāng)Nextuple想要構(gòu)建一個新的庫存管理應(yīng)用程序時就出現(xiàn)了這種情況。
“我們希望模擬根據(jù)典型需求因素,公司的庫存如何在其分銷中心和商店網(wǎng)絡(luò)中被消耗,”Nextuple的Seth(塞斯)說?!霸跊]有真實世界數(shù)據(jù)的情況下,沒有辦法測試它是否能在現(xiàn)實世界場景中正常工作?!?/span>
他們創(chuàng)建的合成數(shù)據(jù)包括商店和倉庫網(wǎng)絡(luò)中的庫存位置,以及模擬訂單及其到達時間。
“我們使用模擬來了解,例如,在感恩節(jié)期間,銷售會出現(xiàn)某些激增,了解這些真實情況后,我們創(chuàng)建了合成數(shù)據(jù),”他說?!叭缓笪覀冇行遗c一個潛在客戶一起測試,這驗證了我們的假設(shè)?!?/span>
另一個使用合成數(shù)據(jù)進行產(chǎn)品開發(fā)的例子?構(gòu)建機器人。
“我們最近在機器人技術(shù)方面看到了如此多的進步,”軟件開發(fā)公司Globant?的數(shù)字創(chuàng)新高級副總裁Agustin Huerta(奧古斯丁·赫爾塔)說。有像英偉達Omniverse這樣的虛擬環(huán)境,模擬機器人可以在其中與模擬對象交互,創(chuàng)建大量訓(xùn)練數(shù)據(jù),以啟動機器人在空間中導(dǎo)航或處理產(chǎn)品的能力。
“如果你談?wù)撚糜谟?xùn)練自動駕駛解決方案的計算機視覺數(shù)據(jù),我們需要合成數(shù)據(jù) —— 沒有其他方法可以做到這一點,”他說?!胺駝t,我們將不得不撞車?!?/span>
5.在沒有歷史數(shù)據(jù)的情況下探索新市場
Thota?說,合成數(shù)據(jù)的另一個用例是當(dāng)一家公司有產(chǎn)品,但希望在新市場銷售時。企業(yè)可以模擬消費者的行為方式、他們的偏好,以及他們可能對新產(chǎn)品或服務(wù)的反應(yīng),他們還可以使用模擬數(shù)據(jù)來幫助完善功能和營銷策略。
“一家希望進入新地區(qū)的銀行可以使用合成數(shù)據(jù)來模擬當(dāng)?shù)亟?jīng)濟狀況、消費習(xí)慣,以及人們可能如何采用他們的金融產(chǎn)品,”他補充道。
卡內(nèi)基梅隆大學(xué)的人工智能教授Anand Rao(阿南德·拉奧)曾與一家希望擴展到新市場的拼車公司合作。但到處都使用相同的策略不會很有效,因為條件因地理位置而異。
“在紐約市,你需要五到十分鐘的周轉(zhuǎn)時間,”Rao(拉奧)說?!八麄儗﹀e誤預(yù)測的容忍度較低,比如如果它說八分鐘,但汽車需要12分鐘才能到達。但在密歇根州的安阿伯,如果晚幾分鐘,他們可以接受?!?/span>
這意味著優(yōu)化策略需要不同,而合成數(shù)據(jù)幫助完善了這些策略。
“我們有超過200,000個針對十個城市的上市情景,”他補充道。這讓高管們對如何適應(yīng)新市場有了真正的洞察。
6.構(gòu)建數(shù)字孿生
歷史上,數(shù)字孿生一直用于建模噴氣發(fā)動機,幫助公司進行預(yù)測性維護,或用于設(shè)計和管理工廠等復(fù)雜的物理設(shè)施。今天,數(shù)字孿生的定義正在擴展,包括軟件系統(tǒng)、業(yè)務(wù)流程,甚至人員。
公司正在通過創(chuàng)建合成客戶檔案來模擬客戶、他們的行為、購物旅程、購買模式,以及他們對特定促銷活動的反應(yīng),EY?美洲消費者人工智能負責(zé)人Tom Edwards(湯姆·愛德華茲)說。“這幫助我們了解不同人群對不同產(chǎn)品定位的反應(yīng),”他說。“我們得到的是更好的需求預(yù)測和更好的定位?!?/span>
他看到公司用合成人物資料代替焦點小組。
“你可以創(chuàng)建數(shù)百個不同的人物資料,測試不同的信息傳遞方式,” 他說?!昂铣蓴?shù)據(jù)允許你填補心理特征細節(jié)?!?/span>
這些模擬的人物資料也可以用于改善電子商務(wù)個性化。
“我可以運行數(shù)百萬種不同的組合,當(dāng)您購物時,我可以立即根據(jù)這些基于合成數(shù)據(jù)預(yù)設(shè)的人物資料之一與您匹配,”他補充道?!拔冶葌鹘y(tǒng)算法更了解您,因為我已經(jīng)推斷出數(shù)百萬種潛在的前進路徑?!?/span>
他說,這里的商業(yè)價值可能達到數(shù)百萬美元,因為它解鎖了一種與消費者無縫對齊并提供他們尚未見過的推薦產(chǎn)品的方式。公司還可以創(chuàng)建員工的數(shù)字孿生。
“在內(nèi)部,我們正在研究的一件事是我們的人員配備和技能,”管理咨詢公司SSA & Company的應(yīng)用解決方案負責(zé)人Nick Kramer(尼克·克萊默)說。
“我們有關(guān)于我們顧問的歷史數(shù)據(jù),以及關(guān)于技能和能力的不可靠數(shù)據(jù),” 他說?!暗覀冇胸S富的項目數(shù)據(jù),從中我們可以說,我們有了我們的粘土塊,并一直在嘗試不同的方法來合成數(shù)據(jù)?!?/span>
他說,合成的人物資料可以是個人、項目角色或特定頭銜,這些被組合成模擬的項目團隊,進而創(chuàng)造了人員配備可能是什么樣子的視圖,以及如何將其與技能和工具平衡,以及如何優(yōu)化結(jié)果、速度、收入和利潤率。
7.為代理人工智能做好準備
隨著人工智能的演變,使用合成數(shù)據(jù)的機會也在增加。例如,今年,一切都是關(guān)于代理人工智能的。
根據(jù)今年4月Cloudera的一項調(diào)查,96%的企業(yè)IT領(lǐng)導(dǎo)者表示,他們計劃在未來12個月內(nèi)擴大人工智能代理的使用。盡管57%的人表示他們已經(jīng)實施了人工智能代理,但最大的障礙是數(shù)據(jù)隱私,53%的人表示這正在減緩采用。但培訓(xùn)人工智能代理不僅僅是為了保護隱私。
“合成數(shù)據(jù)是加速這些代理學(xué)習(xí)并映射復(fù)雜場景的絕佳方式,”EY的Edwards(愛德華茲)說。它還可以用來確保代理能夠處理任何被拋給它們的事情。
“如果你能夠基于復(fù)雜交互運行數(shù)百萬種不同的情景,這將成為一個非常有價值的工具,” 他說?!八鼘⒊蔀樵诮M織內(nèi)部署代理的基礎(chǔ)方面?!?/span>
現(xiàn)狀檢查:過度依賴合成數(shù)據(jù)的風(fēng)險
過度使用合成數(shù)據(jù)也有危險。正如Panetta(帕內(nèi)塔)在嘗試創(chuàng)建戴口罩的人的合成圖像時發(fā)現(xiàn)的那樣,它有其局限性。
“如果濫用,你將面臨相當(dāng)于過擬合的問題,輸出變得高度重復(fù)?!?人工智能平臺公司Mendix的戰(zhàn)略高級副總裁Gordon Van Huizen(戈登·范·休伊岑)說?!叭缓笤谟?xùn)練數(shù)據(jù)之外輸入提示可能會導(dǎo)致隨機或奇怪的結(jié)果,因為系統(tǒng)難以解釋新模式。”
不過,有解決方法。公司可以創(chuàng)建更多樣化的數(shù)據(jù)集,將合成數(shù)據(jù)與真實數(shù)據(jù)混合。
“但關(guān)鍵是要盡可能在所有情況下包含人工驗證協(xié)議,以利用合成數(shù)據(jù)?!?他說。
作者:Maria Korolov(瑪利亞·科羅洛夫)
Maria Korolov(瑪利亞·科羅洛夫)是一位屢獲殊榮的科技記者,擁有超過20年報道企業(yè)科技的經(jīng)驗,主要為Foundry出版物——《CIO》《CSO》《網(wǎng)絡(luò)世界》《計算機世界》《個人電腦世界》等撰寫文章。她還是一位演說家、科幻作家和雜志編輯,并且主持著一個YouTube頻道。她在亞洲經(jīng)營了一個商業(yè)新聞社五年之久,還曾為《芝加哥論壇報》、路透社、聯(lián)合通訊社、美聯(lián)社和《好萊塢報道》等媒體供稿。在20世紀90年代,她曾在前蘇聯(lián)擔(dān)任戰(zhàn)地記者,并從車臣和阿富汗等十幾個戰(zhàn)區(qū)進行報道。
Maria(瑪利亞)憑借對博通公司收購VMware以及量子計算的報道,榮獲2025年AZBEE獎。
譯者:小知
睿觀:在生成式AI的強力推動下,合成數(shù)據(jù)正從簡單的訓(xùn)練集補充工具,演變?yōu)槠髽I(yè)釋放AI全部價值、實現(xiàn)差異化競爭的關(guān)鍵戰(zhàn)略手段(核心演變)。文章詳細闡述了其七大商業(yè)用含例,包括:構(gòu)建能理解特定業(yè)務(wù)的定制化AI、填補真實世界數(shù)據(jù)的空白、在保護隱私的同時最大化數(shù)據(jù)價值、加速新產(chǎn)品研發(fā)、在無歷史數(shù)據(jù)的情況下探索新市場、構(gòu)建客戶或流程的數(shù)字孿生,以及為新興的代理型AI做好準備(關(guān)鍵應(yīng)用場景)。因此,善于利用合成數(shù)據(jù)克服現(xiàn)實數(shù)據(jù)瓶頸,已成為企業(yè)在AI時代加速創(chuàng)新、降低風(fēng)險并獲得競爭優(yōu)勢的核心策略(戰(zhàn)略價值)。
金句:
從“數(shù)據(jù)替身”到“價值引擎”,生成式AI正將合成數(shù)據(jù)從幕后推向臺前,成為企業(yè)在AI競賽中實現(xiàn)差異化超車的“秘密武器”。