生成數(shù)據(jù)可能比收集數(shù)據(jù)更快、更容易、更便宜、更具代表性,且更有利于保護(hù)隱私。但如果操作不當(dāng),合成數(shù)據(jù)可能會(huì)讓你試圖避免的問(wèn)題成倍增加。那么,如何確保選擇阻力最小的前進(jìn)道路呢?

圖片來(lái)源:NicoElNino / Shutterstock
目前,用于訓(xùn)練人工智能的數(shù)據(jù)中,已有高達(dá) 20% 是合成數(shù)據(jù)——即通過(guò)生成而非從現(xiàn)實(shí)世界觀測(cè)獲得的數(shù)據(jù)——LLM(大型語(yǔ)言模型)使用了數(shù)百萬(wàn)個(gè)合成樣本 。據(jù) Gartner(高德納)預(yù)測(cè),到 2028 年,這一比例可能會(huì)達(dá)到 80% 。該公司還表示,到 2030 年,合成數(shù)據(jù)將比真實(shí)數(shù)據(jù)更多地用于商業(yè)決策 。不過(guò),從技術(shù)層面來(lái)講,你從大型語(yǔ)言模型獲得的任何輸出都是合成數(shù)據(jù) 。
Gartner 首席研究員 Vibha Chitkara(維布哈·奇特卡拉)表示,人工智能訓(xùn)練是合成數(shù)據(jù)大放異彩的領(lǐng)域 ?!八行У亟鉀Q了與現(xiàn)實(shí)世界數(shù)據(jù)相關(guān)的許多固有挑戰(zhàn),例如偏差、不完整性、噪聲、歷史局限性,以及隱私和監(jiān)管方面的問(wèn)題,包括個(gè)人身份信息等,”她說(shuō) 。
與緩慢、昂貴且可能充滿隱私問(wèn)題或根本無(wú)法獲取的現(xiàn)實(shí)世界數(shù)據(jù)收集相比,按需生成大量訓(xùn)練數(shù)據(jù)具有很大吸引力 。她補(bǔ)充道,合成數(shù)據(jù)應(yīng)該有助于保護(hù)隱私、加快開發(fā)速度,并且對(duì)于企業(yè)在其他情況下難以處理的長(zhǎng)尾場(chǎng)景而言,成本效益更高 。假設(shè)你能夠使其足夠準(zhǔn)確,它甚至可以用于可控實(shí)驗(yàn) 。
針對(duì)特定目的構(gòu)建的數(shù)據(jù)非常適合用于情景規(guī)劃和運(yùn)行智能模擬,而足夠詳細(xì)、能夠涵蓋整個(gè)場(chǎng)景的合成數(shù)據(jù)可以預(yù)測(cè)資產(chǎn)、流程和客戶的未來(lái)行為,這對(duì)于商業(yè)規(guī)劃來(lái)說(shuō)將具有極高價(jià)值?。這類高級(jí)應(yīng)用需要模擬引擎,而除了一些早期采用領(lǐng)域外,與數(shù)字孿生類似的模擬技術(shù)仍在開發(fā)中?。
材料科學(xué)、制藥研究、石油和天然氣以及制造業(yè)顯然是合成數(shù)據(jù)的應(yīng)用市場(chǎng),但供應(yīng)鏈和保險(xiǎn)行業(yè)對(duì)其的興趣也在不斷增加 。足夠易用且準(zhǔn)確的工具可以在許多商業(yè)決策領(lǐng)域帶來(lái)運(yùn)營(yíng)改善、增加收入,同時(shí)優(yōu)化成本并降低風(fēng)險(xiǎn) 。
此外,市場(chǎng)營(yíng)銷和產(chǎn)品設(shè)計(jì)團(tuán)隊(duì)可以根據(jù)購(gòu)買數(shù)據(jù)和現(xiàn)有的客戶調(diào)查創(chuàng)建模擬客戶,然后向他們?cè)儐?wèn)對(duì)新產(chǎn)品和營(yíng)銷活動(dòng)的反饋 。一家全球供應(yīng)鏈公司正在嘗試模擬自然災(zāi)害、大流行和地緣政治變化等干擾情況,以提高供應(yīng)鏈的彈性 。這是一個(gè)多階段的過(guò)程,首先要構(gòu)建模擬引擎,生成這些情景對(duì)供應(yīng)和交付路線影響的數(shù)據(jù)集,然后訓(xùn)練人工智能模型來(lái)分析這些情景,并提出加強(qiáng)供應(yīng)鏈的建議 。
合成數(shù)據(jù)更直接的用途可能較為平常?。實(shí)際上,各組織可能已經(jīng)在人工智能領(lǐng)域之外有限地使用合成數(shù)據(jù)?。網(wǎng)絡(luò)和應(yīng)用程序開發(fā)人員依賴合成監(jiān)控,大規(guī)模模擬用戶交互,以衡量不同情景、地點(diǎn)和設(shè)備下的性能和可用性,而不是等待真實(shí)用戶遇到問(wèn)題區(qū)域,或者在發(fā)布前測(cè)試新應(yīng)用和功能?。
一、精準(zhǔn)放大
Domino Data Lab(多米諾數(shù)據(jù)實(shí)驗(yàn)室)的現(xiàn)場(chǎng)首席數(shù)據(jù)科學(xué)家 Jarrod Vawdrey(賈羅德·沃德雷)表示,如果創(chuàng)建得當(dāng),合成數(shù)據(jù)可以模擬現(xiàn)實(shí)世界數(shù)據(jù)的統(tǒng)計(jì)屬性和模式,而不包含原始數(shù)據(jù)集中的實(shí)際記錄 。IBM Research(IBM研究院)人工智能模型副總裁 David Cox(大衛(wèi)·考克斯)建議將其視為對(duì)數(shù)據(jù)的放大而非創(chuàng)建 。他說(shuō):“生成真實(shí)數(shù)據(jù)可能極其昂貴,但如果你有少量真實(shí)數(shù)據(jù),就可以對(duì)其進(jìn)行倍增 。在某些情況下,你可以創(chuàng)建出質(zhì)量比原始數(shù)據(jù)更高的合成數(shù)據(jù) 。真實(shí)數(shù)據(jù)只是一個(gè)樣本 。它無(wú)法涵蓋你在現(xiàn)實(shí)世界中可能遇到的所有不同變體和排列 。”
在沒(méi)有個(gè)人數(shù)據(jù)且不存在威脅模型的情況下,合成數(shù)據(jù)最為有用 。例如,在你自己的環(huán)境中合成多個(gè)示例,以改進(jìn)基于大型語(yǔ)言模型的智能體(即函數(shù)和應(yīng)用程序編程接口),這顯然能使模型表現(xiàn)得更好 。
對(duì)于這些場(chǎng)景,Cox(考克斯)認(rèn)為像 IBM 這樣的供應(yīng)商提供的一站式工具既安全又強(qiáng)大 ?!霸谶@種情況下,合成數(shù)據(jù)是你的好幫手,”他說(shuō) 。“它能幫助你在某些方面提升模型性能 。它與真實(shí)的人物或你擔(dān)心會(huì)泄露的數(shù)據(jù)無(wú)關(guān),完全無(wú)害且安全 。”
向合成數(shù)據(jù)中注入領(lǐng)域知識(shí),并確保特征、屬性和特性的真實(shí)分布,實(shí)際上能使模型比僅用真實(shí)數(shù)據(jù)訓(xùn)練時(shí)表現(xiàn)得更好 。
實(shí)時(shí)數(shù)據(jù)平臺(tái) SingleStore 的首席創(chuàng)新官 Rahul Rastogi(拉胡爾·拉斯托吉)說(shuō):“在實(shí)際應(yīng)用中遇到的大多數(shù)問(wèn)題都源于邊界條件,但真實(shí)數(shù)據(jù)并不能涵蓋所有這些條件 。”
例如,想要檢測(cè)流水線上有損壞或瑕疵產(chǎn)品的制造商,不太可能擁有他們希望計(jì)算機(jī)視覺(jué)模型檢測(cè)的所有可能組合的圖像 。他說(shuō),欺詐檢測(cè)和網(wǎng)絡(luò)安全領(lǐng)域可以使用合成數(shù)據(jù)進(jìn)行更極端的測(cè)試 。他說(shuō):“進(jìn)行威脅建模并盡可能多地生成合成數(shù)據(jù)可能是最佳實(shí)踐,因?yàn)槟悴荒艿鹊侥P统霈F(xiàn)數(shù)據(jù)泄露、產(chǎn)生錯(cuò)誤結(jié)果或出現(xiàn)過(guò)多誤報(bào) 。”
《歐盟人工智能法案》(EU AI Act)可能會(huì)鼓勵(lì)更多地使用合成數(shù)據(jù),因?yàn)槿绻M織希望在符合公共利益標(biāo)準(zhǔn)(例如能源可持續(xù)性或保護(hù)關(guān)鍵基礎(chǔ)設(shè)施)的人工智能監(jiān)管沙盒中使用個(gè)人數(shù)據(jù),就必須證明無(wú)法使用合成數(shù)據(jù)來(lái)替代 。要證明這一點(diǎn),就需要對(duì)合成數(shù)據(jù)進(jìn)行實(shí)驗(yàn),這可能意味著在其確實(shí)足夠有用的地方,它會(huì)得到更廣泛的應(yīng)用 。
即使對(duì)于不受《歐盟人工智能法案》影響的組織,高德納也建議盡可能使用合成數(shù)據(jù),因?yàn)樯墒饺斯ぶ悄苣P秃芸赡軙?huì)保留提示中(直接或間接)包含的個(gè)人數(shù)據(jù) 。語(yǔ)言使用模式、興趣主題,或者僅僅是用戶資料,都可能足以帶來(lái)重新識(shí)別個(gè)人身份的風(fēng)險(xiǎn) 。然而,盡管合成數(shù)據(jù)有潛在優(yōu)勢(shì),但要正確使用它并非總是一帆風(fēng)順 。
Gartner 副總裁分析師 Kjell Carlsson(凱爾·卡爾松)說(shuō):“合成數(shù)據(jù)可能是一股積極的力量,但你也可能會(huì)把它用得一團(tuán)糟?。在某種程度上,我們可以通過(guò)使用合成數(shù)據(jù)來(lái)改進(jìn)大多數(shù)用例,但它存在風(fēng)險(xiǎn),而且人們對(duì)它并不熟悉?。你需要有懂行的人,并且在操作時(shí)要格外小心?。”
二、過(guò)度復(fù)制現(xiàn)實(shí)
醫(yī)療保健領(lǐng)域,隱私保護(hù)措施阻礙了本可改善人工智能的數(shù)據(jù)分析,這使得合成數(shù)據(jù)在這里有明顯的用武之地,但對(duì)于任何客戶數(shù)據(jù)特別有價(jià)值的組織,合成數(shù)據(jù)都是有幫助的 。
盡管 Rastogi(拉斯托吉)不能透露他在蘋果公司負(fù)責(zé)全球報(bào)告、分析和數(shù)據(jù)服務(wù)時(shí)具體為哪家公司工作,但他表示,盡管最初持懷疑態(tài)度,但在首先檢查了數(shù)據(jù)的維度、分布以及笛卡爾關(guān)系后,他的前團(tuán)隊(duì)成功地將合成客戶數(shù)據(jù)用于技術(shù)評(píng)估,評(píng)估新技術(shù)時(shí)避免了讓供應(yīng)商接觸真實(shí)客戶數(shù)據(jù) 。
他說(shuō):“我們對(duì)使用真實(shí)數(shù)據(jù)很謹(jǐn)慎 。雖然真實(shí)數(shù)據(jù)會(huì)帶來(lái)最佳效果,但我們總是非常猶豫 ?!?那是五年前的事了,但他認(rèn)為如今企業(yè)在將數(shù)據(jù)用于人工智能時(shí)仍面臨類似的挑戰(zhàn) 。
IBM 研究院的 Cox(考克斯)補(bǔ)充道:“真實(shí)數(shù)據(jù)就像低放射性物質(zhì) 。你不會(huì)把它帶出公司,但如果可以的話,你根本不想隨意挪動(dòng)它 ?!?而且提供給開發(fā)人員的數(shù)據(jù)副本可能會(huì)被盜取 。許多企業(yè)坐擁大量數(shù)據(jù)卻小心翼翼,未能充分挖掘其價(jià)值,這其中蘊(yùn)含著巨大的機(jī)會(huì) 。復(fù)制一份客戶數(shù)據(jù)庫(kù)并放在其他地方存在很大風(fēng)險(xiǎn),因此創(chuàng)建一個(gè)合成替代數(shù)據(jù)要安全得多 。
Carlsson(卡爾松)表示,合成數(shù)據(jù)有望以保護(hù)隱私的方式做到這一點(diǎn),因?yàn)槟銊?chuàng)建的是數(shù)據(jù)集的合成版本,其中不應(yīng)包含任何真實(shí)個(gè)體 。但這也可能出問(wèn)題 。他說(shuō):“你可能犯了錯(cuò)誤,對(duì)某一個(gè)體采樣過(guò)于頻繁,結(jié)果復(fù)制了那個(gè)人,而且之后沒(méi)有進(jìn)行清理,沒(méi)有去除與真實(shí)人物對(duì)應(yīng)的信息 。或者有人可以直接對(duì)其進(jìn)行逆向工程,因?yàn)椴煌侄沃g的關(guān)系足夠緊密,他們可以推斷出來(lái) 。” 當(dāng)你合并多個(gè)數(shù)據(jù)集時(shí),重新識(shí)別身份的可能性更大 。
Vawdrey(沃德雷)將這種無(wú)意的復(fù)制稱為模型泄露 。他說(shuō):“這種風(fēng)險(xiǎn)隨著生成技術(shù)的發(fā)展而出現(xiàn) ?;?GAN(現(xiàn)代生成對(duì)抗網(wǎng)絡(luò))和大型語(yǔ)言模型的方法有時(shí)會(huì)記住并重現(xiàn)敏感的訓(xùn)練示例,因此企業(yè)應(yīng)該實(shí)施嚴(yán)格的隱私保護(hù)方法,如差分隱私,從數(shù)學(xué)層面確保能夠防止身份被重新識(shí)別 ?!?/span>
假設(shè)你有一個(gè)包含客戶人口統(tǒng)計(jì)信息和購(gòu)買習(xí)慣的數(shù)據(jù)庫(kù) 。差分隱私通過(guò)添加噪聲來(lái)確保隱私,但這是一種權(quán)衡,可能會(huì)降低數(shù)據(jù)的準(zhǔn)確性 。Cox(考克斯)警告說(shuō):“你添加的噪聲越多,你的數(shù)據(jù)就越不像數(shù)據(jù) ?!?/span>
合成數(shù)據(jù)本身就需要專業(yè)知識(shí),而像差分隱私這樣的先進(jìn)技術(shù)更是提高了門檻,因此許多組織將依賴人工智能平臺(tái),或與經(jīng)驗(yàn)豐富的合作伙伴合作,而不是依靠?jī)?nèi)部能力 。
三、糾偏的局限性
Carlsson(卡爾松)表示,所有數(shù)據(jù)集實(shí)際上都存在偏差,只是程度不同而已 。將代表性不足的群體數(shù)據(jù)添加回?cái)?shù)據(jù)集中可以對(duì)模型進(jìn)行糾偏 。
理論上,合成數(shù)據(jù)可以訓(xùn)練出在處理多樣化群體數(shù)據(jù)或應(yīng)對(duì)復(fù)雜情況時(shí)表現(xiàn)更好的模型 。以音頻數(shù)據(jù)為例,你可以添加更多邊緣情況的示例,如不同的口音、嘈雜的環(huán)境(如零售環(huán)境)、需要準(zhǔn)確識(shí)別的罕見術(shù)語(yǔ),或者從一種語(yǔ)言轉(zhuǎn)換到另一種語(yǔ)言的對(duì)話 。
Carlsson(卡爾松)說(shuō):“你可以創(chuàng)建數(shù)據(jù)中代表性不足群體的合成變體版本 。在我的臨床試驗(yàn)中,某一特定種族、年齡或性別的樣本數(shù)量不足 。” 通過(guò)增加足夠多樣化的代表性數(shù)據(jù)可以重新平衡數(shù)據(jù)集 ?!拔铱梢詣?chuàng)建這些個(gè)體的合成版本,并圍繞它們添加更多變體,從而使這個(gè)模型針對(duì)該群體的性能得到實(shí)際提升 。但我也可能完全搞砸,對(duì)數(shù)量過(guò)少的群體進(jìn)行過(guò)度采樣,最終只是一遍又一遍地復(fù)制同一個(gè)體 。這從隱私角度來(lái)看是不利的,而且也無(wú)助于提升模型性能,因?yàn)樵搨€(gè)體可能并不能很好地代表這個(gè)群體 。你很容易誤入歧途,使數(shù)據(jù)問(wèn)題變得更糟,讓偏差比之前更大 ?!?/span>
IT 數(shù)據(jù)庫(kù) ACM Digital Library 最近的一項(xiàng)研究表明,即使是那些聲稱能生成無(wú)偏差數(shù)據(jù)集的工具,如果沒(méi)有基于人口統(tǒng)計(jì)數(shù)據(jù)提供指導(dǎo)或控制措施,也可能會(huì)生成嚴(yán)重不均衡的種族數(shù)據(jù)集,這種數(shù)據(jù)集看似多樣,但卻完全遺漏了構(gòu)成真實(shí)人口相當(dāng)比例的某些群體 。如果生成的數(shù)據(jù)基于極少數(shù)基礎(chǔ)數(shù)據(jù)樣本,且不清楚這些樣本的某些特定特征在真實(shí)人口中的分布情況,那么得到的統(tǒng)計(jì)多樣性可能并不具有代表性 。
Carlsson(卡爾松)說(shuō):“你會(huì)誤以為模型能夠正常工作,從而產(chǎn)生一種虛假的安全感 ?!?/span>
因此,顯而易見的風(fēng)險(xiǎn)是合成數(shù)據(jù)可能質(zhì)量較差,甚至是錯(cuò)誤的 。所以,針對(duì)每個(gè)用例使用正確的技術(shù)來(lái)生成數(shù)據(jù),與對(duì)數(shù)據(jù)進(jìn)行全面檢查同樣至關(guān)重要 。
Vawdrey(沃德雷)說(shuō):“對(duì)于表格數(shù)據(jù),統(tǒng)計(jì)相關(guān)性可能會(huì)被過(guò)度簡(jiǎn)化,而合成圖像可能缺乏現(xiàn)實(shí)世界視覺(jué)數(shù)據(jù)中存在的細(xì)微變化 。文本生成在事實(shí)準(zhǔn)確性和連貫性方面面臨挑戰(zhàn) ?!?當(dāng)合成數(shù)據(jù)未能捕捉到現(xiàn)實(shí)世界數(shù)據(jù)的真正復(fù)雜性和細(xì)微差別時(shí),也會(huì)出現(xiàn)問(wèn)題,導(dǎo)致模型在合成測(cè)試中表現(xiàn)良好,但在實(shí)際生產(chǎn)環(huán)境中卻失敗 。
四、基于專業(yè)知識(shí)構(gòu)建
AI 生命周期平臺(tái) Future AGI 的首席執(zhí)行官 Nikhil Pareek(尼基爾·帕里克)表示,與大型語(yǔ)言模型一樣,合成數(shù)據(jù)也需要在現(xiàn)實(shí)世界背景中有嚴(yán)格的基礎(chǔ)支撐,例如通過(guò) RAG(檢索增強(qiáng)生成)來(lái)避免產(chǎn)生幻覺(jué)或輸出無(wú)意義的內(nèi)容 。如果合成數(shù)據(jù)的分布不準(zhǔn)確,存在類別不平衡或相關(guān)性不匹配的問(wèn)題,即使看起來(lái)合理的數(shù)據(jù)也可能會(huì)引發(fā)問(wèn)題 。
迭代驗(yàn)證和語(yǔ)義聚類可以將生成的數(shù)據(jù)與實(shí)際觀察到的模式相結(jié)合,這會(huì)有所幫助,而這需要領(lǐng)域?qū)I(yè)知識(shí),這樣你就能發(fā)現(xiàn)錯(cuò)誤的數(shù)據(jù),尤其是在進(jìn)行模擬時(shí) 。
好消息是,這為組織提供了差異化競(jìng)爭(zhēng)的機(jī)會(huì),Cox(考克斯)說(shuō) 。“你對(duì)業(yè)務(wù)、客戶以及業(yè)務(wù)運(yùn)作方式的領(lǐng)域?qū)I(yè)知識(shí)是最為關(guān)鍵的 。”
關(guān)鍵在于讓企業(yè)內(nèi)部合適的專家參與進(jìn)來(lái),并獲取正確的技術(shù)專長(zhǎng) 。但可供企業(yè)聘請(qǐng)的有經(jīng)驗(yàn)的合成數(shù)據(jù)工程師很少 。Chitkara(奇特卡拉)警告說(shuō):“生成高質(zhì)量、符合特定用途的數(shù)據(jù)需要專業(yè)知識(shí)和技能,這對(duì)如今的許多組織來(lái)說(shuō)是一個(gè)障礙 。” 而且,在組織能夠信任合成數(shù)據(jù)及其相關(guān)管理機(jī)制之前,其采用速度將會(huì)很緩慢 。
Cox(考克斯)繼續(xù)說(shuō)道:“對(duì)于考慮應(yīng)用人工智能的企業(yè)利益相關(guān)者而言,如今需要培養(yǎng)的最重要技能是基準(zhǔn)測(cè)試和評(píng)估 。你得明確‘好’的標(biāo)準(zhǔn)是什么,以及要如何測(cè)試系統(tǒng),才能判斷在添加合成數(shù)據(jù)后,系統(tǒng)的表現(xiàn)是否比之前有所提升 。” 監(jiān)測(cè)和評(píng)估需要持續(xù)進(jìn)行,并與企業(yè)目標(biāo)相結(jié)合 。
五、空間不足
由于合成數(shù)據(jù)通常比真實(shí)數(shù)據(jù)更容易生成,而且其目的就是創(chuàng)建大量示例以涵蓋多種場(chǎng)景,企業(yè)最終很可能會(huì)得到規(guī)模大得多的數(shù)據(jù)集 。此外,他們可能還會(huì)低估生成合成數(shù)據(jù)所需的基礎(chǔ)設(shè)施 。
Vawdrey(沃德雷)說(shuō):“早期的方法,如基于規(guī)則的生成方法或合成少數(shù)類過(guò)采樣技術(shù)(SMOTE),所需的計(jì)算資源較少,而像生成對(duì)抗網(wǎng)絡(luò)(GAN)這樣的現(xiàn)代深度學(xué)習(xí)方法則需要大量的圖形處理器(GPU)計(jì)算能力 。最新的基于大語(yǔ)言模型的合成數(shù)據(jù)生成可能需要企業(yè)級(jí)的基礎(chǔ)設(shè)施,特別是在進(jìn)行大規(guī)模圖像或視頻合成時(shí) ?!?/span>
合成數(shù)據(jù)一旦生成,企業(yè)還需要保留合成數(shù)據(jù)集和模型工件以供審計(jì);必須有清晰的文檔記錄,以顯示合成數(shù)據(jù)是如何創(chuàng)建、驗(yàn)證和使用的 。
合成數(shù)據(jù)可以是結(jié)構(gòu)化的和緊湊的,沒(méi)有混亂的真實(shí)世界數(shù)據(jù)中的噪聲、冗余和非結(jié)構(gòu)化元素 。但 Chitkara(奇特卡拉)說(shuō),由于生成的數(shù)據(jù)量很大,場(chǎng)景探索和智能模擬需要大量的計(jì)算資源和存儲(chǔ)容量 。合成媒體數(shù)據(jù)集可能會(huì)達(dá)到 PB(千萬(wàn)億字節(jié))級(jí)別 。
Cox(考克斯)補(bǔ)充道:“這是一種財(cái)富過(guò)剩的情況?。你很容易創(chuàng)造出多得不知如何處理的東西?。僅僅因?yàn)樗呛铣蓴?shù)據(jù),并不意味著你就不必保留它、對(duì)其進(jìn)行審計(jì),以及了解它是如何創(chuàng)建和使用的?。你仍然需要對(duì)其進(jìn)行處理?。”
睿觀:
合成數(shù)據(jù)因其在AI訓(xùn)練中的高效、低成本及隱私保護(hù)潛力而迅速普及。但其應(yīng)用亦伴隨偏見放大、隱私泄露及質(zhì)量參差等風(fēng)險(xiǎn),需專業(yè)知識(shí)、嚴(yán)格驗(yàn)證與審慎治理。組織唯有平衡機(jī)遇與風(fēng)險(xiǎn),方能安全釋放其價(jià)值。
【專家解讀】合成數(shù)據(jù),即非通過(guò)直接觀測(cè)真實(shí)世界、而是通過(guò)算法生成的數(shù)據(jù),正以前所未有的速度滲透到 AI 領(lǐng)域。Gartner 的預(yù)測(cè)——到 2028 年 AI 訓(xùn)練數(shù)據(jù)中 80% 是合成數(shù)據(jù),到 2030 年其在商業(yè)決策中的應(yīng)用將超過(guò)真實(shí)數(shù)據(jù)——清晰地揭示了這一趨勢(shì)的強(qiáng)度。這不僅是 LLM 發(fā)展的必然產(chǎn)物(其輸出本質(zhì)上就是合成數(shù)據(jù)),更是解決現(xiàn)實(shí)世界數(shù)據(jù)固有頑疾(如偏差、不完整、隱私限制、獲取成本高等)的關(guān)鍵路徑。合成數(shù)據(jù)為 AI 發(fā)展提供了更廣闊、更靈活、更安全的數(shù)據(jù)基礎(chǔ),尤其是在隱私保護(hù)、開發(fā)加速和處理長(zhǎng)尾場(chǎng)景方面,展現(xiàn)出巨大潛力。
【小白提問(wèn) & 解答】問(wèn):啥是合成數(shù)據(jù)?聽起來(lái)像是“假數(shù)據(jù)”,我們?yōu)樯兑谩凹佟钡模挥谜娴哪兀?答:沒(méi)錯(cuò),你可以把它理解成“高仿數(shù)據(jù)”或者“AI 的電影替身”。為什么要用“替身”呢?因?yàn)椤罢婷餍恰保ㄕ鎸?shí)數(shù)據(jù))有幾個(gè)問(wèn)題:
太貴了:
采集真實(shí)數(shù)據(jù)費(fèi)時(shí)費(fèi)力又費(fèi)錢。
太少了:
有些特殊情況(比如罕見病、極端天氣)的真實(shí)數(shù)據(jù)很難找到。
怕曝光:
真實(shí)數(shù)據(jù)涉及隱私,不能隨便用,法律管得嚴(yán)。
有偏見:
真實(shí)數(shù)據(jù)可能本身就不公平,比如只拍帥哥美女,忽略了普通人。 而“替身”(合成數(shù)據(jù))就可以又快又便宜地大批量生產(chǎn),還能專門造出稀有場(chǎng)景,最重要的是,它不涉及真人隱私,用起來(lái)更安全、更自由!
【專家解讀】合成數(shù)據(jù)的應(yīng)用遠(yuǎn)不止于模型訓(xùn)練。其在情景規(guī)劃和智能模擬方面價(jià)值巨大,通過(guò)構(gòu)建高保真度的數(shù)字孿生或模擬引擎,企業(yè)可以預(yù)測(cè)資產(chǎn)、流程乃至客戶在不同假設(shè)條件下的行為,為商業(yè)規(guī)劃、風(fēng)險(xiǎn)管理(如供應(yīng)鏈彈性推演)提供前所未有的洞察力。此外,它還能創(chuàng)建模擬客戶,用于市場(chǎng)調(diào)研和產(chǎn)品測(cè)試。雖然高端模擬應(yīng)用仍在發(fā)展,但在材料科學(xué)、制藥、制造業(yè)等領(lǐng)域已顯現(xiàn)成效,并正向供應(yīng)鏈、保險(xiǎn)等行業(yè)擴(kuò)展。同時(shí),合成監(jiān)控等相對(duì)基礎(chǔ)的應(yīng)用也已在軟件開發(fā)中普及。
【小白提問(wèn) & 解答】問(wèn):這“高仿數(shù)據(jù)”聽著很神,到底能用在哪兒??答:用處可多了!想象一下:
開“沙盒模式”:
就像玩游戲開沙盒,公司可以用它來(lái)模擬各種“假如”——假如發(fā)生地震了供應(yīng)鏈怎么辦?假如推出這個(gè)新產(chǎn)品客戶會(huì)買嗎?它能幫你提前演練,少走彎樹。
造“虛擬客戶”:
想知道新廣告效果?不用滿世界找人做問(wèn)卷,造一批“虛擬客戶”出來(lái),讓他們“看廣告”,直接告訴你喜不喜歡。
當(dāng)“測(cè)試假人”:
開發(fā)新 APP 或網(wǎng)站時(shí),可以用它模擬成千上萬(wàn)個(gè)用戶同時(shí)在線,看看系統(tǒng)會(huì)不會(huì)崩潰,哪里會(huì)卡頓,比等真實(shí)用戶抱怨強(qiáng)多了。
【專家解讀】合成數(shù)據(jù)的核心優(yōu)勢(shì)并非無(wú)中生有,而是對(duì)真實(shí)數(shù)據(jù)的“精準(zhǔn)放大” (Accurate Amplification)。它可以捕捉并模擬真實(shí)數(shù)據(jù)的統(tǒng)計(jì)特性和模式,卻不包含具體個(gè)體信息。如 IBM 的 David Cox 所言,它能將少量珍貴的真實(shí)數(shù)據(jù)“倍增”,甚至通過(guò)注入領(lǐng)域知識(shí)和確保分布真實(shí)性,生成比原始樣本質(zhì)量更高、更能覆蓋邊界條件 (Boundary Conditions) 的數(shù)據(jù)。這對(duì)于需要處理極端情況(如欺詐檢測(cè)、網(wǎng)絡(luò)安全測(cè)試)或改進(jìn)特定模型功能(如 LLM Agent 的 API 調(diào)用)的場(chǎng)景至關(guān)重要?!稓W盟 AI 法案》等法規(guī)也可能因其隱私優(yōu)勢(shì)而推動(dòng)其應(yīng)用。
【小白提問(wèn) & 解答】問(wèn):“假數(shù)據(jù)”怎么可能比真的還好?這不是吹牛嗎??答:這不是吹牛,關(guān)鍵在于“舉一反三”!真實(shí)數(shù)據(jù)就像你手里只有幾張貓的照片,可能都是貓趴著的樣子。而合成數(shù)據(jù)可以根據(jù)這幾張照片,學(xué)習(xí)貓長(zhǎng)什么樣,然后“畫”出成千上萬(wàn)張貓的照片,包括貓?zhí)饋?lái)的、躲起來(lái)的、甚至在月球上的(只要你敢想)!它能幫你補(bǔ)全真實(shí)世界里很難收集到的場(chǎng)景,讓 AI 變得更聰明、見識(shí)更廣。特別是那些犄角旮旯的“疑難雜癥”,真實(shí)數(shù)據(jù)里很少,但合成數(shù)據(jù)可以專門造出來(lái)給 AI 練手。
【專家解讀】合成數(shù)據(jù)并非萬(wàn)無(wú)一失,它是一把雙刃劍。Kjell Carlsson 警告說(shuō):“你可能會(huì)把它用得一團(tuán)糟”。主要風(fēng)險(xiǎn)體現(xiàn)在:
隱私泄露(過(guò)度復(fù)制現(xiàn)實(shí)):
盡管初衷是保護(hù)隱私,但生成過(guò)程可能無(wú)意中“記住”并“復(fù)制”真實(shí)個(gè)體(模型泄露),尤其是在對(duì)抗性網(wǎng)絡(luò)( GAN )和大語(yǔ)言模型 LLM 中。多個(gè)數(shù)據(jù)集的關(guān)聯(lián)更可能導(dǎo)致身份重識(shí)別。差分隱私 (Differential Privacy)是一種數(shù)學(xué)保障手段,但它通過(guò)添加噪聲來(lái)實(shí)現(xiàn),這又會(huì)犧牲數(shù)據(jù)準(zhǔn)確性——這是一個(gè)艱難的權(quán)衡。
偏見放大(糾偏的局限性):
理論上,合成數(shù)據(jù)可以用于糾偏,增加代表性不足群體的樣本。但如果操作不當(dāng)(如過(guò)度采樣不具代表性的少數(shù)個(gè)體,或生成不真實(shí)的變體),反而可能加劇甚至創(chuàng)造新的偏見,產(chǎn)生虛假的安全感。ACM 的研究就證明了這一點(diǎn)。
質(zhì)量低下(錯(cuò)誤與失真):
合成數(shù)據(jù)可能過(guò)度簡(jiǎn)化(表格數(shù)據(jù))、缺乏細(xì)節(jié)(圖像)、不準(zhǔn)確或不連貫(文本)。如果未能捕捉真實(shí)世界的復(fù)雜性,會(huì)導(dǎo)致模型在測(cè)試時(shí)表現(xiàn)良好,但在生產(chǎn)環(huán)境中失效。
【小白提問(wèn) & 解答】問(wèn):聽起來(lái)這么好,那用它有什么風(fēng)險(xiǎn)嗎?會(huì)不會(huì)坑了我??答:風(fēng)險(xiǎn)當(dāng)然有,而且不??!這就像用“替身”:
“替身”太像,穿幫了:
如果“替身”造得太像某個(gè)真人,甚至把真人的小秘密(比如胎記)都復(fù)制了,那隱私保護(hù)就成了空話。或者,有人把好幾個(gè)“替身”的信息拼起來(lái),居然猜出了真人是誰(shuí)!雖然有辦法(比如給“替身”加點(diǎn)“馬賽克”),但加多了又不像了,影響使用。
“替身”加劇了不公平:
本想多找些“少數(shù)族裔替身”來(lái)消除歧視,結(jié)果找來(lái)找去都是那一個(gè)“替身”在演,或者造出來(lái)的“替身”根本不像那個(gè)族裔的人,結(jié)果比以前更不公平了,還讓你誤以為問(wèn)題解決了。
“替身”演技太差:
造出來(lái)的“替身”可能看著像那么回事,但細(xì)節(jié)一塌糊涂,動(dòng)作僵硬。AI 跟這種“爛替身”學(xué)習(xí),考試可能能過(guò),一到“拍真戲”(實(shí)際應(yīng)用)就露餡了。?所以,用合成數(shù)據(jù)就像走鋼絲,必須非常小心,技術(shù)要過(guò)硬!
【專家解讀】要成功駕馭合成數(shù)據(jù),必須以真實(shí)世界為錨點(diǎn)(如通過(guò) RAG 避免幻覺(jué)),并深度融合領(lǐng)域?qū)I(yè)知識(shí),才能發(fā)現(xiàn)生成數(shù)據(jù)中的謬誤,尤其是在進(jìn)行模擬時(shí)。這為擁有深厚行業(yè)知識(shí)的企業(yè)提供了差異化優(yōu)勢(shì)。同時(shí),基準(zhǔn)測(cè)試和評(píng)估能力至關(guān)重要,需要明確“好”的標(biāo)準(zhǔn),并持續(xù)監(jiān)控模型表現(xiàn)。然而,當(dāng)前市場(chǎng)缺乏經(jīng)驗(yàn)豐富的合成數(shù)據(jù)工程師,且企業(yè)需要建立對(duì)合成數(shù)據(jù)及其治理機(jī)制的信任,這都構(gòu)成了采納的障礙。
【小白提問(wèn) & 解答】問(wèn):既然這么難,我們到底該怎么辦??答:關(guān)鍵有兩點(diǎn):
找對(duì)人:
你不僅需要懂 AI 的技術(shù)大牛來(lái)“造替身”,更需要懂你這行生意的老師傅來(lái)“把關(guān)”,看看造出來(lái)的“替身”是不是真的符合實(shí)際情況。比如,造“虛擬客戶”,你得讓真懂銷售的人來(lái)看看這些“客戶”買東西的邏輯對(duì)不對(duì)。
定好規(guī)矩,做好檢查:
你得有個(gè)標(biāo)準(zhǔn),知道什么樣的“替身”算合格。還要不停地測(cè)試,看看用了“替身”后,AI 是不是真的變聰明了,有沒(méi)有幫到你的生意。這需要持續(xù)的努力和投入。
【專家解讀】生成合成數(shù)據(jù),尤其是使用現(xiàn)代深度學(xué)習(xí)方法(如 GAN、LLM)進(jìn)行大規(guī)模生成時(shí),需要巨大的計(jì)算資源(特別是 GPU)和企業(yè)級(jí)基礎(chǔ)設(shè)施。此外,生成的大量數(shù)據(jù)(可能達(dá)到 PB 級(jí)別)需要龐大的存儲(chǔ)空間。更重要的是,企業(yè)必須保留這些數(shù)據(jù)和模型工件以供審計(jì),并建立清晰的文檔記錄,追蹤其創(chuàng)建、驗(yàn)證和使用過(guò)程。這并非一次性投入,而是持續(xù)的管理負(fù)擔(dān)。
【小白提問(wèn) & 解答】問(wèn):這玩意兒是不是很“燒錢”,還得找個(gè)大倉(cāng)庫(kù)放??答:沒(méi)錯(cuò)!造高質(zhì)量的“替身”,特別是像電影那樣的,需要超級(jí)電腦(很貴?。?。而且你會(huì)造出海量的“替身”,確實(shí)需要超大的“倉(cāng)庫(kù)”(硬盤)來(lái)放。最麻煩的是,你還得給每個(gè)“替身”建檔立卡,記錄它是怎么來(lái)的,怎么用的,有沒(méi)有問(wèn)題,以備將來(lái)查驗(yàn)。這就像管理一個(gè)巨大的電影道具庫(kù),既費(fèi)錢又費(fèi)心。
【專家解讀】合成數(shù)據(jù)為 AI 發(fā)展和企業(yè)決策開啟了充滿機(jī)遇的新篇章,它能有效應(yīng)對(duì)真實(shí)數(shù)據(jù)的諸多挑戰(zhàn)。然而,它并非銀彈,其潛在的隱私、偏見和質(zhì)量風(fēng)險(xiǎn)要求我們必須以高度的專業(yè)知識(shí)、嚴(yán)謹(jǐn)?shù)尿?yàn)證流程和健全的治理機(jī)制來(lái)駕馭它。成功利用合成數(shù)據(jù)的關(guān)鍵,在于深刻理解其能力邊界,審慎評(píng)估應(yīng)用風(fēng)險(xiǎn),并持續(xù)投入技術(shù)、人才和管理資源,最終實(shí)現(xiàn)回報(bào)與風(fēng)險(xiǎn)的平衡。
【小白提問(wèn) & 解答】問(wèn):所以,這“高仿數(shù)據(jù)”到底是好是壞??答:它是一把非常鋒利的雙刃劍。用好了,它能幫你解決大問(wèn)題,省錢省力還安全;用不好,它可能會(huì)捅出更大的簍子,讓你頭疼不已。所以,關(guān)鍵在于:想用好它,就得真正懂它,尊重它,管好它。不能光想著它的好,忘了它也可能帶來(lái)的麻煩。