生成式人工智能可以解決一系列的數(shù)據(jù)挑戰(zhàn)——填補(bǔ)空白,從文檔中提取信息和提高數(shù)據(jù)質(zhì)量——但專(zhuān)家表示,要謹(jǐn)慎行事,并將其與傳統(tǒng)方法結(jié)合使用。生成式人工智能是一項(xiàng)強(qiáng)大技術(shù),可以用于解決各種數(shù)據(jù)挑戰(zhàn)。然而,重要的是要負(fù)責(zé)任和道德地使用它,并意識(shí)到其局限性。
圖源:ESB BASIC(圖片上傳者,可以譯為用戶(hù)ESB BASIC,或者ESB BASIC)/SHUTTERSTOCK
【睿觀:生成式人工智能(Generative AI)是一種強(qiáng)大的工具,可以用于解決各種數(shù)據(jù)挑戰(zhàn)。
一、主要作用:
填補(bǔ)數(shù)據(jù)空白:?生成式人工智能可以生成新的、逼真的數(shù)據(jù),用于訓(xùn)練機(jī)器學(xué)習(xí)模型或創(chuàng)建合成數(shù)據(jù)集。這對(duì)于在數(shù)據(jù)稀缺或難以獲取的情況下特別有用。
從文檔中提取信息:?生成式人工智能可以用于從非結(jié)構(gòu)化和半結(jié)構(gòu)化文檔中提取關(guān)鍵信息,例如合同、發(fā)票和醫(yī)療記錄。這可以自動(dòng)化數(shù)據(jù)提取過(guò)程并提高數(shù)據(jù)準(zhǔn)確性。
提高數(shù)據(jù)質(zhì)量:?生成式人工智能可以用于識(shí)別和刪除數(shù)據(jù)中的錯(cuò)誤、重復(fù)項(xiàng)和不一致項(xiàng)。這可以提高數(shù)據(jù)質(zhì)量并使其更易于分析。
然而,重要的是要注意,生成式人工智能并不是靈丹妙藥。它應(yīng)該與傳統(tǒng)的數(shù)據(jù)方法結(jié)合使用,并由具有相關(guān)專(zhuān)業(yè)知識(shí)的人員進(jìn)行監(jiān)督。
生成式人工智能可以用于生成新的、逼真的數(shù)據(jù),用于訓(xùn)練機(jī)器學(xué)習(xí)模型或創(chuàng)建合成數(shù)據(jù)集。
生成式人工智能可以用于從非結(jié)構(gòu)化和半結(jié)構(gòu)化文檔中提取關(guān)鍵信息。
生成式人工智能可以用于識(shí)別和刪除數(shù)據(jù)中的錯(cuò)誤、重復(fù)項(xiàng)和不一致項(xiàng)。
生成式人工智能應(yīng)該與傳統(tǒng)的數(shù)據(jù)方法結(jié)合使用,并由具有相關(guān)專(zhuān)業(yè)知識(shí)的人員進(jìn)行監(jiān)督。
生成式人工智能模型可能存在偏差,因此在使用之前對(duì)其進(jìn)行評(píng)估很重要。
生成式人工智能模型可能需要大量計(jì)算資源,因此可能不適用于所有應(yīng)用。
生成式人工智能模型可能無(wú)法生成完全準(zhǔn)確或可靠的數(shù)據(jù),因此在使用之前對(duì)其進(jìn)行驗(yàn)證很重要。
隨著生成式人工智能技術(shù)的不斷發(fā)展,它在解決數(shù)據(jù)挑戰(zhàn)方面將變得更加強(qiáng)大。我們可以期待看到生成式人工智能被用于更廣泛的應(yīng)用,例如:
創(chuàng)建個(gè)性化的學(xué)習(xí)體驗(yàn)
開(kāi)發(fā)新的藥物和治療方法
構(gòu)建更智能的城市和基礎(chǔ)設(shè)施
生成式人工智能是一項(xiàng)強(qiáng)大的技術(shù),可以用于解決各種數(shù)據(jù)挑戰(zhàn)。然而,重要的是要負(fù)責(zé)任和道德地使用它,并意識(shí)到其局限性。】
目前,低收入國(guó)家有1.43億人在等待手術(shù)。Boston Children’s Hospital(哈佛大學(xué)醫(yī)學(xué)院附屬波士頓兒童醫(yī)院,簡(jiǎn)稱(chēng)波士頓兒童醫(yī)院,始建于1869年,一家非盈利醫(yī)療機(jī)構(gòu),位于美國(guó)馬薩諸塞州波士頓,毗鄰其教學(xué)附屬機(jī)構(gòu)哈佛醫(yī)學(xué)院和達(dá)納法伯癌癥中心研究所。)副首席醫(yī)療官、Harvard medical School(哈佛醫(yī)學(xué)院,簡(jiǎn)稱(chēng):HMS。是世界上最頂尖的醫(yī)學(xué)院,它因高超的醫(yī)學(xué)技術(shù)與每年錄取的學(xué)生最少而聞名世界。與商學(xué)院,法學(xué)院共同占有世界高等學(xué)術(shù)殿堂的一席地位。)教授、致力于解決這一信息問(wèn)題的非政府組織the Virtue Foundation(美德基金會(huì),通過(guò)主要由志愿者推動(dòng)的努力,包括醫(yī)療探險(xiǎn)、研究和設(shè)備捐贈(zèng),在25多個(gè)國(guó)家提供全球醫(yī)療服務(wù)。是一個(gè)具有聯(lián)合國(guó)特別咨商地位的非營(yíng)利組織。其使命是通過(guò)醫(yī)療保健、教育、婦女和司法項(xiàng)目以及研究和分析領(lǐng)域的創(chuàng)新工作,提高認(rèn)識(shí),激勵(lì)行動(dòng),提供援助。美德基金會(huì)主要由志愿者組成。美德基金會(huì)致力于為全球社區(qū)提供有影響力的短期和長(zhǎng)期可持續(xù)發(fā)展解決方案。目標(biāo)是解決緊迫的、緊迫的社區(qū)關(guān)切,同時(shí)建立持久的伙伴關(guān)系,以創(chuàng)建和實(shí)施衛(wèi)生、教育和賦權(quán)領(lǐng)域的發(fā)展和進(jìn)步倡議。除了在世界各國(guó)開(kāi)展這一領(lǐng)域的工作外,還參與了大量的研究和分析,并花了幾年時(shí)間開(kāi)發(fā)了Actionable Data Initiative,這是一種數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)模型,旨在為世界上服務(wù)不足的地區(qū)的醫(yī)療保健服務(wù)創(chuàng)造一個(gè)高效的市場(chǎng)。)的聯(lián)合創(chuàng)始人Joan LaRovere(瓊·拉羅弗)表示,有組織準(zhǔn)備引進(jìn)醫(yī)生和資源,但兩者之間存在信息差距。
The Virtue Foundation成立于2002年,已經(jīng)建立了世界上最大的非政府組織和醫(yī)療機(jī)構(gòu)數(shù)據(jù)庫(kù),在超過(guò)25個(gè)國(guó)家提供全球衛(wèi)生服務(wù),組織醫(yī)療探險(xiǎn),進(jìn)行研究和捐贈(zèng)醫(yī)療設(shè)備。作為這項(xiàng)工作的一部分,該基金會(huì)的志愿者了解了收集可靠數(shù)據(jù)以提供高效醫(yī)療活動(dòng)的必要性。
LaRovere(拉羅弗)說(shuō),問(wèn)題是信息來(lái)源的多樣性令人難以置信,而且往往是隱藏的。
“它不是集成的,”她說(shuō),“它在網(wǎng)上,被隱藏在政府組織里。它是結(jié)構(gòu)化和非結(jié)構(gòu)化的混合格式?!?/span>
為了幫助緩解復(fù)雜性并提取見(jiàn)解,該基金會(huì)與DataBricks(屬于 Spark 的商業(yè)化公司。致力于提供基于 Spark 的云服務(wù),可用于數(shù)據(jù)集成、數(shù)據(jù)連接等任務(wù)。)和DataRobot(成立于2012年6月,總部位于馬薩諸塞州波士頓。是一家全球領(lǐng)先的機(jī)器學(xué)習(xí)平臺(tái),提供一個(gè)預(yù)測(cè)分析平臺(tái)幫助用戶(hù)快速構(gòu)建和部署云或企業(yè)的預(yù)測(cè)模型。)合作,使用不同的人工智能模型,在該數(shù)據(jù)庫(kù)的基礎(chǔ)上構(gòu)建了一個(gè)分析層。LaRovere(拉羅弗)說(shuō),其中一些模型是傳統(tǒng)的ML(機(jī)器學(xué)習(xí),是研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。),還有一些是生成式人工智能,包括新的多模態(tài)進(jìn)步。
“生成式人工智能正在填補(bǔ)數(shù)據(jù)空白,”她說(shuō),“這是一件非常新的事情,我們正處曲線(xiàn)于最前沿?!?/span>
她說(shuō),下一步是利用基礎(chǔ)數(shù)據(jù)集,利用其他數(shù)據(jù)源、更多層次的數(shù)據(jù),甚至衛(wèi)星數(shù)據(jù)對(duì)其進(jìn)行擴(kuò)充,以獲得見(jiàn)解并找出相關(guān)性。
她補(bǔ)充道:“人工智能的能力讓我們能夠?qū)o(wú)形之物化為可見(jiàn)?!?/span>
但the Virtue Foundation并不是唯一一個(gè)嘗試使用生成式人工智能來(lái)幫助開(kāi)發(fā)或增強(qiáng)數(shù)據(jù)集的機(jī)構(gòu)。
“這確實(shí)有效,而且現(xiàn)在越來(lái)越多的公司正在使用。”P(pán)wC(普華永道咨詢(xún)公司,國(guó)際領(lǐng)先的管理咨詢(xún)公司之一。2002年7月30日,普華永道咨詢(xún)公司被IBM以35億美元的現(xiàn)金和股票形式收購(gòu)。)生成式人工智能遠(yuǎn)程營(yíng)銷(xiāo)戰(zhàn)略合伙人兼領(lǐng)導(dǎo)者Bret Greenstein(布雷特·格林斯坦)說(shuō),“大多數(shù)企業(yè)數(shù)據(jù)都是非結(jié)構(gòu)化和半結(jié)構(gòu)化的文檔和代碼,以及圖像和視頻。在過(guò)去,如果沒(méi)有復(fù)雜的自定義解決方案,這些數(shù)據(jù)是無(wú)法訪(fǎng)問(wèn)的,而這些解決方案往往非常脆弱?!?/span>
例如,生成式人工智能可以用于從文檔中提取元數(shù)據(jù),創(chuàng)建信息和知識(shí)圖的索引,以及查詢(xún)、匯總和分析這些數(shù)據(jù)。
“與需要大量手工處理的舊方法相比,這是一個(gè)巨大的飛躍?!彼f(shuō),“它解鎖了許多用例,因?yàn)榇蠖鄶?shù)工作流和流程都基于文檔和類(lèi)似的數(shù)據(jù)類(lèi)型?!?/span>
根據(jù)IDC(國(guó)際數(shù)據(jù)公司,是國(guó)際數(shù)據(jù)集團(tuán)旗下全資子公司。是信息技術(shù)、電信行業(yè)和消費(fèi)科技市場(chǎng)咨詢(xún)、顧問(wèn)和活動(dòng)服務(wù)專(zhuān)業(yè)提供商。經(jīng)常發(fā)布的市場(chǎng)資訊、預(yù)測(cè)和資深分析師關(guān)于業(yè)內(nèi)熱點(diǎn)話(huà)題的觀點(diǎn)性文章。)的數(shù)據(jù),2022年組織生成的數(shù)據(jù)中,90%是非結(jié)構(gòu)化的。公司使用生成式人工智能創(chuàng)建合成數(shù)據(jù),從訓(xùn)練數(shù)據(jù)集中查找和刪除敏感信息,為數(shù)據(jù)添加意義和上下文,并在傳統(tǒng)ML方法無(wú)法實(shí)現(xiàn)的情況下執(zhí)行其他更高級(jí)別的功能。但生成式人工智能也可能比舊技術(shù)更慢、更昂貴,有時(shí)甚至更不準(zhǔn)確,專(zhuān)家建議不要在所有基礎(chǔ)層都到位之前就投入其中。
一、數(shù)據(jù)提取用例
ABBYY(致力于人工智能和語(yǔ)言軟件開(kāi)發(fā),提供全套文檔識(shí)別,轉(zhuǎn)換和數(shù)據(jù)捕捉技術(shù)的產(chǎn)品解決方案。在全球在超過(guò)80個(gè)國(guó)家有分布式的伙伴網(wǎng)絡(luò),包括法國(guó),英國(guó),澳大利亞,意大利,印度,等等。)是一家智能自動(dòng)化公司,已經(jīng)使用各種類(lèi)型的人工智能和ML來(lái)處理文檔超過(guò)35年了。三年前,早在ChatGPT(是人工智能技術(shù)驅(qū)動(dòng)的自然語(yǔ)言處理工具,它能夠通過(guò)理解和學(xué)習(xí)人類(lèi)的語(yǔ)言來(lái)進(jìn)行對(duì)話(huà),還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類(lèi)一樣來(lái)聊天交流,甚至能完成撰寫(xiě)郵件、視頻腳本、文案、翻譯、代碼,寫(xiě)論文等任務(wù))出現(xiàn)之前,它就開(kāi)始使用生成式人工智能。
“我們用它來(lái)幫助視覺(jué)識(shí)別,”ABBYY的人工智能戰(zhàn)略高級(jí)總監(jiān)Max Vermeir(邁克斯·維梅爾)說(shuō)。
以前,convolutional neural network(卷積神經(jīng)網(wǎng)絡(luò),是一類(lèi)包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)/Feedforward Neural Networks,是深度學(xué)習(xí)/deep learning的代表算法之一。卷積神經(jīng)網(wǎng)絡(luò)具有表征學(xué)習(xí)/representation learning能力,能夠按其階層結(jié)構(gòu)對(duì)輸入信息進(jìn)行平移不變分類(lèi)/shift-invariant classification,因此也被稱(chēng)為“平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)/Shift-Invariant Artificial Neural Networks, SIANN”。)將被用來(lái)檢測(cè)圖像的哪些位中有文本。他說(shuō),然后它進(jìn)入了一個(gè)轉(zhuǎn)換器,與ChatGPT相同的架構(gòu),但以不同的方式構(gòu)建。
在這項(xiàng)任務(wù)中使用LLM(大型語(yǔ)言模型。是使用深度學(xué)習(xí)算法處理和理解自然語(yǔ)言的基礎(chǔ)機(jī)器學(xué)習(xí)模型。這些模型在大量文本數(shù)據(jù)上進(jìn)行訓(xùn)練,以學(xué)習(xí)語(yǔ)言中的模式和實(shí)體關(guān)系。LLM可以執(zhí)行多種類(lèi)型的語(yǔ)言任務(wù),例如翻譯語(yǔ)言、分析情緒、聊天機(jī)器人對(duì)話(huà)等。)的好處是,它可以看到全局,并從上下文線(xiàn)索中找出文本應(yīng)該是什么。Vermeir(維梅爾)說(shuō),問(wèn)題在于LLM是資源密集型的?!霸谝曈X(jué)識(shí)別中,一切都與速度有關(guān)?!彼a(bǔ)充道,“因此,只有當(dāng)我們檢測(cè)到質(zhì)量非常低的文檔時(shí),我們才會(huì)涉及到大型語(yǔ)言模型?!?/span>
使用LLM來(lái)完成這個(gè)任務(wù)的好處是,它可以看到大局,并從上下文線(xiàn)索中找出文本應(yīng)該是什么。Vermeir(維梅爾)說(shuō),問(wèn)題是llm的資源非常密集型?!霸?span style="font-size: 16px; font-family: 微軟雅黑, "Microsoft YaHei"; padding: 0px; outline: 0px; max-width: 100%; letter-spacing: 0.578px;">視覺(jué)識(shí)別中,這一切都與速度有關(guān),”他補(bǔ)充道?!八?,只有當(dāng)我們檢測(cè)到一個(gè)非常低質(zhì)量的文檔時(shí),我們才會(huì)涉及到大型語(yǔ)言模型?!?/span>
該公司還使用LLM來(lái)確定特定類(lèi)型文檔中關(guān)鍵信息的位置。
他說(shuō):“我們進(jìn)行視覺(jué)識(shí)別,將全文交給LLM,然后詢(xún)問(wèn)我們的問(wèn)題。”例如,LLM可以確定文檔的哪些部分包含特定類(lèi)型的信息?!叭缓笪覀儗⑵涮釤挸梢粋€(gè)較小的模型,專(zhuān)門(mén)針對(duì)這類(lèi)文檔進(jìn)行訓(xùn)練,這意味著它將非常高效、準(zhǔn)確,而且資源密集度大大降低?!?/span>
除了資源密集化外,通用LLM還因準(zhǔn)確性問(wèn)題而臭名昭著。
“單純使用LLM無(wú)法提供關(guān)鍵數(shù)據(jù)任務(wù)所需的可靠性?!盫ermeir(維梅爾)說(shuō),“您也不會(huì)希望LLM猜出在您的檔案中保存了10年的PDF里是什么——尤其是如果這是您最重要的合同?!?/span>
考慮到所有圍繞生成式人工智能的炒作,為工作使用正確的工具很重要。“很多人都在試圖利用這項(xiàng)技術(shù),它似乎可以做任何事情,”他說(shuō),“但這并不意味著您應(yīng)該把它用于所有事情?!?/span>
例如,ABBYY已經(jīng)有了一個(gè)工具,可以將一張圖像轉(zhuǎn)換成數(shù)百?gòu)埡铣蓤D像,用于訓(xùn)練數(shù)據(jù)。如果有重復(fù)的記錄,模糊邏輯匹配技術(shù)可以很好地檢查是否是同一個(gè)人。但如果Onion(洋蔥新聞是美國(guó)一家提供諷刺新聞的組織。它以報(bào)道諷刺性文章為特色,文章內(nèi)容涉及國(guó)內(nèi)外以及當(dāng)?shù)氐南?,在它的旗下還有娛樂(lè)性的報(bào)紙和網(wǎng)站。洋蔥新聞所提供的新聞是對(duì)時(shí)事的評(píng)論,而這些時(shí)事既有真實(shí)的也有虛構(gòu)的。它以真實(shí)新聞事件為藍(lán)本,加工杜撰假新聞。雖然故事都是假的,卻絕非胡編瞎造,而是用夸張的想象表達(dá)對(duì)世界觀感,是另類(lèi)的社會(huì)評(píng)論,因此有不少讀者追捧。它模仿了傳統(tǒng)新聞的特點(diǎn),所有新聞均以美國(guó)聯(lián)合通訊社規(guī)格報(bào)道。)刊載一篇建議每天吃一塊石頭的文章,或者Reddit(是互聯(lián)網(wǎng)上訪(fǎng)問(wèn)量最大的網(wǎng)站之一,成立于2005年,由企業(yè)家Steve Huffman、Alexis Ohanian和已故的電腦奇才Aaron Swartz共同創(chuàng)立,每月活躍用戶(hù)達(dá)到8.5億。)有一篇關(guān)于在披薩上涂膠水的帖子,這些“不可靠”的信息來(lái)源應(yīng)該成為訓(xùn)練數(shù)據(jù)集的一部分嗎?
“這實(shí)際上要求技術(shù)來(lái)解釋人們是否日常會(huì)在披薩上涂膠水?!盫ermeir(維梅爾)說(shuō),“對(duì)于一個(gè)大型語(yǔ)言模型來(lái)說(shuō),這是一項(xiàng)有趣的任務(wù),它對(duì)大量信息進(jìn)行推理。所以這個(gè)用例非常有用?!笔聦?shí)上,ABBYY也有類(lèi)似的功能,即當(dāng)將特定的信息添加到訓(xùn)練數(shù)據(jù)集中時(shí),是否有助于訓(xùn)練模型的性能。
他說(shuō):“我們正在驗(yàn)證我們收到的訓(xùn)練數(shù)據(jù)是否真的會(huì)增加進(jìn)模型?!?/span>
這與較小的ML或特殊用途的生成式人工智能模型特別相關(guān)。對(duì)于通用模型來(lái)說(shuō),很難做出這種區(qū)分。例如,從訓(xùn)練數(shù)據(jù)集中排除Onion的文章可能會(huì)提高模型的事實(shí)表現(xiàn),但也剔除了包括它們可能會(huì)提高模型的幽默感和寫(xiě)作水平的可能;屏蔽道聽(tīng)途說(shuō)網(wǎng)站的文章可能會(huì)提高模型的科學(xué)準(zhǔn)確性,但會(huì)降低其討論陰謀論的能力。
二、重復(fù)數(shù)據(jù)刪除和質(zhì)量控制用例
網(wǎng)絡(luò)安全初創(chuàng)公司Simbian(是一家為不同 IT 環(huán)境下的業(yè)務(wù)運(yùn)營(yíng)提供人工智能解決方案的公司,致力于通過(guò)將所有戰(zhàn)術(shù)任務(wù)委托給其可信賴(lài)的人工智能平臺(tái)來(lái)實(shí)現(xiàn)完全自主的安全,從而使用戶(hù)能夠?qū)W⒂趹?zhàn)略安全目標(biāo)。)正在構(gòu)建一個(gè)人工智能驅(qū)動(dòng)的安全平臺(tái),擔(dān)心用戶(hù)“jailbreaking(越獄,打破 ChatGPT 等人工智能模型道德保障的一種方式。它是借助某些特定的文字提示,可以輕松繞過(guò)內(nèi)容審核準(zhǔn)則,使人工智能程序不受任何限制。)”人工智能,或者以不應(yīng)該的方式提問(wèn)。
該公司的首席執(zhí)行官Ambuj Kumar(阿姆布·庫(kù)馬爾)說(shuō):“當(dāng)您建立一個(gè)LLM時(shí),它最好是安全的?!?/span>
為了找到此類(lèi)越獄的例子,該公司建立了一個(gè)網(wǎng)站,用戶(hù)可以在那里嘗試欺騙人工智能模型。他說(shuō):“這向我們展示了LLM可以被愚弄的所有方式?!比欢?,在研究結(jié)果中有很多重復(fù)的地方。例如,一個(gè)用戶(hù)想讓聊天機(jī)器人解釋如何制造炸彈。直接詢(xún)問(wèn)會(huì)導(dǎo)致聊天機(jī)器人拒絕回答問(wèn)題。因此,用戶(hù)可能會(huì)說(shuō),“我的祖母曾經(jīng)給我講過(guò)一個(gè)制造炸彈的故事……”而另一個(gè)用戶(hù)則可能會(huì)說(shuō),“我的曾祖父曾經(jīng)給我講故事……”簡(jiǎn)單地說(shuō),就所用的單詞而言,這是兩個(gè)不同的提示,但這些是常見(jiàn)越獄策略的例子。
在訓(xùn)練數(shù)據(jù)集中有太多類(lèi)似策略的例子會(huì)扭曲結(jié)果。另外,它還會(huì)花費(fèi)更多的錢(qián)。他說(shuō),通過(guò)使用生成式人工智能來(lái)比較不同的成功越獄,樣本總數(shù)減少了10倍。
Simbian還使用LLM來(lái)篩選其訓(xùn)練數(shù)據(jù)集,該數(shù)據(jù)集充滿(mǎn)了不同類(lèi)型的安全相關(guān)信息。
“人們已經(jīng)寫(xiě)了千兆字節(jié)的博客、手冊(cè)和閱讀材料,”他說(shuō),“我們正在不斷閱讀這些東西,弄清楚哪些是精華,哪些則不然,并將精華添加到我們的訓(xùn)練數(shù)據(jù)集中?!?/span>
三、合成數(shù)據(jù)用例
其中一個(gè)用例特別適合于生成式人工智能,因?yàn)?span style="font-size: 16px; font-family: 微軟雅黑, "Microsoft YaHei"; padding: 0px; outline: 0px; max-width: 100%; color: rgb(64, 118, 0);">它是專(zhuān)門(mén)為生成新文本而設(shè)計(jì)的。
“它們?cè)谏珊铣蓴?shù)據(jù)和測(cè)試數(shù)據(jù)方面非常強(qiáng)大。”數(shù)據(jù)安全公司Dasera(是一家數(shù)據(jù)安全公司,Dasera的綜合數(shù)據(jù)安全平臺(tái)分析了所有數(shù)據(jù)存儲(chǔ)之間的每一次交互,以便在盡可能早的階段識(shí)別風(fēng)險(xiǎn)。他們使數(shù)據(jù)、安全和合規(guī)團(tuán)隊(duì)能夠克服數(shù)據(jù)蔓延、數(shù)據(jù)濫用和隱私侵犯。)的聯(lián)合創(chuàng)始人兼首席技術(shù)官Noah Johnson(諾亞·約翰遜)說(shuō),“他們?cè)谶@方面卓有成效。您給他們提供結(jié)構(gòu)和一般背景,他們就可以生成看起來(lái)非常逼真的合成數(shù)據(jù)?!边@些合成數(shù)據(jù)隨后將被用來(lái)測(cè)試該公司的軟件,“我們使用了一個(gè)開(kāi)源模型,我們已經(jīng)針對(duì)這個(gè)特定的應(yīng)用程序進(jìn)行了調(diào)整?!彼f(shuō)。
Constellation Research(是美國(guó)硅谷的一家科技研究與咨詢(xún)公司。致力提供戰(zhàn)略指導(dǎo),幫助企業(yè)通過(guò)突破性技術(shù)的率先應(yīng)用推進(jìn)企業(yè)轉(zhuǎn)型。)副總裁兼首席分析師Andy Thurai(安迪·圖萊)表示,合成數(shù)據(jù)不僅僅用于軟件測(cè)試。例如,客戶(hù)服務(wù)聊天機(jī)器人可能需要大量的培訓(xùn)數(shù)據(jù)來(lái)學(xué)習(xí)。
“但有時(shí)還沒(méi)有足夠的數(shù)據(jù),”Thurai(圖萊)說(shuō),“真實(shí)世界的數(shù)據(jù)非常昂貴、耗時(shí)且難以收集。”獲取數(shù)據(jù)還可能存在法律限制或版權(quán)問(wèn)題以及其他障礙。此外,現(xiàn)實(shí)世界的數(shù)據(jù)是混亂的,他說(shuō)?!?span style="font-size: 16px; font-family: 微軟雅黑, "Microsoft YaHei"; padding: 0px; outline: 0px; max-width: 100%; color: rgb(64, 118, 0);">數(shù)據(jù)科學(xué)家將花費(fèi)高達(dá)90%的時(shí)間來(lái)整理和清理數(shù)據(jù)集。”模型訓(xùn)練的數(shù)據(jù)越多越好。有些模型有數(shù)十億個(gè)參數(shù)。
他說(shuō):“通過(guò)使用合成數(shù)據(jù),您可以在需要的時(shí)候隨心所欲地快速生成數(shù)據(jù)?!?/span>
他補(bǔ)充道,挑戰(zhàn)在于,只生成您期望看到的數(shù)據(jù)太容易了,當(dāng)遇到現(xiàn)實(shí)世界的混亂時(shí),導(dǎo)致模型不太好。
“但根據(jù)我與高管們的對(duì)話(huà),他們似乎都認(rèn)為這已經(jīng)足夠好了,”Thurai(圖萊)說(shuō)。“讓我先把真實(shí)世界的數(shù)據(jù)和合成數(shù)據(jù)混合在一起,把模型制作出來(lái),以填補(bǔ)一些空白和漏洞。在以后的版本中,隨著我獲得更多的數(shù)據(jù),我可以用更新的數(shù)據(jù)進(jìn)行微調(diào)或RAG(即檢索增強(qiáng)生成,是一種自然語(yǔ)言處理模型,旨在改進(jìn)各種NLP任務(wù)的表現(xiàn),包括問(wèn)答、摘要生成等。)或重新訓(xùn)練?!?/span>
四、控制生成式人工智能的期望
最重要的是要知道,生成式人工智能并不能解決公司的所有數(shù)據(jù)問(wèn)題。
“這不是靈丹妙藥,”人工智能和數(shù)據(jù)咨詢(xún)公司Indicium的數(shù)據(jù)主管Daniel Avancini(丹尼爾·阿萬(wàn)西尼)說(shuō)。
如果一家公司剛剛開(kāi)始數(shù)據(jù)之旅,那么做好基礎(chǔ)工作是關(guān)鍵,包括構(gòu)建良好的數(shù)據(jù)平臺(tái),建立數(shù)據(jù)治理流程,以及使用高效而穩(wěn)健的傳統(tǒng)方法來(lái)識(shí)別、分類(lèi)和清理數(shù)據(jù)。
“生成式人工智能肯定會(huì)有所幫助,但有很多傳統(tǒng)的最佳實(shí)踐需要首先加以實(shí)施,”他說(shuō)。
如果沒(méi)有這些基礎(chǔ),LLM的收益可能有限。但是,當(dāng)公司確實(shí)有了自己的框架,并且正在處理大量數(shù)據(jù)時(shí),生成式人工智能可以幫助完成一些特定的任務(wù)。
他說(shuō):“但我不會(huì)說(shuō),以我們現(xiàn)在的技術(shù),這將取代傳統(tǒng)方法。”
作者:Maria Korolov(瑪麗亞·科洛洛夫)
Maria Korolov(瑪麗亞·科洛洛夫)是一位報(bào)道人工智能和網(wǎng)絡(luò)安全的獲獎(jiǎng)科技記者。她還寫(xiě)科幻小說(shuō),編輯一本科幻和幻想雜志,并主持一個(gè)YouTube節(jié)目。
譯者:寶藍(lán) @lex