生成式人工智能可以解決一系列的數(shù)據(jù)挑戰(zhàn)——填補空白,從文檔中提取信息和提高數(shù)據(jù)質(zhì)量——但專家表示,要謹慎行事,并將其與傳統(tǒng)方法結(jié)合使用。生成式人工智能是一項強大技術(shù),可以用于解決各種數(shù)據(jù)挑戰(zhàn)。然而,重要的是要負責(zé)任和道德地使用它,并意識到其局限性。
圖源:ESB BASIC(圖片上傳者,可以譯為用戶ESB BASIC,或者ESB BASIC)/SHUTTERSTOCK
【睿觀:生成式人工智能(Generative AI)是一種強大的工具,可以用于解決各種數(shù)據(jù)挑戰(zhàn)。
一、主要作用:
填補數(shù)據(jù)空白:?生成式人工智能可以生成新的、逼真的數(shù)據(jù),用于訓(xùn)練機器學(xué)習(xí)模型或創(chuàng)建合成數(shù)據(jù)集。這對于在數(shù)據(jù)稀缺或難以獲取的情況下特別有用。
從文檔中提取信息:?生成式人工智能可以用于從非結(jié)構(gòu)化和半結(jié)構(gòu)化文檔中提取關(guān)鍵信息,例如合同、發(fā)票和醫(yī)療記錄。這可以自動化數(shù)據(jù)提取過程并提高數(shù)據(jù)準確性。
提高數(shù)據(jù)質(zhì)量:?生成式人工智能可以用于識別和刪除數(shù)據(jù)中的錯誤、重復(fù)項和不一致項。這可以提高數(shù)據(jù)質(zhì)量并使其更易于分析。
然而,重要的是要注意,生成式人工智能并不是靈丹妙藥。它應(yīng)該與傳統(tǒng)的數(shù)據(jù)方法結(jié)合使用,并由具有相關(guān)專業(yè)知識的人員進行監(jiān)督。
生成式人工智能可以用于生成新的、逼真的數(shù)據(jù),用于訓(xùn)練機器學(xué)習(xí)模型或創(chuàng)建合成數(shù)據(jù)集。
生成式人工智能可以用于從非結(jié)構(gòu)化和半結(jié)構(gòu)化文檔中提取關(guān)鍵信息。
生成式人工智能可以用于識別和刪除數(shù)據(jù)中的錯誤、重復(fù)項和不一致項。
生成式人工智能應(yīng)該與傳統(tǒng)的數(shù)據(jù)方法結(jié)合使用,并由具有相關(guān)專業(yè)知識的人員進行監(jiān)督。
生成式人工智能模型可能存在偏差,因此在使用之前對其進行評估很重要。
生成式人工智能模型可能需要大量計算資源,因此可能不適用于所有應(yīng)用。
生成式人工智能模型可能無法生成完全準確或可靠的數(shù)據(jù),因此在使用之前對其進行驗證很重要。
隨著生成式人工智能技術(shù)的不斷發(fā)展,它在解決數(shù)據(jù)挑戰(zhàn)方面將變得更加強大。我們可以期待看到生成式人工智能被用于更廣泛的應(yīng)用,例如:
創(chuàng)建個性化的學(xué)習(xí)體驗
開發(fā)新的藥物和治療方法
構(gòu)建更智能的城市和基礎(chǔ)設(shè)施
生成式人工智能是一項強大的技術(shù),可以用于解決各種數(shù)據(jù)挑戰(zhàn)。然而,重要的是要負責(zé)任和道德地使用它,并意識到其局限性。】
目前,低收入國家有1.43億人在等待手術(shù)。Boston Children’s Hospital(哈佛大學(xué)醫(yī)學(xué)院附屬波士頓兒童醫(yī)院,簡稱波士頓兒童醫(yī)院,始建于1869年,一家非盈利醫(yī)療機構(gòu),位于美國馬薩諸塞州波士頓,毗鄰其教學(xué)附屬機構(gòu)哈佛醫(yī)學(xué)院和達納法伯癌癥中心研究所。)副首席醫(yī)療官、Harvard medical School(哈佛醫(yī)學(xué)院,簡稱:HMS。是世界上最頂尖的醫(yī)學(xué)院,它因高超的醫(yī)學(xué)技術(shù)與每年錄取的學(xué)生最少而聞名世界。與商學(xué)院,法學(xué)院共同占有世界高等學(xué)術(shù)殿堂的一席地位。)教授、致力于解決這一信息問題的非政府組織the Virtue Foundation(美德基金會,通過主要由志愿者推動的努力,包括醫(yī)療探險、研究和設(shè)備捐贈,在25多個國家提供全球醫(yī)療服務(wù)。是一個具有聯(lián)合國特別咨商地位的非營利組織。其使命是通過醫(yī)療保健、教育、婦女和司法項目以及研究和分析領(lǐng)域的創(chuàng)新工作,提高認識,激勵行動,提供援助。美德基金會主要由志愿者組成。美德基金會致力于為全球社區(qū)提供有影響力的短期和長期可持續(xù)發(fā)展解決方案。目標是解決緊迫的、緊迫的社區(qū)關(guān)切,同時建立持久的伙伴關(guān)系,以創(chuàng)建和實施衛(wèi)生、教育和賦權(quán)領(lǐng)域的發(fā)展和進步倡議。除了在世界各國開展這一領(lǐng)域的工作外,還參與了大量的研究和分析,并花了幾年時間開發(fā)了Actionable Data Initiative,這是一種數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)模型,旨在為世界上服務(wù)不足的地區(qū)的醫(yī)療保健服務(wù)創(chuàng)造一個高效的市場。)的聯(lián)合創(chuàng)始人Joan LaRovere(瓊·拉羅弗)表示,有組織準備引進醫(yī)生和資源,但兩者之間存在信息差距。
The Virtue Foundation成立于2002年,已經(jīng)建立了世界上最大的非政府組織和醫(yī)療機構(gòu)數(shù)據(jù)庫,在超過25個國家提供全球衛(wèi)生服務(wù),組織醫(yī)療探險,進行研究和捐贈醫(yī)療設(shè)備。作為這項工作的一部分,該基金會的志愿者了解了收集可靠數(shù)據(jù)以提供高效醫(yī)療活動的必要性。
LaRovere(拉羅弗)說,問題是信息來源的多樣性令人難以置信,而且往往是隱藏的。
“它不是集成的,”她說,“它在網(wǎng)上,被隱藏在政府組織里。它是結(jié)構(gòu)化和非結(jié)構(gòu)化的混合格式?!?/span>
為了幫助緩解復(fù)雜性并提取見解,該基金會與DataBricks(屬于 Spark 的商業(yè)化公司。致力于提供基于 Spark 的云服務(wù),可用于數(shù)據(jù)集成、數(shù)據(jù)連接等任務(wù)。)和DataRobot(成立于2012年6月,總部位于馬薩諸塞州波士頓。是一家全球領(lǐng)先的機器學(xué)習(xí)平臺,提供一個預(yù)測分析平臺幫助用戶快速構(gòu)建和部署云或企業(yè)的預(yù)測模型。)合作,使用不同的人工智能模型,在該數(shù)據(jù)庫的基礎(chǔ)上構(gòu)建了一個分析層。LaRovere(拉羅弗)說,其中一些模型是傳統(tǒng)的ML(機器學(xué)習(xí),是研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。),還有一些是生成式人工智能,包括新的多模態(tài)進步。
“生成式人工智能正在填補數(shù)據(jù)空白,”她說,“這是一件非常新的事情,我們正處曲線于最前沿?!?/span>
她說,下一步是利用基礎(chǔ)數(shù)據(jù)集,利用其他數(shù)據(jù)源、更多層次的數(shù)據(jù),甚至衛(wèi)星數(shù)據(jù)對其進行擴充,以獲得見解并找出相關(guān)性。
她補充道:“人工智能的能力讓我們能夠?qū)o形之物化為可見?!?/span>
但the Virtue Foundation并不是唯一一個嘗試使用生成式人工智能來幫助開發(fā)或增強數(shù)據(jù)集的機構(gòu)。
“這確實有效,而且現(xiàn)在越來越多的公司正在使用?!盤wC(普華永道咨詢公司,國際領(lǐng)先的管理咨詢公司之一。2002年7月30日,普華永道咨詢公司被IBM以35億美元的現(xiàn)金和股票形式收購。)生成式人工智能遠程營銷戰(zhàn)略合伙人兼領(lǐng)導(dǎo)者Bret Greenstein(布雷特·格林斯坦)說,“大多數(shù)企業(yè)數(shù)據(jù)都是非結(jié)構(gòu)化和半結(jié)構(gòu)化的文檔和代碼,以及圖像和視頻。在過去,如果沒有復(fù)雜的自定義解決方案,這些數(shù)據(jù)是無法訪問的,而這些解決方案往往非常脆弱?!?/span>
例如,生成式人工智能可以用于從文檔中提取元數(shù)據(jù),創(chuàng)建信息和知識圖的索引,以及查詢、匯總和分析這些數(shù)據(jù)。
“與需要大量手工處理的舊方法相比,這是一個巨大的飛躍。”他說,“它解鎖了許多用例,因為大多數(shù)工作流和流程都基于文檔和類似的數(shù)據(jù)類型。”
根據(jù)IDC(國際數(shù)據(jù)公司,是國際數(shù)據(jù)集團旗下全資子公司。是信息技術(shù)、電信行業(yè)和消費科技市場咨詢、顧問和活動服務(wù)專業(yè)提供商。經(jīng)常發(fā)布的市場資訊、預(yù)測和資深分析師關(guān)于業(yè)內(nèi)熱點話題的觀點性文章。)的數(shù)據(jù),2022年組織生成的數(shù)據(jù)中,90%是非結(jié)構(gòu)化的。公司使用生成式人工智能創(chuàng)建合成數(shù)據(jù),從訓(xùn)練數(shù)據(jù)集中查找和刪除敏感信息,為數(shù)據(jù)添加意義和上下文,并在傳統(tǒng)ML方法無法實現(xiàn)的情況下執(zhí)行其他更高級別的功能。但生成式人工智能也可能比舊技術(shù)更慢、更昂貴,有時甚至更不準確,專家建議不要在所有基礎(chǔ)層都到位之前就投入其中。
一、數(shù)據(jù)提取用例
ABBYY(致力于人工智能和語言軟件開發(fā),提供全套文檔識別,轉(zhuǎn)換和數(shù)據(jù)捕捉技術(shù)的產(chǎn)品解決方案。在全球在超過80個國家有分布式的伙伴網(wǎng)絡(luò),包括法國,英國,澳大利亞,意大利,印度,等等。)是一家智能自動化公司,已經(jīng)使用各種類型的人工智能和ML來處理文檔超過35年了。三年前,早在ChatGPT(是人工智能技術(shù)驅(qū)動的自然語言處理工具,它能夠通過理解和學(xué)習(xí)人類的語言來進行對話,還能根據(jù)聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務(wù))出現(xiàn)之前,它就開始使用生成式人工智能。
“我們用它來幫助視覺識別,”ABBYY的人工智能戰(zhàn)略高級總監(jiān)Max Vermeir(邁克斯·維梅爾)說。
以前,convolutional neural network(卷積神經(jīng)網(wǎng)絡(luò),是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)/Feedforward Neural Networks,是深度學(xué)習(xí)/deep learning的代表算法之一。卷積神經(jīng)網(wǎng)絡(luò)具有表征學(xué)習(xí)/representation learning能力,能夠按其階層結(jié)構(gòu)對輸入信息進行平移不變分類/shift-invariant classification,因此也被稱為“平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)/Shift-Invariant Artificial Neural Networks, SIANN”。)將被用來檢測圖像的哪些位中有文本。他說,然后它進入了一個轉(zhuǎn)換器,與ChatGPT相同的架構(gòu),但以不同的方式構(gòu)建。
在這項任務(wù)中使用LLM(大型語言模型。是使用深度學(xué)習(xí)算法處理和理解自然語言的基礎(chǔ)機器學(xué)習(xí)模型。這些模型在大量文本數(shù)據(jù)上進行訓(xùn)練,以學(xué)習(xí)語言中的模式和實體關(guān)系。LLM可以執(zhí)行多種類型的語言任務(wù),例如翻譯語言、分析情緒、聊天機器人對話等。)的好處是,它可以看到全局,并從上下文線索中找出文本應(yīng)該是什么。Vermeir(維梅爾)說,問題在于LLM是資源密集型的?!霸谝曈X識別中,一切都與速度有關(guān)。”他補充道,“因此,只有當(dāng)我們檢測到質(zhì)量非常低的文檔時,我們才會涉及到大型語言模型?!?/span>
使用LLM來完成這個任務(wù)的好處是,它可以看到大局,并從上下文線索中找出文本應(yīng)該是什么。Vermeir(維梅爾)說,問題是llm的資源非常密集型?!霸?span style="font-size: 16px; font-family: 微軟雅黑, "Microsoft YaHei"; padding: 0px; outline: 0px; max-width: 100%; letter-spacing: 0.578px;">視覺識別中,這一切都與速度有關(guān),”他補充道。“所以,只有當(dāng)我們檢測到一個非常低質(zhì)量的文檔時,我們才會涉及到大型語言模型?!?/span>
該公司還使用LLM來確定特定類型文檔中關(guān)鍵信息的位置。
他說:“我們進行視覺識別,將全文交給LLM,然后詢問我們的問題?!崩纾琇LM可以確定文檔的哪些部分包含特定類型的信息。“然后我們將其提煉成一個較小的模型,專門針對這類文檔進行訓(xùn)練,這意味著它將非常高效、準確,而且資源密集度大大降低?!?/span>
除了資源密集化外,通用LLM還因準確性問題而臭名昭著。
“單純使用LLM無法提供關(guān)鍵數(shù)據(jù)任務(wù)所需的可靠性?!盫ermeir(維梅爾)說,“您也不會希望LLM猜出在您的檔案中保存了10年的PDF里是什么——尤其是如果這是您最重要的合同?!?/span>
考慮到所有圍繞生成式人工智能的炒作,為工作使用正確的工具很重要?!昂芏嗳硕荚谠噲D利用這項技術(shù),它似乎可以做任何事情,”他說,“但這并不意味著您應(yīng)該把它用于所有事情?!?/span>
例如,ABBYY已經(jīng)有了一個工具,可以將一張圖像轉(zhuǎn)換成數(shù)百張合成圖像,用于訓(xùn)練數(shù)據(jù)。如果有重復(fù)的記錄,模糊邏輯匹配技術(shù)可以很好地檢查是否是同一個人。但如果Onion(洋蔥新聞是美國一家提供諷刺新聞的組織。它以報道諷刺性文章為特色,文章內(nèi)容涉及國內(nèi)外以及當(dāng)?shù)氐南?,在它的旗下還有娛樂性的報紙和網(wǎng)站。洋蔥新聞所提供的新聞是對時事的評論,而這些時事既有真實的也有虛構(gòu)的。它以真實新聞事件為藍本,加工杜撰假新聞。雖然故事都是假的,卻絕非胡編瞎造,而是用夸張的想象表達對世界觀感,是另類的社會評論,因此有不少讀者追捧。它模仿了傳統(tǒng)新聞的特點,所有新聞均以美國聯(lián)合通訊社規(guī)格報道。)刊載一篇建議每天吃一塊石頭的文章,或者Reddit(是互聯(lián)網(wǎng)上訪問量最大的網(wǎng)站之一,成立于2005年,由企業(yè)家Steve Huffman、Alexis Ohanian和已故的電腦奇才Aaron Swartz共同創(chuàng)立,每月活躍用戶達到8.5億。)有一篇關(guān)于在披薩上涂膠水的帖子,這些“不可靠”的信息來源應(yīng)該成為訓(xùn)練數(shù)據(jù)集的一部分嗎?
“這實際上要求技術(shù)來解釋人們是否日常會在披薩上涂膠水?!盫ermeir(維梅爾)說,“對于一個大型語言模型來說,這是一項有趣的任務(wù),它對大量信息進行推理。所以這個用例非常有用?!笔聦嵣希珹BBYY也有類似的功能,即當(dāng)將特定的信息添加到訓(xùn)練數(shù)據(jù)集中時,是否有助于訓(xùn)練模型的性能。
他說:“我們正在驗證我們收到的訓(xùn)練數(shù)據(jù)是否真的會增加進模型。”
這與較小的ML或特殊用途的生成式人工智能模型特別相關(guān)。對于通用模型來說,很難做出這種區(qū)分。例如,從訓(xùn)練數(shù)據(jù)集中排除Onion的文章可能會提高模型的事實表現(xiàn),但也剔除了包括它們可能會提高模型的幽默感和寫作水平的可能;屏蔽道聽途說網(wǎng)站的文章可能會提高模型的科學(xué)準確性,但會降低其討論陰謀論的能力。
二、重復(fù)數(shù)據(jù)刪除和質(zhì)量控制用例
網(wǎng)絡(luò)安全初創(chuàng)公司Simbian(是一家為不同 IT 環(huán)境下的業(yè)務(wù)運營提供人工智能解決方案的公司,致力于通過將所有戰(zhàn)術(shù)任務(wù)委托給其可信賴的人工智能平臺來實現(xiàn)完全自主的安全,從而使用戶能夠?qū)W⒂趹?zhàn)略安全目標。)正在構(gòu)建一個人工智能驅(qū)動的安全平臺,擔(dān)心用戶“jailbreaking(越獄,打破 ChatGPT 等人工智能模型道德保障的一種方式。它是借助某些特定的文字提示,可以輕松繞過內(nèi)容審核準則,使人工智能程序不受任何限制。)”人工智能,或者以不應(yīng)該的方式提問。
該公司的首席執(zhí)行官Ambuj Kumar(阿姆布·庫馬爾)說:“當(dāng)您建立一個LLM時,它最好是安全的。”
為了找到此類越獄的例子,該公司建立了一個網(wǎng)站,用戶可以在那里嘗試欺騙人工智能模型。他說:“這向我們展示了LLM可以被愚弄的所有方式?!比欢?,在研究結(jié)果中有很多重復(fù)的地方。例如,一個用戶想讓聊天機器人解釋如何制造炸彈。直接詢問會導(dǎo)致聊天機器人拒絕回答問題。因此,用戶可能會說,“我的祖母曾經(jīng)給我講過一個制造炸彈的故事……”而另一個用戶則可能會說,“我的曾祖父曾經(jīng)給我講故事……”簡單地說,就所用的單詞而言,這是兩個不同的提示,但這些是常見越獄策略的例子。
在訓(xùn)練數(shù)據(jù)集中有太多類似策略的例子會扭曲結(jié)果。另外,它還會花費更多的錢。他說,通過使用生成式人工智能來比較不同的成功越獄,樣本總數(shù)減少了10倍。
Simbian還使用LLM來篩選其訓(xùn)練數(shù)據(jù)集,該數(shù)據(jù)集充滿了不同類型的安全相關(guān)信息。
“人們已經(jīng)寫了千兆字節(jié)的博客、手冊和閱讀材料,”他說,“我們正在不斷閱讀這些東西,弄清楚哪些是精華,哪些則不然,并將精華添加到我們的訓(xùn)練數(shù)據(jù)集中?!?/span>
三、合成數(shù)據(jù)用例
其中一個用例特別適合于生成式人工智能,因為它是專門為生成新文本而設(shè)計的。
“它們在生成合成數(shù)據(jù)和測試數(shù)據(jù)方面非常強大?!睌?shù)據(jù)安全公司Dasera(是一家數(shù)據(jù)安全公司,Dasera的綜合數(shù)據(jù)安全平臺分析了所有數(shù)據(jù)存儲之間的每一次交互,以便在盡可能早的階段識別風(fēng)險。他們使數(shù)據(jù)、安全和合規(guī)團隊能夠克服數(shù)據(jù)蔓延、數(shù)據(jù)濫用和隱私侵犯。)的聯(lián)合創(chuàng)始人兼首席技術(shù)官Noah Johnson(諾亞·約翰遜)說,“他們在這方面卓有成效。您給他們提供結(jié)構(gòu)和一般背景,他們就可以生成看起來非常逼真的合成數(shù)據(jù)?!边@些合成數(shù)據(jù)隨后將被用來測試該公司的軟件,“我們使用了一個開源模型,我們已經(jīng)針對這個特定的應(yīng)用程序進行了調(diào)整?!彼f。
Constellation Research(是美國硅谷的一家科技研究與咨詢公司。致力提供戰(zhàn)略指導(dǎo),幫助企業(yè)通過突破性技術(shù)的率先應(yīng)用推進企業(yè)轉(zhuǎn)型。)副總裁兼首席分析師Andy Thurai(安迪·圖萊)表示,合成數(shù)據(jù)不僅僅用于軟件測試。例如,客戶服務(wù)聊天機器人可能需要大量的培訓(xùn)數(shù)據(jù)來學(xué)習(xí)。
“但有時還沒有足夠的數(shù)據(jù),”Thurai(圖萊)說,“真實世界的數(shù)據(jù)非常昂貴、耗時且難以收集?!鲍@取數(shù)據(jù)還可能存在法律限制或版權(quán)問題以及其他障礙。此外,現(xiàn)實世界的數(shù)據(jù)是混亂的,他說?!?span style="font-size: 16px; font-family: 微軟雅黑, "Microsoft YaHei"; padding: 0px; outline: 0px; max-width: 100%; color: rgb(64, 118, 0);">數(shù)據(jù)科學(xué)家將花費高達90%的時間來整理和清理數(shù)據(jù)集。”模型訓(xùn)練的數(shù)據(jù)越多越好。有些模型有數(shù)十億個參數(shù)。
他說:“通過使用合成數(shù)據(jù),您可以在需要的時候隨心所欲地快速生成數(shù)據(jù)。”
他補充道,挑戰(zhàn)在于,只生成您期望看到的數(shù)據(jù)太容易了,當(dāng)遇到現(xiàn)實世界的混亂時,導(dǎo)致模型不太好。
“但根據(jù)我與高管們的對話,他們似乎都認為這已經(jīng)足夠好了,”Thurai(圖萊)說?!白屛蚁劝颜鎸嵤澜绲臄?shù)據(jù)和合成數(shù)據(jù)混合在一起,把模型制作出來,以填補一些空白和漏洞。在以后的版本中,隨著我獲得更多的數(shù)據(jù),我可以用更新的數(shù)據(jù)進行微調(diào)或RAG(即檢索增強生成,是一種自然語言處理模型,旨在改進各種NLP任務(wù)的表現(xiàn),包括問答、摘要生成等。)或重新訓(xùn)練?!?/span>
四、控制生成式人工智能的期望
最重要的是要知道,生成式人工智能并不能解決公司的所有數(shù)據(jù)問題。
“這不是靈丹妙藥,”人工智能和數(shù)據(jù)咨詢公司Indicium的數(shù)據(jù)主管Daniel Avancini(丹尼爾·阿萬西尼)說。
如果一家公司剛剛開始數(shù)據(jù)之旅,那么做好基礎(chǔ)工作是關(guān)鍵,包括構(gòu)建良好的數(shù)據(jù)平臺,建立數(shù)據(jù)治理流程,以及使用高效而穩(wěn)健的傳統(tǒng)方法來識別、分類和清理數(shù)據(jù)。
“生成式人工智能肯定會有所幫助,但有很多傳統(tǒng)的最佳實踐需要首先加以實施,”他說。
如果沒有這些基礎(chǔ),LLM的收益可能有限。但是,當(dāng)公司確實有了自己的框架,并且正在處理大量數(shù)據(jù)時,生成式人工智能可以幫助完成一些特定的任務(wù)。
他說:“但我不會說,以我們現(xiàn)在的技術(shù),這將取代傳統(tǒng)方法?!?/span>
作者:Maria Korolov(瑪麗亞·科洛洛夫)
Maria Korolov(瑪麗亞·科洛洛夫)是一位報道人工智能和網(wǎng)絡(luò)安全的獲獎科技記者。她還寫科幻小說,編輯一本科幻和幻想雜志,并主持一個YouTube節(jié)目。
譯者:寶藍 @lex