国产亚洲99久久不卡,99色视频在线

生成式人工智能可以解決您的數(shù)據(jù)問(wèn)題，但非全能

作者：CIO.com&睿信咨詢(xún) 來(lái)源：CIOCDO 發(fā)布時(shí)間：2024年06月14日點(diǎn)擊數(shù)：

生成式人工智能可以解決一系列的數(shù)據(jù)挑戰(zhàn)——填補(bǔ)空白，從文檔中提取信息和提高數(shù)據(jù)質(zhì)量——但專(zhuān)家表示，要謹(jǐn)慎行事，并將其與傳統(tǒng)方法結(jié)合使用。生成式人工智能是一項(xiàng)強(qiáng)大技術(shù)，可以用于解決各種數(shù)據(jù)挑戰(zhàn)。然而，重要的是要負(fù)責(zé)任和道德地使用它，并意識(shí)到其局限性。

圖源：ESB BASIC（圖片上傳者，可以譯為用戶(hù)ESB BASIC，或者ESB BASIC）/SHUTTERSTOCK

【睿觀：生成式人工智能（Generative AI）是一種強(qiáng)大的工具，可以用于解決各種數(shù)據(jù)挑戰(zhàn)。

一、主要作用：

填補(bǔ)數(shù)據(jù)空白：?生成式人工智能可以生成新的、逼真的數(shù)據(jù)，用于訓(xùn)練機(jī)器學(xué)習(xí)模型或創(chuàng)建合成數(shù)據(jù)集。這對(duì)于在數(shù)據(jù)稀缺或難以獲取的情況下特別有用。
從文檔中提取信息：?生成式人工智能可以用于從非結(jié)構(gòu)化和半結(jié)構(gòu)化文檔中提取關(guān)鍵信息，例如合同、發(fā)票和醫(yī)療記錄。這可以自動(dòng)化數(shù)據(jù)提取過(guò)程并提高數(shù)據(jù)準(zhǔn)確性。
提高數(shù)據(jù)質(zhì)量：?生成式人工智能可以用于識(shí)別和刪除數(shù)據(jù)中的錯(cuò)誤、重復(fù)項(xiàng)和不一致項(xiàng)。這可以提高數(shù)據(jù)質(zhì)量并使其更易于分析。

然而，重要的是要注意，生成式人工智能并不是靈丹妙藥。它應(yīng)該與傳統(tǒng)的數(shù)據(jù)方法結(jié)合使用，并由具有相關(guān)專(zhuān)業(yè)知識(shí)的人員進(jìn)行監(jiān)督。

二、關(guān)鍵發(fā)現(xiàn)

生成式人工智能可以用于生成新的、逼真的數(shù)據(jù)，用于訓(xùn)練機(jī)器學(xué)習(xí)模型或創(chuàng)建合成數(shù)據(jù)集。
生成式人工智能可以用于從非結(jié)構(gòu)化和半結(jié)構(gòu)化文檔中提取關(guān)鍵信息。
生成式人工智能可以用于識(shí)別和刪除數(shù)據(jù)中的錯(cuò)誤、重復(fù)項(xiàng)和不一致項(xiàng)。
生成式人工智能應(yīng)該與傳統(tǒng)的數(shù)據(jù)方法結(jié)合使用，并由具有相關(guān)專(zhuān)業(yè)知識(shí)的人員進(jìn)行監(jiān)督。

三、注意事項(xiàng)

生成式人工智能模型可能存在偏差，因此在使用之前對(duì)其進(jìn)行評(píng)估很重要。
生成式人工智能模型可能需要大量計(jì)算資源，因此可能不適用于所有應(yīng)用。
生成式人工智能模型可能無(wú)法生成完全準(zhǔn)確或可靠的數(shù)據(jù)，因此在使用之前對(duì)其進(jìn)行驗(yàn)證很重要。

四、未來(lái)展望

隨著生成式人工智能技術(shù)的不斷發(fā)展，它在解決數(shù)據(jù)挑戰(zhàn)方面將變得更加強(qiáng)大。我們可以期待看到生成式人工智能被用于更廣泛的應(yīng)用，例如：

創(chuàng)建個(gè)性化的學(xué)習(xí)體驗(yàn)
開(kāi)發(fā)新的藥物和治療方法
構(gòu)建更智能的城市和基礎(chǔ)設(shè)施

總結(jié)

生成式人工智能是一項(xiàng)強(qiáng)大的技術(shù)，可以用于解決各種數(shù)據(jù)挑戰(zhàn)。然而，重要的是要負(fù)責(zé)任和道德地使用它，并意識(shí)到其局限性。】

目前，低收入國(guó)家有1.43億人在等待手術(shù)。Boston Children’s Hospital（哈佛大學(xué)醫(yī)學(xué)院附屬波士頓兒童醫(yī)院，簡(jiǎn)稱(chēng)波士頓兒童醫(yī)院，始建于1869年，一家非盈利醫(yī)療機(jī)構(gòu)，位于美國(guó)馬薩諸塞州波士頓，毗鄰其教學(xué)附屬機(jī)構(gòu)哈佛醫(yī)學(xué)院和達(dá)納法伯癌癥中心研究所。）副首席醫(yī)療官、Harvard medical School（哈佛醫(yī)學(xué)院，簡(jiǎn)稱(chēng):HMS。是世界上最頂尖的醫(yī)學(xué)院，它因高超的醫(yī)學(xué)技術(shù)與每年錄取的學(xué)生最少而聞名世界。與商學(xué)院，法學(xué)院共同占有世界高等學(xué)術(shù)殿堂的一席地位。）教授、致力于解決這一信息問(wèn)題的非政府組織the Virtue Foundation（美德基金會(huì)，通過(guò)主要由志愿者推動(dòng)的努力，包括醫(yī)療探險(xiǎn)、研究和設(shè)備捐贈(zèng)，在25多個(gè)國(guó)家提供全球醫(yī)療服務(wù)。是一個(gè)具有聯(lián)合國(guó)特別咨商地位的非營(yíng)利組織。其使命是通過(guò)醫(yī)療保健、教育、婦女和司法項(xiàng)目以及研究和分析領(lǐng)域的創(chuàng)新工作，提高認(rèn)識(shí)，激勵(lì)行動(dòng)，提供援助。美德基金會(huì)主要由志愿者組成。美德基金會(huì)致力于為全球社區(qū)提供有影響力的短期和長(zhǎng)期可持續(xù)發(fā)展解決方案。目標(biāo)是解決緊迫的、緊迫的社區(qū)關(guān)切，同時(shí)建立持久的伙伴關(guān)系，以創(chuàng)建和實(shí)施衛(wèi)生、教育和賦權(quán)領(lǐng)域的發(fā)展和進(jìn)步倡議。除了在世界各國(guó)開(kāi)展這一領(lǐng)域的工作外，還參與了大量的研究和分析，并花了幾年時(shí)間開(kāi)發(fā)了Actionable Data Initiative，這是一種數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)模型，旨在為世界上服務(wù)不足的地區(qū)的醫(yī)療保健服務(wù)創(chuàng)造一個(gè)高效的市場(chǎng)。）的聯(lián)合創(chuàng)始人Joan LaRovere（瓊·拉羅弗）表示，有組織準(zhǔn)備引進(jìn)醫(yī)生和資源，但兩者之間存在信息差距。

The Virtue Foundation成立于2002年，已經(jīng)建立了世界上最大的非政府組織和醫(yī)療機(jī)構(gòu)數(shù)據(jù)庫(kù)，在超過(guò)25個(gè)國(guó)家提供全球衛(wèi)生服務(wù)，組織醫(yī)療探險(xiǎn)，進(jìn)行研究和捐贈(zèng)醫(yī)療設(shè)備。作為這項(xiàng)工作的一部分，該基金會(huì)的志愿者了解了收集可靠數(shù)據(jù)以提供高效醫(yī)療活動(dòng)的必要性。

LaRovere（拉羅弗）說(shuō)，問(wèn)題是信息來(lái)源的多樣性令人難以置信，而且往往是隱藏的。

“它不是集成的，”她說(shuō)，“它在網(wǎng)上，被隱藏在政府組織里。它是結(jié)構(gòu)化和非結(jié)構(gòu)化的混合格式?！?/span>

為了幫助緩解復(fù)雜性并提取見(jiàn)解，該基金會(huì)與DataBricks（屬于 Spark 的商業(yè)化公司。致力于提供基于 Spark 的云服務(wù)，可用于數(shù)據(jù)集成、數(shù)據(jù)連接等任務(wù)。）和DataRobot（成立于2012年6月，總部位于馬薩諸塞州波士頓。是一家全球領(lǐng)先的機(jī)器學(xué)習(xí)平臺(tái)，提供一個(gè)預(yù)測(cè)分析平臺(tái)幫助用戶(hù)快速構(gòu)建和部署云或企業(yè)的預(yù)測(cè)模型。）合作，使用不同的人工智能模型，在該數(shù)據(jù)庫(kù)的基礎(chǔ)上構(gòu)建了一個(gè)分析層。LaRovere（拉羅弗）說(shuō)，其中一些模型是傳統(tǒng)的ML（機(jī)器學(xué)習(xí)，是研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為，以獲取新的知識(shí)或技能，重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。），還有一些是生成式人工智能，包括新的多模態(tài)進(jìn)步。

“生成式人工智能正在填補(bǔ)數(shù)據(jù)空白，”她說(shuō)，“這是一件非常新的事情，我們正處曲線(xiàn)于最前沿?！?/span>

她說(shuō)，下一步是利用基礎(chǔ)數(shù)據(jù)集，利用其他數(shù)據(jù)源、更多層次的數(shù)據(jù)，甚至衛(wèi)星數(shù)據(jù)對(duì)其進(jìn)行擴(kuò)充，以獲得見(jiàn)解并找出相關(guān)性。

她補(bǔ)充道：“人工智能的能力讓我們能夠?qū)o(wú)形之物化為可見(jiàn)?！?/span>

但the Virtue Foundation并不是唯一一個(gè)嘗試使用生成式人工智能來(lái)幫助開(kāi)發(fā)或增強(qiáng)數(shù)據(jù)集的機(jī)構(gòu)。

“這確實(shí)有效，而且現(xiàn)在越來(lái)越多的公司正在使用。”P(pán)wC（普華永道咨詢(xún)公司，國(guó)際領(lǐng)先的管理咨詢(xún)公司之一。2002年7月30日，普華永道咨詢(xún)公司被IBM以35億美元的現(xiàn)金和股票形式收購(gòu)。）生成式人工智能遠(yuǎn)程營(yíng)銷(xiāo)戰(zhàn)略合伙人兼領(lǐng)導(dǎo)者Bret Greenstein（布雷特·格林斯坦）說(shuō)，“大多數(shù)企業(yè)數(shù)據(jù)都是非結(jié)構(gòu)化和半結(jié)構(gòu)化的文檔和代碼，以及圖像和視頻。在過(guò)去，如果沒(méi)有復(fù)雜的自定義解決方案，這些數(shù)據(jù)是無(wú)法訪(fǎng)問(wèn)的，而這些解決方案往往非常脆弱?！?/span>

例如，生成式人工智能可以用于從文檔中提取元數(shù)據(jù)，創(chuàng)建信息和知識(shí)圖的索引，以及查詢(xún)、匯總和分析這些數(shù)據(jù)。

“與需要大量手工處理的舊方法相比，這是一個(gè)巨大的飛躍?！彼f(shuō)，“它解鎖了許多用例，因?yàn)榇蠖鄶?shù)工作流和流程都基于文檔和類(lèi)似的數(shù)據(jù)類(lèi)型?！?/span>

根據(jù)IDC（國(guó)際數(shù)據(jù)公司，是國(guó)際數(shù)據(jù)集團(tuán)旗下全資子公司。是信息技術(shù)、電信行業(yè)和消費(fèi)科技市場(chǎng)咨詢(xún)、顧問(wèn)和活動(dòng)服務(wù)專(zhuān)業(yè)提供商。經(jīng)常發(fā)布的市場(chǎng)資訊、預(yù)測(cè)和資深分析師關(guān)于業(yè)內(nèi)熱點(diǎn)話(huà)題的觀點(diǎn)性文章。）的數(shù)據(jù)，2022年組織生成的數(shù)據(jù)中，90%是非結(jié)構(gòu)化的。公司使用生成式人工智能創(chuàng)建合成數(shù)據(jù)，從訓(xùn)練數(shù)據(jù)集中查找和刪除敏感信息，為數(shù)據(jù)添加意義和上下文，并在傳統(tǒng)ML方法無(wú)法實(shí)現(xiàn)的情況下執(zhí)行其他更高級(jí)別的功能。但生成式人工智能也可能比舊技術(shù)更慢、更昂貴，有時(shí)甚至更不準(zhǔn)確，專(zhuān)家建議不要在所有基礎(chǔ)層都到位之前就投入其中。

一、數(shù)據(jù)提取用例

ABBYY（致力于人工智能和語(yǔ)言軟件開(kāi)發(fā)，提供全套文檔識(shí)別，轉(zhuǎn)換和數(shù)據(jù)捕捉技術(shù)的產(chǎn)品解決方案。在全球在超過(guò)80個(gè)國(guó)家有分布式的伙伴網(wǎng)絡(luò)，包括法國(guó)，英國(guó)，澳大利亞，意大利，印度，等等。）是一家智能自動(dòng)化公司，已經(jīng)使用各種類(lèi)型的人工智能和ML來(lái)處理文檔超過(guò)35年了。三年前，早在ChatGPT（是人工智能技術(shù)驅(qū)動(dòng)的自然語(yǔ)言處理工具，它能夠通過(guò)理解和學(xué)習(xí)人類(lèi)的語(yǔ)言來(lái)進(jìn)行對(duì)話(huà)，還能根據(jù)聊天的上下文進(jìn)行互動(dòng)，真正像人類(lèi)一樣來(lái)聊天交流，甚至能完成撰寫(xiě)郵件、視頻腳本、文案、翻譯、代碼，寫(xiě)論文等任務(wù)）出現(xiàn)之前，它就開(kāi)始使用生成式人工智能。

“我們用它來(lái)幫助視覺(jué)識(shí)別，”ABBYY的人工智能戰(zhàn)略高級(jí)總監(jiān)Max Vermeir（邁克斯·維梅爾）說(shuō)。

以前，convolutional neural network（卷積神經(jīng)網(wǎng)絡(luò)，是一類(lèi)包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)/Feedforward Neural Networks，是深度學(xué)習(xí)/deep learning的代表算法之一。卷積神經(jīng)網(wǎng)絡(luò)具有表征學(xué)習(xí)/representation learning能力，能夠按其階層結(jié)構(gòu)對(duì)輸入信息進(jìn)行平移不變分類(lèi)/shift-invariant classification，因此也被稱(chēng)為“平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)/Shift-Invariant Artificial Neural Networks, SIANN”。）將被用來(lái)檢測(cè)圖像的哪些位中有文本。他說(shuō)，然后它進(jìn)入了一個(gè)轉(zhuǎn)換器，與ChatGPT相同的架構(gòu)，但以不同的方式構(gòu)建。

在這項(xiàng)任務(wù)中使用LLM（大型語(yǔ)言模型。是使用深度學(xué)習(xí)算法處理和理解自然語(yǔ)言的基礎(chǔ)機(jī)器學(xué)習(xí)模型。這些模型在大量文本數(shù)據(jù)上進(jìn)行訓(xùn)練，以學(xué)習(xí)語(yǔ)言中的模式和實(shí)體關(guān)系。LLM可以執(zhí)行多種類(lèi)型的語(yǔ)言任務(wù)，例如翻譯語(yǔ)言、分析情緒、聊天機(jī)器人對(duì)話(huà)等。）的好處是，它可以看到全局，并從上下文線(xiàn)索中找出文本應(yīng)該是什么。Vermeir（維梅爾）說(shuō)，問(wèn)題在于LLM是資源密集型的?！霸谝曈X(jué)識(shí)別中，一切都與速度有關(guān)?！彼a(bǔ)充道，“因此，只有當(dāng)我們檢測(cè)到質(zhì)量非常低的文檔時(shí)，我們才會(huì)涉及到大型語(yǔ)言模型?！?/span>

使用LLM來(lái)完成這個(gè)任務(wù)的好處是，它可以看到大局，并從上下文線(xiàn)索中找出文本應(yīng)該是什么。Vermeir（維梅爾）說(shuō)，問(wèn)題是llm的資源非常密集型?！霸?span style="font-size: 16px; font-family: 微軟雅黑, "Microsoft YaHei"; padding: 0px; outline: 0px; max-width: 100%; letter-spacing: 0.578px;">視覺(jué)識(shí)別中，這一切都與速度有關(guān)，”他補(bǔ)充道?！八?，只有當(dāng)我們檢測(cè)到一個(gè)非常低質(zhì)量的文檔時(shí)，我們才會(huì)涉及到大型語(yǔ)言模型?！?/span>

該公司還使用LLM來(lái)確定特定類(lèi)型文檔中關(guān)鍵信息的位置。

他說(shuō)：“我們進(jìn)行視覺(jué)識(shí)別，將全文交給LLM，然后詢(xún)問(wèn)我們的問(wèn)題。”例如，LLM可以確定文檔的哪些部分包含特定類(lèi)型的信息?！叭缓笪覀儗⑵涮釤挸梢粋€(gè)較小的模型，專(zhuān)門(mén)針對(duì)這類(lèi)文檔進(jìn)行訓(xùn)練，這意味著它將非常高效、準(zhǔn)確，而且資源密集度大大降低?！?/span>

除了資源密集化外，通用LLM還因準(zhǔn)確性問(wèn)題而臭名昭著。

“單純使用LLM無(wú)法提供關(guān)鍵數(shù)據(jù)任務(wù)所需的可靠性?！盫ermeir（維梅爾）說(shuō)，“您也不會(huì)希望LLM猜出在您的檔案中保存了10年的PDF里是什么——尤其是如果這是您最重要的合同?！?/span>

考慮到所有圍繞生成式人工智能的炒作，為工作使用正確的工具很重要。“很多人都在試圖利用這項(xiàng)技術(shù)，它似乎可以做任何事情，”他說(shuō)，“但這并不意味著您應(yīng)該把它用于所有事情?！?/span>

例如，ABBYY已經(jīng)有了一個(gè)工具，可以將一張圖像轉(zhuǎn)換成數(shù)百?gòu)埡铣蓤D像，用于訓(xùn)練數(shù)據(jù)。如果有重復(fù)的記錄，模糊邏輯匹配技術(shù)可以很好地檢查是否是同一個(gè)人。但如果Onion（洋蔥新聞是美國(guó)一家提供諷刺新聞的組織。它以報(bào)道諷刺性文章為特色，文章內(nèi)容涉及國(guó)內(nèi)外以及當(dāng)?shù)氐南?，在它的旗下還有娛樂(lè)性的報(bào)紙和網(wǎng)站。洋蔥新聞所提供的新聞是對(duì)時(shí)事的評(píng)論，而這些時(shí)事既有真實(shí)的也有虛構(gòu)的。它以真實(shí)新聞事件為藍(lán)本，加工杜撰假新聞。雖然故事都是假的，卻絕非胡編瞎造，而是用夸張的想象表達(dá)對(duì)世界觀感，是另類(lèi)的社會(huì)評(píng)論，因此有不少讀者追捧。它模仿了傳統(tǒng)新聞的特點(diǎn)，所有新聞均以美國(guó)聯(lián)合通訊社規(guī)格報(bào)道。）刊載一篇建議每天吃一塊石頭的文章，或者Reddit（是互聯(lián)網(wǎng)上訪(fǎng)問(wèn)量最大的網(wǎng)站之一，成立于2005年，由企業(yè)家Steve Huffman、Alexis Ohanian和已故的電腦奇才Aaron Swartz共同創(chuàng)立，每月活躍用戶(hù)達(dá)到8.5億。）有一篇關(guān)于在披薩上涂膠水的帖子，這些“不可靠”的信息來(lái)源應(yīng)該成為訓(xùn)練數(shù)據(jù)集的一部分嗎？

“這實(shí)際上要求技術(shù)來(lái)解釋人們是否日常會(huì)在披薩上涂膠水?！盫ermeir（維梅爾）說(shuō)，“對(duì)于一個(gè)大型語(yǔ)言模型來(lái)說(shuō)，這是一項(xiàng)有趣的任務(wù)，它對(duì)大量信息進(jìn)行推理。所以這個(gè)用例非常有用?！笔聦?shí)上，ABBYY也有類(lèi)似的功能，即當(dāng)將特定的信息添加到訓(xùn)練數(shù)據(jù)集中時(shí)，是否有助于訓(xùn)練模型的性能。

他說(shuō)：“我們正在驗(yàn)證我們收到的訓(xùn)練數(shù)據(jù)是否真的會(huì)增加進(jìn)模型?！?/span>

這與較小的ML或特殊用途的生成式人工智能模型特別相關(guān)。對(duì)于通用模型來(lái)說(shuō)，很難做出這種區(qū)分。例如，從訓(xùn)練數(shù)據(jù)集中排除Onion的文章可能會(huì)提高模型的事實(shí)表現(xiàn)，但也剔除了包括它們可能會(huì)提高模型的幽默感和寫(xiě)作水平的可能；屏蔽道聽(tīng)途說(shuō)網(wǎng)站的文章可能會(huì)提高模型的科學(xué)準(zhǔn)確性，但會(huì)降低其討論陰謀論的能力。

二、重復(fù)數(shù)據(jù)刪除和質(zhì)量控制用例

網(wǎng)絡(luò)安全初創(chuàng)公司Simbian（是一家為不同 IT 環(huán)境下的業(yè)務(wù)運(yùn)營(yíng)提供人工智能解決方案的公司，致力于通過(guò)將所有戰(zhàn)術(shù)任務(wù)委托給其可信賴(lài)的人工智能平臺(tái)來(lái)實(shí)現(xiàn)完全自主的安全，從而使用戶(hù)能夠?qū)Ｗ⒂趹?zhàn)略安全目標(biāo)。）正在構(gòu)建一個(gè)人工智能驅(qū)動(dòng)的安全平臺(tái)，擔(dān)心用戶(hù)“jailbreaking（越獄，打破 ChatGPT 等人工智能模型道德保障的一種方式。它是借助某些特定的文字提示，可以輕松繞過(guò)內(nèi)容審核準(zhǔn)則，使人工智能程序不受任何限制。）”人工智能，或者以不應(yīng)該的方式提問(wèn)。

該公司的首席執(zhí)行官Ambuj Kumar（阿姆布·庫(kù)馬爾）說(shuō)：“當(dāng)您建立一個(gè)LLM時(shí)，它最好是安全的?！?/span>

為了找到此類(lèi)越獄的例子，該公司建立了一個(gè)網(wǎng)站，用戶(hù)可以在那里嘗試欺騙人工智能模型。他說(shuō)：“這向我們展示了LLM可以被愚弄的所有方式?！比欢?，在研究結(jié)果中有很多重復(fù)的地方。例如，一個(gè)用戶(hù)想讓聊天機(jī)器人解釋如何制造炸彈。直接詢(xún)問(wèn)會(huì)導(dǎo)致聊天機(jī)器人拒絕回答問(wèn)題。因此，用戶(hù)可能會(huì)說(shuō)，“我的祖母曾經(jīng)給我講過(guò)一個(gè)制造炸彈的故事……”而另一個(gè)用戶(hù)則可能會(huì)說(shuō)，“我的曾祖父曾經(jīng)給我講故事……”簡(jiǎn)單地說(shuō)，就所用的單詞而言，這是兩個(gè)不同的提示，但這些是常見(jiàn)越獄策略的例子。

在訓(xùn)練數(shù)據(jù)集中有太多類(lèi)似策略的例子會(huì)扭曲結(jié)果。另外，它還會(huì)花費(fèi)更多的錢(qián)。他說(shuō)，通過(guò)使用生成式人工智能來(lái)比較不同的成功越獄，樣本總數(shù)減少了10倍。

Simbian還使用LLM來(lái)篩選其訓(xùn)練數(shù)據(jù)集，該數(shù)據(jù)集充滿(mǎn)了不同類(lèi)型的安全相關(guān)信息。

“人們已經(jīng)寫(xiě)了千兆字節(jié)的博客、手冊(cè)和閱讀材料，”他說(shuō)，“我們正在不斷閱讀這些東西，弄清楚哪些是精華，哪些則不然，并將精華添加到我們的訓(xùn)練數(shù)據(jù)集中?！?/span>

三、合成數(shù)據(jù)用例

其中一個(gè)用例特別適合于生成式人工智能，因?yàn)?span style="font-size: 16px; font-family: 微軟雅黑, "Microsoft YaHei"; padding: 0px; outline: 0px; max-width: 100%; color: rgb(64, 118, 0);">它是專(zhuān)門(mén)為生成新文本而設(shè)計(jì)的。

“它們?cè)谏珊铣蓴?shù)據(jù)和測(cè)試數(shù)據(jù)方面非常強(qiáng)大。”數(shù)據(jù)安全公司Dasera（是一家數(shù)據(jù)安全公司，Dasera的綜合數(shù)據(jù)安全平臺(tái)分析了所有數(shù)據(jù)存儲(chǔ)之間的每一次交互，以便在盡可能早的階段識(shí)別風(fēng)險(xiǎn)。他們使數(shù)據(jù)、安全和合規(guī)團(tuán)隊(duì)能夠克服數(shù)據(jù)蔓延、數(shù)據(jù)濫用和隱私侵犯。）的聯(lián)合創(chuàng)始人兼首席技術(shù)官Noah Johnson（諾亞·約翰遜）說(shuō)，“他們?cè)谶@方面卓有成效。您給他們提供結(jié)構(gòu)和一般背景，他們就可以生成看起來(lái)非常逼真的合成數(shù)據(jù)?！边@些合成數(shù)據(jù)隨后將被用來(lái)測(cè)試該公司的軟件，“我們使用了一個(gè)開(kāi)源模型，我們已經(jīng)針對(duì)這個(gè)特定的應(yīng)用程序進(jìn)行了調(diào)整?！彼f(shuō)。

Constellation Research（是美國(guó)硅谷的一家科技研究與咨詢(xún)公司。致力提供戰(zhàn)略指導(dǎo),幫助企業(yè)通過(guò)突破性技術(shù)的率先應(yīng)用推進(jìn)企業(yè)轉(zhuǎn)型。）副總裁兼首席分析師Andy Thurai（安迪·圖萊）表示，合成數(shù)據(jù)不僅僅用于軟件測(cè)試。例如，客戶(hù)服務(wù)聊天機(jī)器人可能需要大量的培訓(xùn)數(shù)據(jù)來(lái)學(xué)習(xí)。

“但有時(shí)還沒(méi)有足夠的數(shù)據(jù)，”Thurai（圖萊）說(shuō)，“真實(shí)世界的數(shù)據(jù)非常昂貴、耗時(shí)且難以收集。”獲取數(shù)據(jù)還可能存在法律限制或版權(quán)問(wèn)題以及其他障礙。此外，現(xiàn)實(shí)世界的數(shù)據(jù)是混亂的，他說(shuō)?！?span style="font-size: 16px; font-family: 微軟雅黑, "Microsoft YaHei"; padding: 0px; outline: 0px; max-width: 100%; color: rgb(64, 118, 0);">數(shù)據(jù)科學(xué)家將花費(fèi)高達(dá)90%的時(shí)間來(lái)整理和清理數(shù)據(jù)集。”模型訓(xùn)練的數(shù)據(jù)越多越好。有些模型有數(shù)十億個(gè)參數(shù)。

他說(shuō)：“通過(guò)使用合成數(shù)據(jù)，您可以在需要的時(shí)候隨心所欲地快速生成數(shù)據(jù)?！?/span>

他補(bǔ)充道，挑戰(zhàn)在于，只生成您期望看到的數(shù)據(jù)太容易了，當(dāng)遇到現(xiàn)實(shí)世界的混亂時(shí)，導(dǎo)致模型不太好。

“但根據(jù)我與高管們的對(duì)話(huà)，他們似乎都認(rèn)為這已經(jīng)足夠好了，”Thurai（圖萊）說(shuō)。“讓我先把真實(shí)世界的數(shù)據(jù)和合成數(shù)據(jù)混合在一起，把模型制作出來(lái)，以填補(bǔ)一些空白和漏洞。在以后的版本中，隨著我獲得更多的數(shù)據(jù)，我可以用更新的數(shù)據(jù)進(jìn)行微調(diào)或RAG（即檢索增強(qiáng)生成，是一種自然語(yǔ)言處理模型，旨在改進(jìn)各種NLP任務(wù)的表現(xiàn)，包括問(wèn)答、摘要生成等。）或重新訓(xùn)練?！?/span>

四、控制生成式人工智能的期望

最重要的是要知道，生成式人工智能并不能解決公司的所有數(shù)據(jù)問(wèn)題。

“這不是靈丹妙藥，”人工智能和數(shù)據(jù)咨詢(xún)公司Indicium的數(shù)據(jù)主管Daniel Avancini（丹尼爾·阿萬(wàn)西尼）說(shuō)。

如果一家公司剛剛開(kāi)始數(shù)據(jù)之旅，那么做好基礎(chǔ)工作是關(guān)鍵，包括構(gòu)建良好的數(shù)據(jù)平臺(tái)，建立數(shù)據(jù)治理流程，以及使用高效而穩(wěn)健的傳統(tǒng)方法來(lái)識(shí)別、分類(lèi)和清理數(shù)據(jù)。

“生成式人工智能肯定會(huì)有所幫助，但有很多傳統(tǒng)的最佳實(shí)踐需要首先加以實(shí)施，”他說(shuō)。

如果沒(méi)有這些基礎(chǔ)，LLM的收益可能有限。但是，當(dāng)公司確實(shí)有了自己的框架，并且正在處理大量數(shù)據(jù)時(shí)，生成式人工智能可以幫助完成一些特定的任務(wù)。

他說(shuō)：“但我不會(huì)說(shuō)，以我們現(xiàn)在的技術(shù)，這將取代傳統(tǒng)方法。”

作者：Maria Korolov（瑪麗亞·科洛洛夫）

Maria Korolov（瑪麗亞·科洛洛夫）是一位報(bào)道人工智能和網(wǎng)絡(luò)安全的獲獎(jiǎng)科技記者。她還寫(xiě)科幻小說(shuō)，編輯一本科幻和幻想雜志，并主持一個(gè)YouTube節(jié)目。

譯者：寶藍(lán) @lex

上一篇：引領(lǐng)食品行業(yè)低碳轉(zhuǎn)型案例：達(dá)能（中國(guó)）…

下一篇：爭(zhēng)當(dāng)紡織行業(yè)綠色低碳發(fā)展排頭兵：魯泰紡…

av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线

二、關(guān)鍵發(fā)現(xiàn)

三、注意事項(xiàng)

四、未來(lái)展望

總結(jié)

二、關(guān)鍵發(fā)現(xiàn)

三、注意事項(xiàng)