精品视频国产,狠狠操美女网站

生成式AI成功之道：三大數(shù)據(jù)管理關(guān)鍵要素

作者：CIO.com睿觀來(lái)源：CIOCDO 發(fā)布時(shí)間：2024年10月08日點(diǎn)擊數(shù)：

經(jīng)過(guò)近兩年的生成式人工智能實(shí)驗(yàn)，許多IT?領(lǐng)導(dǎo)者已準(zhǔn)備好擴(kuò)大規(guī)模。然而，在此之前，他們需要重新考慮數(shù)據(jù)管理。成功實(shí)施生成式人工智能需要建立一套完善的數(shù)據(jù)管理體系，涵蓋數(shù)據(jù)收集、處理、治理、安全和隱私等多個(gè)方面。只有這樣，才能充分發(fā)揮人工智能的潛力，同時(shí)避免潛在的風(fēng)險(xiǎn)。

圖片來(lái)源：DC Studio / Shutterstock

根據(jù)Nvidia?人工智能模型、軟件和服務(wù)副總裁?Kari Briski?的說(shuō)法，成功實(shí)施新一代人工智能取決于有效的數(shù)據(jù)管理以及評(píng)估不同模型如何協(xié)同工作以服務(wù)于特定用例。雖然?Nvidia?等少數(shù)精英組織將新一代人工智能用于設(shè)計(jì)新芯片等工作，但大多數(shù)組織已經(jīng)確定了采用更簡(jiǎn)單模型的較不復(fù)雜的用例，并且可以專注于實(shí)現(xiàn)卓越的數(shù)據(jù)管理。

自動(dòng)化和人工智能從業(yè)者、Gartner同行社區(qū)大使?Doug Shannon?表示，絕大多數(shù)企業(yè)現(xiàn)在專注于最有可能帶來(lái)積極投資回報(bào)的兩類用例。一類是知識(shí)管理?(KM)，包括收集企業(yè)信息、對(duì)其進(jìn)行分類，并將其提供給允許用戶查詢的模型。另一個(gè)是檢索增強(qiáng)生成?(RAG)?模型，其中來(lái)自較大來(lái)源的數(shù)據(jù)片段被矢量化，以允許用戶“與”數(shù)據(jù)“對(duì)話”。例如，他們可以獲取一份長(zhǎng)達(dá)一千頁(yè)的文檔，讓模型將其提取，然后向模型詢問(wèn)有關(guān)它的問(wèn)題。

Doug Shannon，Gartner全球智能自動(dòng)化負(fù)責(zé)人，Gartner

大型企業(yè)固然擁有龐大的數(shù)據(jù)資產(chǎn)，但復(fù)雜的遺留系統(tǒng)和僵化的組織結(jié)構(gòu)往往限制了它們對(duì)數(shù)據(jù)的有效利用。相比之下，中小企業(yè)在數(shù)據(jù)管理和 AI 應(yīng)用方面更加靈活，能夠快速響應(yīng)市場(chǎng)變化。例如，許多中小企業(yè)通過(guò)構(gòu)建輕量級(jí)的知識(shí)圖譜和 RAG 模型，成功實(shí)現(xiàn)了知識(shí)的快速檢索和利用，從而在競(jìng)爭(zhēng)中脫穎而出。?然而，無(wú)論企業(yè)規(guī)模大小，數(shù)據(jù)治理都是成功的關(guān)鍵。企業(yè)需要建立健全的數(shù)據(jù)治理體系，確保數(shù)據(jù)的質(zhì)量、安全和可用性，才能充分發(fā)揮 AI 的價(jià)值。

如果數(shù)據(jù)管理做得不好，會(huì)導(dǎo)致收益減少和額外成本。例如，由不良數(shù)據(jù)引起的幻覺(jué)需要花費(fèi)大量額外的時(shí)間和金錢來(lái)修復(fù)——并且會(huì)讓用戶對(duì)工具失去興趣。但一些IT?領(lǐng)導(dǎo)者做對(duì)了，因?yàn)樗麄儗Ｗ⒂谌齻€(gè)關(guān)鍵方面。

一、收集、過(guò)濾和分類數(shù)據(jù)

第一個(gè)是一系列過(guò)程——收集、過(guò)濾和分類數(shù)據(jù)——對(duì)于知識(shí)管理（KM ）或檢索增強(qiáng)生成（RAG ）模型來(lái)說(shuō)，可能需要幾個(gè)月的時(shí)間。結(jié)構(gòu)化數(shù)據(jù)相對(duì)容易，但非結(jié)構(gòu)化數(shù)據(jù)雖然更難分類，但卻是最有價(jià)值的?！澳阈枰罃?shù)據(jù)是什么，因?yàn)橹挥性谀愣x它并將其放入分類法中之后，你才能用它做任何事情，”Shannon?說(shuō)。

Nvidia提供開(kāi)源工具和企業(yè)軟件進(jìn)行過(guò)濾，可以配置為刪除個(gè)人身份信息?(PII)?或?qū)μ囟I(lǐng)域有害的信息。工具包中提供了分類器，允許企業(yè)設(shè)置閾值?！拔覀冞€進(jìn)行數(shù)據(jù)混合，將來(lái)自不同來(lái)源的數(shù)據(jù)組合在一起，”Briski?說(shuō)。

在混合過(guò)程中，可以重新排列數(shù)據(jù)以改變相對(duì)數(shù)量。例如，一些企業(yè)可能希望30%?的數(shù)據(jù)來(lái)自?18?至?25?歲之間的人，只有?15%?的數(shù)據(jù)來(lái)自?65?歲以上的人?；蛘咚麄兛赡芟Ｍ?20%?的培訓(xùn)數(shù)據(jù)來(lái)自客戶支持，25%?來(lái)自售前。在混合過(guò)程中，還可以消除重復(fù)信息。

Kari Briski，Nvidia AI軟件產(chǎn)品管理副總裁，Nvidia

信息也應(yīng)該進(jìn)行質(zhì)量過(guò)濾。據(jù)Briski?介紹，這是一個(gè)迭代過(guò)程，涉及各種任務(wù)以獲得最高質(zhì)量的數(shù)據(jù)——這些信號(hào)可以提高模型的準(zhǔn)確性。質(zhì)量與你所在領(lǐng)域的背景有關(guān)，因此，例如，對(duì)金融的準(zhǔn)確響應(yīng)可能對(duì)醫(yī)療保健完全錯(cuò)誤?！巴ㄟ^(guò)質(zhì)量過(guò)濾，我們找到了正確的信號(hào)，并綜合生成了類似類型的數(shù)據(jù)來(lái)提高該信號(hào)的重要性，”她說(shuō)。

Briski還指出了用于訓(xùn)練?AI?的數(shù)據(jù)集的版本控制的重要性。由于不同的人過(guò)濾和擴(kuò)充數(shù)據(jù)，你需要追蹤誰(shuí)做了哪些更改以及為什么，并且你需要知道哪個(gè)版本的數(shù)據(jù)集用于訓(xùn)練給定的模型。

對(duì)于企業(yè)必須管理的所有數(shù)據(jù)，自動(dòng)化數(shù)據(jù)收集、過(guò)濾和分類過(guò)程至關(guān)重要。“許多組織都有數(shù)據(jù)倉(cāng)庫(kù)和結(jié)構(gòu)化數(shù)據(jù)報(bào)告，許多組織已經(jīng)采用了數(shù)據(jù)湖和數(shù)據(jù)結(jié)構(gòu)，”哈佛大學(xué)副總裁兼首席信息官Klara Jelinkova?說(shuō)。 “但隨著數(shù)據(jù)集隨著生成式人工智能而增長(zhǎng)，確保確保數(shù)據(jù)的高質(zhì)量和一致性成為一項(xiàng)挑戰(zhàn)，尤其是在速度加快的情況下。擁有自動(dòng)化和可擴(kuò)展的數(shù)據(jù)檢查是關(guān)鍵。”

【睿觀：打造AI的“營(yíng)養(yǎng)餐”——將數(shù)據(jù)比作食材，將AI模型比作一個(gè)正在成長(zhǎng)的孩子。

收集數(shù)據(jù)：?就像為孩子準(zhǔn)備食材一樣，企業(yè)需要從各個(gè)渠道收集各種各樣的數(shù)據(jù)，這些數(shù)據(jù)就是AI模型的“原材料”。
過(guò)濾數(shù)據(jù)：?過(guò)濾數(shù)據(jù)就好比給食材清洗、去雜質(zhì)。我們不能給孩子吃所有東西，同樣，AI模型也不能處理所有數(shù)據(jù)，需要去除其中的噪音和有害信息，比如PII等。
分類數(shù)據(jù)：?分類數(shù)據(jù)就像給食材分類，哪些是肉類，哪些是蔬菜，哪些是水果。只有將數(shù)據(jù)分類清楚，AI模型才能更好地理解和利用這些數(shù)據(jù)。
數(shù)據(jù)混合：?數(shù)據(jù)混合就像將不同的食材搭配在一起，以創(chuàng)造出更美味的菜肴。通過(guò)調(diào)整不同類型數(shù)據(jù)的比例，可以影響AI模型的輸出結(jié)果。
質(zhì)量控制：?質(zhì)量控制就像是品嘗食物，確保食材新鮮、營(yíng)養(yǎng)。只有高質(zhì)量的數(shù)據(jù)才能訓(xùn)練出準(zhǔn)確可靠的AI模型。
版本控制：?版本控制就像記錄食譜，以便下次可以復(fù)現(xiàn)同樣的菜肴。通過(guò)版本控制，我們可以追蹤數(shù)據(jù)的變化，了解哪些數(shù)據(jù)對(duì)模型的影響最大。
自動(dòng)化：?自動(dòng)化就像廚房里的各種電器，可以幫助我們更高效地處理食材。通過(guò)自動(dòng)化數(shù)據(jù)處理，可以節(jié)省大量人力，提高效率。

總結(jié)來(lái)說(shuō)，打造一個(gè)強(qiáng)大的AI模型，就像為孩子準(zhǔn)備營(yíng)養(yǎng)均衡的膳食一樣。需要精心挑選食材（數(shù)據(jù)），進(jìn)行清洗、分類、搭配，并不斷調(diào)整配方，才能培養(yǎng)出一個(gè)健康、聰明的孩子。】

二、磨練數(shù)據(jù)治理和合規(guī)性

數(shù)據(jù)管理的第二個(gè)方面是數(shù)據(jù)治理和合規(guī)性，哈佛大學(xué)的實(shí)驗(yàn)清楚地說(shuō)明了這一點(diǎn)。去年，IT部門(mén)推出了?AI Sandbox，這是一個(gè)內(nèi)部開(kāi)發(fā)的?gen AI?環(huán)境，免費(fèi)提供給其用戶社區(qū)。沙盒提供對(duì)幾個(gè)不同?LLM?的訪問(wèn)，允許人們嘗試各種工具。

哈佛IT?部門(mén)還運(yùn)行了創(chuàng)新計(jì)劃，人們?cè)谄渲型其N使用?gen AI?的項(xiàng)目。宣傳必須包含一些關(guān)于預(yù)期投資回報(bào)率的內(nèi)容，其中不一定是關(guān)于財(cái)務(wù)回報(bào)，但可以是其他收益的組合，例如新知識(shí)和發(fā)現(xiàn)，或改進(jìn)的流程。如果項(xiàng)目被接受，則會(huì)獲得一小筆種子資金，而那些表現(xiàn)出預(yù)期收益的項(xiàng)目可能會(huì)擴(kuò)大規(guī)模。

Klara Jelinkova，哈佛大學(xué)副校長(zhǎng)兼首席信息官，哈佛大學(xué)

據(jù)Jelinkova?稱，對(duì)于新一代人工智能項(xiàng)目，數(shù)據(jù)管理的一個(gè)重要方面是重新審視數(shù)據(jù)治理，思考需要改變什么。“我們從通用的人工智能使用指南開(kāi)始，只是為了確保我們的實(shí)驗(yàn)有一些護(hù)欄，”她說(shuō)?！拔覀儚氖聰?shù)據(jù)治理已經(jīng)很長(zhǎng)時(shí)間了，但當(dāng)你開(kāi)始談?wù)撟詣?dòng)化數(shù)據(jù)管道時(shí)，很快就會(huì)發(fā)現(xiàn)你需要重新考慮那些圍繞結(jié)構(gòu)化數(shù)據(jù)構(gòu)建的舊數(shù)據(jù)治理模型?！?/span>

合規(guī)性是另一個(gè)重要的關(guān)注領(lǐng)域。作為一家考慮擴(kuò)展部分AI?項(xiàng)目的全球性機(jī)構(gòu)，哈佛大學(xué)密切關(guān)注著世界各地不斷變化的監(jiān)管環(huán)境。它有一個(gè)活躍的工作組，致力于遵循和理解歐盟?AI?法案，在他們的用例投入生產(chǎn)之前，他們會(huì)執(zhí)行一個(gè)流程，以確保滿足所有合規(guī)義務(wù)。

“當(dāng)你使用新技術(shù)時(shí)，你處于前沿，并且面臨著立法環(huán)境隨著時(shí)間的推移而發(fā)生變化的風(fēng)險(xiǎn)，”她說(shuō)。“對(duì)我們來(lái)說(shuō)，這都是數(shù)據(jù)治理的一部分。你需要有一個(gè)合規(guī)框架，允許你隨著立法環(huán)境的變化重新制定你以前做過(guò)的事情?！?/span>

【睿觀：數(shù)據(jù)治理與合規(guī)性——給AI建一堵安全的圍墻。

AI Sandbox（沙箱）：?這就像一個(gè)安全的游樂(lè)場(chǎng)，在這個(gè)游樂(lè)場(chǎng)里，研究人員可以自由地探索AI的各種可能性，但同時(shí)也要遵守一定的規(guī)則。
數(shù)據(jù)治理：?數(shù)據(jù)治理就像是圍墻的地基，它為AI的運(yùn)行提供了基礎(chǔ)和保障。就像地基要足夠堅(jiān)固才能支撐起高墻一樣，數(shù)據(jù)治理要足夠完善才能保證數(shù)據(jù)的安全和有效利用。
合規(guī)性：?合規(guī)性就像圍墻上的攝像頭和警報(bào)系統(tǒng)，它可以及時(shí)發(fā)現(xiàn)并阻止?jié)撛诘耐{。就像我們需要遵守法律法規(guī)一樣，AI的應(yīng)用也必須符合相關(guān)的法律法規(guī)。
不斷變化的監(jiān)管環(huán)境：?不斷變化的監(jiān)管環(huán)境就像圍墻外的世界，它隨時(shí)可能發(fā)生變化，我們需要不斷調(diào)整圍墻的高度和強(qiáng)度，以適應(yīng)新的環(huán)境。

總結(jié)來(lái)說(shuō)，數(shù)據(jù)治理和合規(guī)性就像給AI建了一堵安全的圍墻，這堵墻不僅要足夠堅(jiān)固，還要能夠靈活應(yīng)對(duì)不斷變化的環(huán)境。只有這樣，我們才能放心地讓AI在我們的世界中發(fā)揮作用。

深入思考

數(shù)據(jù)隱私：?數(shù)據(jù)隱私就像圍墻上的鎖，它保護(hù)著我們的個(gè)人信息。我們需要采取各種措施，確保數(shù)據(jù)的安全性和隱私性。
算法偏見(jiàn)：?算法偏見(jiàn)就像圍墻上的裂縫，它可能導(dǎo)致不公平的結(jié)果。我們需要對(duì)算法進(jìn)行審計(jì)和評(píng)估，以確保其公平性。
倫理道德：?倫理道德就像圍墻上的警示牌，提醒我們AI應(yīng)用的邊界。我們需要遵循倫理原則，確保AI的發(fā)展符合人類的價(jià)值觀。】

三、優(yōu)先考慮數(shù)據(jù)隱私和保護(hù)知識(shí)產(chǎn)權(quán)

第三是數(shù)據(jù)隱私和知識(shí)產(chǎn)權(quán)(IP)?保護(hù)。對(duì)于大多數(shù)組織來(lái)說(shuō)，數(shù)據(jù)管理本質(zhì)上與隱私息息相關(guān)。他們需要確保自己不會(huì)面臨風(fēng)險(xiǎn)?！澳阌羞^(guò)濾、規(guī)范化、某種增強(qiáng)，你必須注釋數(shù)據(jù)，”Jelinkova?說(shuō)。 “但隨后你還要解決數(shù)據(jù)的安全性和隱私性問(wèn)題，你需要保護(hù)自己的知識(shí)產(chǎn)權(quán)?！?/span>

在深入研究數(shù)據(jù)時(shí)，許多企業(yè)發(fā)現(xiàn)他們不了解與某些數(shù)據(jù)相關(guān)的基于角色的訪問(wèn)控制(RBAC)——如果有的話。因此，他們不知道在企業(yè)內(nèi)部甚至外部共享了哪些數(shù)據(jù)。這就是指導(dǎo)方針和護(hù)欄顯示其重要性的地方，也是需要提前實(shí)施它們的原因。

Jelinkova說(shuō)，哈佛大學(xué)在隱私原則方面非常積極主動(dòng)，它有一個(gè)全面的數(shù)據(jù)安全計(jì)劃，包括數(shù)據(jù)分類和指導(dǎo)哪些數(shù)據(jù)可用于不同類型的人工智能?！拔覀儗?duì)知識(shí)產(chǎn)權(quán)非常謹(jǐn)慎，”她說(shuō)?！爱?dāng)我們收集數(shù)據(jù)來(lái)構(gòu)建人工智能導(dǎo)師時(shí)，我們需要確保我們擁有我們將要輸入的所有數(shù)據(jù)的所有知識(shí)產(chǎn)權(quán)?！?/span>

而且，由于與大多數(shù)大學(xué)一樣，哈佛大學(xué)創(chuàng)造了許多自己的知識(shí)產(chǎn)權(quán)，因此它也必須確保保護(hù)這些知識(shí)產(chǎn)權(quán)。對(duì)于內(nèi)部創(chuàng)建的人工智能工具來(lái)說(shuō)，這并不難做到。但當(dāng)使用公共模型時(shí)，必須采取額外措施，以免他們直接或間接地利用你的寶貴信息來(lái)獲取商業(yè)利益。為了安全起見(jiàn)，哈佛大學(xué)與第三方人工智能工具供應(yīng)商簽訂了合同保護(hù)措施，以確保其數(shù)據(jù)的安全和隱私。

【睿觀：數(shù)據(jù)隱私與知識(shí)產(chǎn)權(quán)——給AI建一扇堅(jiān)固的大門(mén)，數(shù)據(jù)隱私和知識(shí)產(chǎn)權(quán)就像一扇堅(jiān)固的大門(mén)，保護(hù)著我們的數(shù)據(jù)資產(chǎn)。這扇大門(mén)需要有堅(jiān)固的鎖、清晰的標(biāo)識(shí)和完善的監(jiān)控系統(tǒng)，才能抵御各種威脅。

數(shù)據(jù)隱私：?數(shù)據(jù)隱私就像大門(mén)上的鎖，它保護(hù)著我們的個(gè)人信息不被泄露。就像我們?cè)诩抑邪惭b鎖一樣，企業(yè)也需要在數(shù)據(jù)處理的過(guò)程中設(shè)置各種安全措施，防止數(shù)據(jù)被未經(jīng)授權(quán)的人訪問(wèn)。
知識(shí)產(chǎn)權(quán)：?知識(shí)產(chǎn)權(quán)就像大門(mén)上的牌子，表明這是我們的私人領(lǐng)地。企業(yè)產(chǎn)生的數(shù)據(jù)和算法都是寶貴的資產(chǎn)，需要通過(guò)知識(shí)產(chǎn)權(quán)保護(hù)來(lái)防止被他人非法利用。
RBAC：?RBAC就像大門(mén)的門(mén)禁系統(tǒng)，它可以根據(jù)不同的身份賦予不同的訪問(wèn)權(quán)限。通過(guò)RBAC，我們可以更精細(xì)地控制數(shù)據(jù)的訪問(wèn)權(quán)限，防止數(shù)據(jù)泄露。
第三方合作：?與第三方合作就像在自家大門(mén)前安裝監(jiān)控?cái)z像頭，雖然增加了安全措施，但也需要與第三方簽訂協(xié)議，確保我們的隱私和權(quán)益得到保護(hù)。】