av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线

你好,歡迎您來(lái)到福建信息主管(CIO)網(wǎng)! 設(shè)為首頁(yè)|加入收藏|會(huì)員中心
您現(xiàn)在的位置:>> 新聞資訊 >>
別讓完美數(shù)據(jù)毀了CIO的AI模型——人工智能時(shí)代的數(shù)據(jù)質(zhì)量挑戰(zhàn)與應(yīng)對(duì)
作者:CIO&睿觀 來(lái)源:CIOCDO 發(fā)布時(shí)間:2024年11月29日 點(diǎn)擊數(shù):

人工智能時(shí)代的數(shù)據(jù)質(zhì)量并非一蹴而就,而是需要根據(jù)具體應(yīng)用場(chǎng)景和模型需求進(jìn)行靈活、迭代的處理。過(guò)度追求數(shù)據(jù)純凈可能導(dǎo)致信息的丟失和模型泛化能力的下降。

數(shù)據(jù)質(zhì)量對(duì)于AI項(xiàng)目的成功至關(guān)重要,但您需要保留原始數(shù)據(jù)的豐富性、多樣性和完整性,以免破壞結(jié)果。


數(shù)據(jù)管理曾經(jīng)是數(shù)據(jù)倉(cāng)庫(kù)團(tuán)隊(duì)的職責(zé),如今已日益成為高管層的優(yōu)先事項(xiàng),數(shù)據(jù)質(zhì)量被視為客戶體驗(yàn)和業(yè)務(wù)績(jī)效的關(guān)鍵。但除了數(shù)據(jù)孤島和合規(guī)性問(wèn)題外,數(shù)據(jù)質(zhì)量差也阻礙了企業(yè)AI項(xiàng)目的發(fā)展。雖然大多數(shù)高管普遍信任他們的數(shù)據(jù),但他們也表示,只有不到三分之二的數(shù)據(jù)是可用的。

人工智能編碼助手Tabnine(Tabnine是一款人工智能代碼補(bǔ)全和生成工具。它利用深度學(xué)習(xí)算法來(lái)分析代碼,并提供完成代碼片段的智能建議。核心功能包括AI代碼補(bǔ)全、多語(yǔ)言支持、IDE集成、AI驅(qū)動(dòng)的聊天功能、代碼解釋和文檔生成、測(cè)試用例生成以及代碼重構(gòu)建議的聯(lián)合創(chuàng)始人兼首席技術(shù)官Eran Yahav(埃蘭·亞哈夫)【Eran Yahav(埃蘭·亞哈夫)是一位在計(jì)算機(jī)科學(xué)領(lǐng)域有著顯著貢獻(xiàn)的科學(xué)家和企業(yè)家,他與Dror Weiss共同創(chuàng)立了Tabnine,還在學(xué)術(shù)界有著豐富的研究經(jīng)歷,他的研究領(lǐng)域包括程序語(yǔ)言、軟件工程和人工智能】表示,對(duì)于許多組織來(lái)說(shuō),為人工智能準(zhǔn)備數(shù)據(jù)是他們第一次以跨領(lǐng)域的視角看待數(shù)據(jù),從而顯示出系統(tǒng)之間的差異。

解決這個(gè)問(wèn)題可能意味著要從基本的數(shù)據(jù)清潔開(kāi)始,比如確保數(shù)據(jù)庫(kù)中有正確的字段來(lái)滿足不同團(tuán)隊(duì)的需求,或者精簡(jiǎn)你用人工智能處理的數(shù)據(jù)以反映你想要的結(jié)果?!拔覀冋噲D讓人工智能擁有與企業(yè)中最好的員工相同的知識(shí),”他說(shuō)?!斑@需要整理和清理以保證數(shù)據(jù)清潔和一致性,也需要一個(gè)反饋循環(huán)?!?/span>

使用自己的代碼庫(kù)來(lái)教授AI編碼助手最佳實(shí)踐的組織,需要?jiǎng)h除他們不想重復(fù)的模式的遺留代碼,而且大型數(shù)據(jù)集并不總是比小型數(shù)據(jù)集更好。“一位客戶通過(guò)復(fù)制現(xiàn)有項(xiàng)目并對(duì)其進(jìn)行修改來(lái)創(chuàng)建新項(xiàng)目,”Yahav(亞哈夫)說(shuō)。“他們有一百份相同內(nèi)容的副本,只有細(xì)微的差別,而且無(wú)法區(qū)分它是否重要,因?yàn)樗蜎](méi)在重復(fù)中?!?/span>

良好的數(shù)據(jù)治理始終涉及處理數(shù)據(jù)集中的錯(cuò)誤和不一致,以及通過(guò)刪除重復(fù)項(xiàng)、糾正拼寫錯(cuò)誤、標(biāo)準(zhǔn)化和驗(yàn)證數(shù)據(jù)格式和類型以及擴(kuò)充不完整信息或檢測(cè)數(shù)據(jù)中不尋常和不可能的變化來(lái)索引和分類結(jié)構(gòu)化數(shù)據(jù)。這仍然很重要,但并不總是與人工智能處理的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)相關(guān),因?yàn)檫@些數(shù)據(jù)也會(huì)有更多的變化。人工智能的數(shù)據(jù)質(zhì)量需要涵蓋偏見(jiàn)檢測(cè)、侵權(quán)預(yù)防、模型特征數(shù)據(jù)中的偏差檢測(cè)和噪聲檢測(cè)。

【睿觀:人工智能的數(shù)據(jù)質(zhì)量綜合評(píng)價(jià)指標(biāo)表 100分@福建CIO網(wǎng)

序號(hào)

一級(jí)指標(biāo)

二級(jí)指標(biāo)

三級(jí)指標(biāo)

定義

計(jì)算方式

權(quán)重

數(shù)據(jù)來(lái)源









1

偏見(jiàn)檢測(cè)

人群偏見(jiàn)

性別偏見(jiàn)

模型對(duì)不同性別的個(gè)體輸出結(jié)果的差異程度

計(jì)算不同性別群體在模型輸出結(jié)果上的差異性指標(biāo)(如差異性比例、置信區(qū)間等)

15%

模型預(yù)測(cè)結(jié)果、用戶數(shù)據(jù)




年齡偏見(jiàn)

模型對(duì)不同年齡段的個(gè)體輸出結(jié)果的差異程度

計(jì)算不同年齡段群體在模型輸出結(jié)果上的差異性指標(biāo)

15%

模型預(yù)測(cè)結(jié)果、用戶數(shù)據(jù)




其他群體偏見(jiàn)

模型對(duì)其他受保護(hù)群體(如種族、宗教)的個(gè)體輸出結(jié)果的差異程度

計(jì)算不同受保護(hù)群體在模型輸出結(jié)果上的差異性指標(biāo)

10%

模型預(yù)測(cè)結(jié)果、用戶數(shù)據(jù)

2

侵權(quán)預(yù)防

版權(quán)侵權(quán)

內(nèi)容相似度

模型生成內(nèi)容與現(xiàn)有版權(quán)內(nèi)容的相似度

使用相似度算法計(jì)算(如BLEU、ROUGE等)

10%

模型生成內(nèi)容、版權(quán)數(shù)據(jù)庫(kù)




來(lái)源標(biāo)識(shí)

模型生成內(nèi)容是否明確標(biāo)注來(lái)源

對(duì)生成內(nèi)容進(jìn)行人工或自動(dòng)審核

5%

模型生成內(nèi)容

3

模型特征數(shù)據(jù)偏差

代表性不足

少數(shù)群體代表性

模型訓(xùn)練數(shù)據(jù)中少數(shù)群體的樣本比例

計(jì)算少數(shù)群體樣本在訓(xùn)練數(shù)據(jù)中的比例

10%

訓(xùn)練數(shù)據(jù)




標(biāo)簽偏差

標(biāo)簽數(shù)據(jù)是否準(zhǔn)確、一致

對(duì)標(biāo)簽數(shù)據(jù)進(jìn)行人工審核或使用一致性檢查算法

5%

標(biāo)簽數(shù)據(jù)

4

噪聲檢測(cè)

數(shù)據(jù)噪聲

異常值檢測(cè)

數(shù)據(jù)中是否存在明顯偏離正常范圍的值

使用統(tǒng)計(jì)方法或異常檢測(cè)算法

5%

模型訓(xùn)練數(shù)據(jù)、模型預(yù)測(cè)結(jié)果




數(shù)據(jù)缺失

數(shù)據(jù)是否完整

計(jì)算缺失值的比例

5%

模型訓(xùn)練數(shù)據(jù)


常見(jiàn)的數(shù)據(jù)管理做法對(duì)于人工智能來(lái)說(shuō)太慢、太結(jié)構(gòu)化、太死板,因?yàn)閿?shù)據(jù)清理需要針對(duì)具體情況并根據(jù)特定用例進(jìn)行量身定制。對(duì)于人工智能來(lái)說(shuō),沒(méi)有通用的標(biāo)準(zhǔn)來(lái)衡量數(shù)據(jù)何時(shí)“足夠干凈”。

即使對(duì)于更傳統(tǒng)的機(jī)器學(xué)習(xí),為商業(yè)智能和金融帶來(lái)紅利的大規(guī)模數(shù)據(jù)清理工作也很少能滿足數(shù)據(jù)科學(xué)團(tuán)隊(duì)的需求,因?yàn)樗麄兛赡芤呀?jīng)在為AI進(jìn)行自己的數(shù)據(jù)工程——并且在此過(guò)程中創(chuàng)建了更多不受管控的數(shù)據(jù)孤島,Domino數(shù)據(jù)實(shí)驗(yàn)室【Domino數(shù)據(jù)實(shí)驗(yàn)室(Domino Data Lab)是一個(gè)企業(yè)級(jí)人工智能平臺(tái),它提供了一系列工具和服務(wù),幫助企業(yè)構(gòu)建、部署和管理AI模型。該平臺(tái)支持?jǐn)?shù)據(jù)科學(xué)家在一個(gè)統(tǒng)一的端到端平臺(tái)上快速、負(fù)責(zé)任且經(jīng)濟(jì)高效地構(gòu)建、部署和管理AI,同時(shí)增強(qiáng)協(xié)作和監(jiān)管的AI戰(zhàn)略主管Kjell Carlsson(謝爾·卡爾森)【Kjell Carlsson(謝爾·卡爾森)是一位在數(shù)據(jù)分析、人工智能和機(jī)器學(xué)習(xí)領(lǐng)域有著深厚背景的專業(yè)人士,他擁有豐富的經(jīng)驗(yàn),曾在多個(gè)領(lǐng)域內(nèi)推動(dòng)數(shù)據(jù)的戰(zhàn)略洞察。他的研究議程集中在策略、最佳實(shí)踐、技能和供應(yīng)商上,以加速公司采納和從機(jī)器學(xué)習(xí)和高級(jí)分析中獲得價(jià)值說(shuō)。

數(shù)據(jù)清理不夠會(huì)導(dǎo)致明顯的問(wèn)題,但背景才是關(guān)鍵。谷歌的錯(cuò)誤示例是建議使用膠水制作披薩食譜,因?yàn)檫@就是美食攝影師讓融化的馬蘇里拉奶酪看起來(lái)誘人的方式,而這應(yīng)該從普通的大模型(LLM)中剔除。但這正是你在訓(xùn)練人工智能提供攝影技巧時(shí)想要包含的數(shù)據(jù)類型。相反,如果在訓(xùn)練集中保留了明顯諷刺性網(wǎng)站的內(nèi)容來(lái)源,谷歌搜索中發(fā)現(xiàn)的其他一些不恰當(dāng)?shù)慕ㄗh可能會(huì)被避免。

數(shù)據(jù)質(zhì)量極其重要,但它會(huì)導(dǎo)致過(guò)于循序漸進(jìn)的思維,從而讓你誤入歧途,”Carlsson(卡爾森)說(shuō)。“在最好的情況下,它最終會(huì)浪費(fèi)大量的時(shí)間和精力。在最壞的情況下,它可能會(huì)從你的數(shù)據(jù)中刪除信號(hào),實(shí)際上與你所需要的完全相反?!?/span>

一、相對(duì)而言

不同的領(lǐng)域和應(yīng)用需要不同級(jí)別的數(shù)據(jù)治理。您不能將數(shù)據(jù)治理視為一種通用的方法來(lái)獲取適合所有用途的數(shù)據(jù),而傳統(tǒng)的“單一事實(shí)版本”一直是商業(yè)智能的目標(biāo),實(shí)際上是一個(gè)有偏見(jiàn)的數(shù)據(jù)集。“沒(méi)有所謂的‘干凈的數(shù)據(jù)’,”Carlsson(卡爾森)說(shuō)?!八偸桥c您使用它的目的有關(guān)。在所有這些不同的用例中,清理的樣子都非常不同?!?/span>

以員工記錄的數(shù)據(jù)質(zhì)量為例,您可能將其用于薪資處理和包含公司新聞的內(nèi)部郵寄活動(dòng)?!皯?yīng)該以不同的方式看待這些內(nèi)容,并對(duì)其質(zhì)量做出不同的判斷,”日立有限公司全資子公司Pentaho(Pentaho是Hitachi Vantara的一個(gè)部門,專注于提供企業(yè)級(jí)的數(shù)據(jù)集成和業(yè)務(wù)分析平臺(tái))的產(chǎn)品管理高級(jí)總監(jiān)Kunju Kashalikar(昆居·卡沙利卡)【Kunju Kashalikar(昆居·卡沙利卡)是Pentaho的高級(jí)產(chǎn)品管理總監(jiān),他在數(shù)據(jù)平臺(tái)、數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量領(lǐng)域擁有多年的工作經(jīng)驗(yàn),在工程和產(chǎn)品管理的不同角色中積累了豐富的經(jīng)驗(yàn),并在該領(lǐng)域持有多項(xiàng)專利】表示。

Carlsson(卡爾森)補(bǔ)充道,人工智能需要更靈活、更具協(xié)作性、更具迭代性、更適合數(shù)據(jù)使用方式的數(shù)據(jù)清理。“很棒的一點(diǎn)是,我們現(xiàn)在以許多以前沒(méi)有過(guò)的方式使用數(shù)據(jù),”他說(shuō)?!暗F(xiàn)在的挑戰(zhàn)是,你需要考慮使用數(shù)據(jù)的每一種不同方式的清潔度?!?span style="font-family: 黑體, SimHei; outline: 0px; color: rgb(64, 118, 0);">有時(shí)這意味著在清理方面做更多的工作,有時(shí)則意味著做更少的工作。

Carlsson(卡爾森)警告稱,如果一家企業(yè)在開(kāi)始理解和構(gòu)建AI用例之前就嘗試為AI準(zhǔn)備好數(shù)據(jù),那么它可能會(huì)損害自身利益。因此,在開(kāi)始為企業(yè)AI進(jìn)行大規(guī)模數(shù)據(jù)清理之前,請(qǐng)考慮將數(shù)據(jù)清理得太干凈的弊端。

二、收益遞減

軟件開(kāi)發(fā)商Cohesity(Cohesity是一家由軟銀集團(tuán)支持的企業(yè)數(shù)據(jù)存儲(chǔ)公司,專注于提供超融合二級(jí)存儲(chǔ)解決方案。該公司的解決方案旨在統(tǒng)一和管理系統(tǒng)備份和分析等二級(jí)數(shù)據(jù),這些系統(tǒng)跨公有云和私有云連接到一個(gè)統(tǒng)一的視圖中,消除了IT孤島的歐洲、中東和非洲地區(qū)首席技術(shù)官M(fèi)ark Molyneux(馬克·莫利紐克斯)【Mark Molyneux(馬克·莫利紐克斯)是Cohesity公司歐洲、中東和非洲地區(qū)的首席技術(shù)官。的職責(zé)包括向客戶、潛在客戶和合作伙伴提供建議,幫助他們管理、保護(hù)、安全地處理數(shù)據(jù),并從數(shù)據(jù)中獲取價(jià)值表示,首席信息官會(huì)問(wèn)如何清理數(shù)據(jù),但他們應(yīng)該問(wèn)清理到什么程度?!袄碚撋?,你可以永遠(yuǎn)清理數(shù)據(jù),這取決于數(shù)據(jù)的大小,”他說(shuō)。

例如Syniti EMEA(Syniti EMEA是指企業(yè)數(shù)據(jù)管理軟件和服務(wù)提供商Syniti在歐洲、中東和非洲地區(qū)的業(yè)務(wù)和領(lǐng)導(dǎo)團(tuán)隊(duì))董事總經(jīng)理Chris Gorton(克里斯·戈頓)【Chris Gorton(克里斯·戈頓)是Syniti公司的高級(jí)副總裁兼歐洲、中東和非洲地區(qū)的董事總經(jīng)理。他在技術(shù)和數(shù)據(jù)行業(yè)擁有超過(guò)23年的經(jīng)驗(yàn),包括管理?yè)p益表(P&L)和實(shí)現(xiàn)收入增長(zhǎng)和盈利能力】,他在職業(yè)生涯早期花了大量時(shí)間為一家自動(dòng)售貨機(jī)公司清理客戶地址,結(jié)果卻發(fā)現(xiàn)他們真正需要的是用于發(fā)送發(fā)票的電子郵件地址,或者是用于維修的設(shè)備的具體位置。

他警告說(shuō),許多組織都在囤積沒(méi)有運(yùn)營(yíng)價(jià)值的大型數(shù)據(jù)集,在開(kāi)始進(jìn)行大型且昂貴的數(shù)據(jù)清理計(jì)劃之前,確定更清潔的數(shù)據(jù)將帶來(lái)什么價(jià)值非常重要。如果你不能描述你需要的數(shù)據(jù)活動(dòng)或結(jié)果如何與業(yè)務(wù)中的某些價(jià)值相關(guān)聯(lián),那么它可能就不需要做,”Gorton(戈頓)說(shuō)。

80/20規(guī)則經(jīng)常適用,邊際收益(尤其是清理舊數(shù)據(jù))可能不值得付出努力。無(wú)論您將數(shù)據(jù)用于什么用途,這都是適用的。如果檢測(cè)和刪除數(shù)據(jù)集中錯(cuò)誤電話號(hào)碼的成本高于撥打那么多無(wú)用電話或發(fā)送那么多無(wú)法送達(dá)的短信的成本,那么提前修復(fù)號(hào)碼就沒(méi)有投資回報(bào)。

“許多組織花費(fèi)大量時(shí)間來(lái)丟棄或改進(jìn)郵政編碼,但對(duì)于大多數(shù)數(shù)據(jù)科學(xué)而言,郵政編碼中的子部分并不重要,”Kashalikar(卡沙利卡)說(shuō)。“我們正在查看一個(gè)大致的地理區(qū)域,以了解趨勢(shì)可能是什么。這是一個(gè)浪費(fèi)太多好處的典型例子?!?/span>

哥倫比亞大學(xué)衛(wèi)生政策與管理副教授Howard Friedman(霍華德·弗里德曼)【Howard Friedman(霍華德·弗里德曼)是一位杰出的心理學(xué)教授。他在健康和長(zhǎng)壽科學(xué)領(lǐng)域的研究受到了科學(xué)界的廣泛關(guān)注,并在世界各地的大眾媒體上得到了報(bào)道】表示,要了解數(shù)據(jù)清理是否能帶來(lái)價(jià)值,首先要定義成功并了解模型的意義。首先要對(duì)缺失數(shù)據(jù)、范圍檢查、分布和相關(guān)性進(jìn)行基本數(shù)據(jù)分類和標(biāo)準(zhǔn)質(zhì)量檢查。并非所有列都相同,因此您需要優(yōu)先清理對(duì)您的模型和業(yè)務(wù)成果至關(guān)重要的數(shù)據(jù)特征。不要清理數(shù)據(jù),而要自動(dòng)化基本操作,尋找解釋缺失數(shù)據(jù)的模式,并考慮轉(zhuǎn)換特征,因?yàn)榭s放可能會(huì)壓縮值或增加方差。

但在你尋求更先進(jìn)的數(shù)據(jù)質(zhì)量改進(jìn)方法之前,請(qǐng)先評(píng)估增量模型改進(jìn)將是什么。Friedman(弗里德曼)問(wèn)道:“如果我只花了幾個(gè)小時(shí)的努力和幾千美元的投資,就能獲得90%的模型價(jià)值,而不是花費(fèi)25萬(wàn)美元來(lái)獲得完美的數(shù)據(jù),那會(huì)怎樣?”為了模型的小改進(jìn)而多獲得10%可能并不值得。

他說(shuō):“把它想象成一個(gè)商業(yè)問(wèn)題:我把時(shí)間和金錢投資到哪里,以及我期望獲得什么回報(bào)。

調(diào)查現(xiàn)有項(xiàng)目,了解數(shù)據(jù)質(zhì)量問(wèn)題實(shí)際上會(huì)產(chǎn)生什么影響。除了投資清理低質(zhì)量數(shù)據(jù)集之外,您還可以使用其他來(lái)源。這可能是您購(gòu)買的數(shù)據(jù)或您構(gòu)建的黃金數(shù)據(jù)集?!叭绻臄?shù)據(jù)清理預(yù)算有限,那么值得花錢創(chuàng)建一個(gè)由人工策劃的高質(zhì)量輸入和黃金標(biāo)準(zhǔn)輸出的數(shù)據(jù)集,”斯坦福大學(xué)醫(yī)學(xué)院生物醫(yī)學(xué)數(shù)據(jù)Knight-Hennessy【Knight-Hennessy Scholars是斯坦福大學(xué)(Stanford University)的一個(gè)研究生獎(jiǎng)學(xué)金項(xiàng)目。該項(xiàng)目旨在培養(yǎng)下一代全球領(lǐng)袖,以解決世界面臨的日益復(fù)雜的各種挑戰(zhàn)】學(xué)者Akshay Swaminathan(阿克沙伊·斯瓦米納坦)【Akshay Swaminathan(阿克沙伊·斯瓦米納坦)是一位在醫(yī)療保健和數(shù)據(jù)科學(xué)領(lǐng)域有著深厚背景的學(xué)者和研究者。他在哈佛大學(xué)獲得了統(tǒng)計(jì)學(xué)學(xué)士學(xué)位,并輔修全球健康和衛(wèi)生政策,致力于通過(guò)結(jié)合醫(yī)學(xué)、數(shù)據(jù)科學(xué)和創(chuàng)業(yè)精神來(lái)加強(qiáng)資源匱乏地區(qū)的衛(wèi)生系統(tǒng)表示?!霸谏墒紸I世界中,準(zhǔn)確性的概念更加模糊?!?span style="font-family: 黑體, SimHei; outline: 0px; color: rgb(64, 118, 0);">隨著技術(shù)的進(jìn)步,問(wèn)題黃金數(shù)據(jù)集與黃金標(biāo)準(zhǔn)答案相結(jié)合可以幫助您快速對(duì)新模型進(jìn)行基準(zhǔn)測(cè)試。

三、機(jī)會(huì)成本

過(guò)多的數(shù)據(jù)清理不僅浪費(fèi)時(shí)間和金錢,甚至可能會(huì)刪除看似不完整的有用數(shù)據(jù)。

“如果你最初有100萬(wàn)條記錄,而你得到了50萬(wàn)條質(zhì)量最好的記錄,你真正想知道的是,在缺失的50萬(wàn)條記錄中,有多少條質(zhì)量足夠好而你沒(méi)有得到,”Kashalikar(卡沙利卡)說(shuō)。

【睿觀:假設(shè)我們有100萬(wàn)條原始數(shù)據(jù),經(jīng)過(guò)篩選,我們得到了50萬(wàn)條質(zhì)量最好的數(shù)據(jù)。Kashalikar認(rèn)為,我們真正想知道的是:在剩下的50萬(wàn)條數(shù)據(jù)中,有多少條也具備足夠好的質(zhì)量,只是由于我們的篩選標(biāo)準(zhǔn)或方法不夠完善而被我們遺漏了?

  • 潛在損失:?如果有大量的優(yōu)質(zhì)數(shù)據(jù)被誤認(rèn)為是低質(zhì)量數(shù)據(jù)而被丟棄,那么我們就會(huì)損失寶貴的信息,這就好比我們丟掉了一大筆潛在的財(cái)富。

  • 不必要的時(shí)間浪費(fèi):?另一方面,如果我們把大量時(shí)間和精力花在清理那些本來(lái)就不需要清理的低質(zhì)量數(shù)據(jù)上,那么就會(huì)造成資源的浪費(fèi)?!?/span>


同樣重要的是,不要過(guò)度清理數(shù)據(jù),以免失去其獨(dú)特性,這也稱為過(guò)度規(guī)范化。過(guò)度標(biāo)準(zhǔn)化或同質(zhì)化數(shù)據(jù)集可能會(huì)消除有價(jià)值的變化和細(xì)微差別,而這些變化和細(xì)微差別對(duì)于AI模型來(lái)說(shuō)是重要的特征,從而降低其泛化能力。例如,在不考慮區(qū)域差異的情況下規(guī)范化地址拼寫可能會(huì)抹去重要的人口統(tǒng)計(jì)見(jiàn)解。

丟失異常值與過(guò)度標(biāo)準(zhǔn)化問(wèn)題類似,但針對(duì)的是單個(gè)數(shù)據(jù)點(diǎn),而不是整個(gè)數(shù)據(jù)集。積極移除異常值和極端情況可以消除重要的邊緣情況。正如Swaminathan(斯瓦米納坦)所說(shuō),“一個(gè)人的垃圾可能是另一個(gè)人的寶藏。

數(shù)據(jù)集中的一些不可能值很容易且安全地修復(fù),例如價(jià)格不太可能為負(fù)數(shù)或人類年齡不可能超過(guò)200歲,但手動(dòng)數(shù)據(jù)收集或設(shè)計(jì)不良的數(shù)據(jù)庫(kù)可能會(huì)出現(xiàn)錯(cuò)誤?!耙苍S數(shù)據(jù)是在醫(yī)院緊急情況下輸入的,然后人員調(diào)換了身高和體重,”Tabnine的Yahav(亞哈夫)說(shuō)。例如,他處理的一個(gè)產(chǎn)品數(shù)據(jù)庫(kù)沒(méi)有產(chǎn)品序列號(hào)字段,因此工作人員將其放在重量字段中。“突然間,玩具店里的產(chǎn)品重達(dá)五噸,”他補(bǔ)充道。

但一些異常值或看似“臟”的數(shù)據(jù)點(diǎn)可能是真正的信號(hào),而不是錯(cuò)誤,并且可能表明值得探索的有趣領(lǐng)域。“有人因?yàn)橄掠甓诼飞匣宋鍌€(gè)小時(shí)?這對(duì)于交通信息來(lái)說(shuō)是一個(gè)有趣的異常值,”Yahav(亞哈夫)說(shuō)。

如果您正在訓(xùn)練一個(gè)模型來(lái)去除醫(yī)療數(shù)據(jù)的身份信息,那么它需要對(duì)異常值(如唯一名稱、地址的變體格式和身份證號(hào)碼)具有魯棒性,以便正確檢測(cè)它們,這意味著您需要在訓(xùn)練集中包含這些內(nèi)容。尤其是在處理代碼不太可能更新的遺留系統(tǒng)時(shí),您的數(shù)據(jù)管道需要驗(yàn)證和清理已知問(wèn)題。但Yahav(亞哈夫)認(rèn)為,其中一些需要人類判斷來(lái)區(qū)分真正的錯(cuò)誤,而不是用于泛化的有意義的信號(hào)。

四、添加偏見(jiàn)

過(guò)度清理會(huì)刪除未通過(guò)驗(yàn)證的記錄,從而導(dǎo)致數(shù)據(jù)集出現(xiàn)偏差,因?yàn)闀?huì)丟失具有特定特征的記錄。Kashalikar(卡沙利卡)警告說(shuō),刪除沒(méi)有中間名首字母的記錄會(huì)刪除來(lái)自印度次大陸某些地區(qū)的人員。同樣,刪除不常見(jiàn)的姓名或堅(jiān)持要求所有姓名長(zhǎng)度超過(guò)兩個(gè)字母可能會(huì)導(dǎo)致模型出現(xiàn)偏差,從而導(dǎo)致模型在不同人群中表現(xiàn)不佳。

他指出:“創(chuàng)建模型的數(shù)據(jù)科學(xué)家可能不理解沒(méi)有數(shù)據(jù)對(duì)業(yè)務(wù)的影響?!?span style="font-family: 黑體, SimHei; outline: 0px; color: rgb(64, 118, 0);">讓了解您要解決的問(wèn)題背景的人可以參與數(shù)據(jù)清理決策非常重要。

五、刪除上下文

過(guò)于徹底地清理數(shù)據(jù)集,你可能會(huì)刪除對(duì)整體情況至關(guān)重要的上下文信息。一些網(wǎng)絡(luò)釣魚郵件故意包含錯(cuò)誤的拼寫和語(yǔ)法,以吸引不太謹(jǐn)慎和不太了解情況的受害者,而虛假鏈接將包含接近真實(shí)域名的URL。清理這些數(shù)據(jù)——或者清理沮喪客戶消息中的語(yǔ)言——可以刪除有關(guān)如何應(yīng)對(duì)的寶貴線索。而且LLM使用數(shù)據(jù)的方式與更傳統(tǒng)的ML不同;數(shù)據(jù)的語(yǔ)義可能至關(guān)重要。

醫(yī)療轉(zhuǎn)錄模型的干凈數(shù)據(jù)集顯然不應(yīng)包括YouTube視頻中要求用戶“點(diǎn)贊和訂閱”的常用短語(yǔ),因?yàn)橄馩penAI的Whisper(Whisper是由OpenAI開(kāi)發(fā)的一款人工智能語(yǔ)音識(shí)別模型。它是一個(gè)通用的語(yǔ)音識(shí)別系統(tǒng),使用了大量多語(yǔ)言和多任務(wù)的監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練,能夠在英語(yǔ)語(yǔ)音識(shí)別上達(dá)到接近人類水平的魯棒性和準(zhǔn)確性這樣的通用模型在處理亂碼音頻時(shí)經(jīng)常會(huì)產(chǎn)生這些短語(yǔ)的幻覺(jué),使其不適合醫(yī)療轉(zhuǎn)錄。但這些數(shù)據(jù)對(duì)于創(chuàng)建轉(zhuǎn)錄視頻的模型至關(guān)重要。

標(biāo)準(zhǔn)數(shù)據(jù)清理還會(huì)刪除停頓、嘆息、猶豫和說(shuō)話者不愿意說(shuō)完的單詞,但這些線索在預(yù)測(cè)購(gòu)買意愿或意圖時(shí)很有用,Carlsson(卡爾森)指出。“如果有一個(gè)模型可以檢測(cè)客戶的興趣并告訴客戶代表你應(yīng)該停止強(qiáng)行推銷,因?yàn)檫@個(gè)人顯然不感興趣,那將很有用,”他說(shuō)。這就是為什么在清理數(shù)據(jù)之前知道要用數(shù)據(jù)做什么是如此重要。

六、懷念現(xiàn)實(shí)世界的混亂

傳統(tǒng)機(jī)器學(xué)習(xí)在處理雜亂數(shù)據(jù)時(shí)會(huì)變得脆弱,因此人們很容易將其剔除。但是,如果數(shù)據(jù)過(guò)于統(tǒng)一,則會(huì)導(dǎo)致模型在干凈、結(jié)構(gòu)化的數(shù)據(jù)(如訓(xùn)練集)上表現(xiàn)良好,但在處理現(xiàn)實(shí)世界的雜亂數(shù)據(jù)時(shí)卻舉步維艱,導(dǎo)致在生產(chǎn)環(huán)境中表現(xiàn)不佳。

Swaminathan(斯瓦米納坦)解釋說(shuō),大語(yǔ)言模型(LLM)之所以能通過(guò)律師資格考試或醫(yī)學(xué)委員會(huì)考試,是因?yàn)檫@些考試太過(guò)清晰,無(wú)法作為有用的基準(zhǔn)?!八鼮槟闾峁┝艘粋€(gè)患者簡(jiǎn)介,其中包含所有相關(guān)信息,”他說(shuō)?!八嬖V你,患者會(huì)告訴你他們的生命體征、影像和實(shí)驗(yàn)室結(jié)果。在現(xiàn)實(shí)世界中,醫(yī)生需要分別獲取所有這些信息。”同樣,如果你正在為客戶支持創(chuàng)建一個(gè)黃金數(shù)據(jù)集,請(qǐng)避免讓客戶請(qǐng)求過(guò)于清晰和信息豐富。

Friedman(弗里德曼)承認(rèn),這其中存在著明顯的矛盾?!澳阌?xùn)練的數(shù)據(jù)集越臟,模型就越難學(xué)習(xí)并取得成功,”他說(shuō)?!暗c此同時(shí),為了在現(xiàn)實(shí)世界中充分發(fā)揮作用,它需要能夠在那些更臟的環(huán)境中運(yùn)行?!?/span>

LLM尤其需要能夠?qū)﹀e(cuò)誤輸入做出反應(yīng)。刪除口語(yǔ)、拼寫錯(cuò)誤或區(qū)域語(yǔ)言差異可能會(huì)妨礙模型處理現(xiàn)實(shí)世界語(yǔ)言使用的能力。“了解如何應(yīng)對(duì)臟數(shù)據(jù)以及理想的干凈數(shù)據(jù)——從干凈數(shù)據(jù)開(kāi)始很好,但最終它必須是穩(wěn)健的,”Friedman(弗里德曼)補(bǔ)充道。

七、缺失的趨勢(shì)

以同樣的方式清理新舊數(shù)據(jù)可能會(huì)導(dǎo)致其他問(wèn)題。新傳感器可能會(huì)更精確、更準(zhǔn)確,客戶支持請(qǐng)求將涉及您產(chǎn)品的較新版本,或者您將從新潛在客戶的在線足跡中獲取更多有關(guān)他們的元數(shù)據(jù)。無(wú)論數(shù)據(jù)來(lái)源是什么,都可能有新的信息需要捕獲,或者數(shù)據(jù)中的特征可能會(huì)隨著時(shí)間的推移而發(fā)生變化。例如,在印度,離婚直到最近才得到官方承認(rèn)。您不能將其添加到舊記錄中,但為了保持一致性,您不應(yīng)該將其從新記錄中刪除。因此,請(qǐng)注意數(shù)據(jù)清理不會(huì)掩蓋新舊數(shù)據(jù)之間的差異,從而導(dǎo)致模型無(wú)法考慮不斷變化的趨勢(shì)。

“即使對(duì)于相同的用例,基礎(chǔ)數(shù)據(jù)也會(huì)隨著時(shí)間的推移而發(fā)生變化,”Swaminathan(斯瓦米納坦)警告說(shuō)?!袄?,我們?cè)?024年10月為回答客戶問(wèn)題而制定的黃金基準(zhǔn),可能會(huì)在三個(gè)月后因自然災(zāi)害而過(guò)時(shí),并且突然出現(xiàn)衛(wèi)生紙短缺的情況。即使是在同一家公司為同一客戶執(zhí)行同一任務(wù),基準(zhǔn)也會(huì)隨著時(shí)間的推移而過(guò)時(shí)?!?/span>

隨著趨勢(shì)的變化,數(shù)據(jù)中的信號(hào)也可能會(huì)丟失。當(dāng)客戶的聯(lián)系電話從固定電話轉(zhuǎn)移到手機(jī)時(shí),組織就失去了從號(hào)碼中提取客戶位置的能力?!叭绻闶褂脜^(qū)號(hào)來(lái)驗(yàn)證位置,你會(huì)丟失很多記錄,”Kashalikar(卡沙利卡)補(bǔ)充道。你合作的兩家公司也可能會(huì)合并,因此決定是將它們視為同一實(shí)體還是將它們單獨(dú)保留在你的公司黃金主記錄中取決于用例。

即使沒(méi)有重大變化,基礎(chǔ)數(shù)據(jù)本身也可能已經(jīng)發(fā)生變化?!案信d趣的結(jié)果變量與特征之間的關(guān)系可能已經(jīng)改變,”Friedman(弗里德曼)說(shuō)?!澳悴荒芎?jiǎn)單地鎖定并說(shuō),‘這個(gè)數(shù)據(jù)集絕對(duì)完美’,然后把它從架子上拿下來(lái)用于一年后的問(wèn)題?!?/span>

為了避免所有這些問(wèn)題,您需要讓具有專業(yè)知識(shí)的人員參與進(jìn)來(lái),以區(qū)分真正的錯(cuò)誤和有意義的信號(hào),記錄您對(duì)數(shù)據(jù)清理做出的決策及其原因,并定期審查數(shù)據(jù)清理對(duì)模型性能和業(yè)務(wù)結(jié)果的影響。

不要先進(jìn)行大量數(shù)據(jù)清理然后才開(kāi)始開(kāi)發(fā),而是采用增量數(shù)據(jù)清理和快速實(shí)驗(yàn)的迭代方法。

“我們認(rèn)為成功的方法就是逐步導(dǎo)入數(shù)據(jù),”Yahav(亞哈夫)說(shuō)道?!叭藗兒芟胝f(shuō)讓我們把所有東西都連接起來(lái),相信它能正常工作。但當(dāng)它來(lái)襲時(shí),你不知道哪里出了問(wèn)題,然后你就必須開(kāi)始斷開(kāi)連接?!?/span>

因此,從少量近期數(shù)據(jù)或您信任的數(shù)據(jù)開(kāi)始,看看它是如何工作的,然后從那里構(gòu)建更多來(lái)源或數(shù)據(jù)量,看看它在哪里出現(xiàn)問(wèn)題?!八罱K會(huì)出問(wèn)題,因?yàn)槟阃浀臇|西會(huì)進(jìn)入主管道,有些事情會(huì)讓你大吃一驚,”他說(shuō)?!?span style="font-family: 黑體, SimHei; outline: 0px; color: rgb(172, 1, 249);">你希望這個(gè)過(guò)程足夠漸進(jìn),這樣你才能了解是什么原因造成的。

作者:Mary Branscombe(瑪麗·布蘭斯科姆)

譯者:穿山甲

【睿觀:人工智能時(shí)代的數(shù)據(jù)質(zhì)量并非一蹴而就,而是需要根據(jù)具體應(yīng)用場(chǎng)景和模型需求進(jìn)行靈活、迭代的處理。過(guò)度追求數(shù)據(jù)純凈可能導(dǎo)致信息的丟失和模型泛化能力的下降。

核心支撐論點(diǎn):

  • 數(shù)據(jù)質(zhì)量與應(yīng)用場(chǎng)景密切相關(guān):?沒(méi)有絕對(duì)的“干凈數(shù)據(jù)”,數(shù)據(jù)質(zhì)量的衡量標(biāo)準(zhǔn)取決于具體的應(yīng)用場(chǎng)景和模型需求。

  • 數(shù)據(jù)清理的收益遞減:?過(guò)度的數(shù)據(jù)清理可能導(dǎo)致邊際收益遞減,甚至刪除有價(jià)值的信息。

  • 數(shù)據(jù)清理的時(shí)機(jī):?在開(kāi)始大規(guī)模數(shù)據(jù)清理之前,應(yīng)先明確數(shù)據(jù)的使用目的和模型需求。

  • 數(shù)據(jù)質(zhì)量與模型性能的關(guān)系:?數(shù)據(jù)質(zhì)量過(guò)高或過(guò)低都可能影響模型的泛化能力。

  • 數(shù)據(jù)質(zhì)量的動(dòng)態(tài)性:?數(shù)據(jù)質(zhì)量會(huì)隨著時(shí)間的推移而變化,需要持續(xù)關(guān)注和調(diào)整。

具體論證:

  • 數(shù)據(jù)清理的誤區(qū):

    • 過(guò)度清理:?刪除異常值、重復(fù)數(shù)據(jù)等可能導(dǎo)致信息丟失。

    • 過(guò)度標(biāo)準(zhǔn)化:?抹平數(shù)據(jù)差異,降低模型泛化能力。

    • 忽視上下文:?刪除上下文信息,影響模型對(duì)復(fù)雜場(chǎng)景的理解。

    • 忽略數(shù)據(jù)動(dòng)態(tài)性:?未能適應(yīng)數(shù)據(jù)隨時(shí)間變化的趨勢(shì)。

  • 數(shù)據(jù)清理的最佳實(shí)踐:

    • 根據(jù)應(yīng)用場(chǎng)景定制:?針對(duì)不同的應(yīng)用場(chǎng)景,采用不同的數(shù)據(jù)清理策略。

    • 迭代式清理:?逐步引入數(shù)據(jù),不斷調(diào)整清理策略。

    • 關(guān)注數(shù)據(jù)質(zhì)量對(duì)模型性能的影響:?通過(guò)實(shí)驗(yàn)評(píng)估數(shù)據(jù)清理的效果。

    • 保留部分“臟數(shù)據(jù)”:?這些數(shù)據(jù)可能包含有價(jià)值的信息。

    • 重視數(shù)據(jù)質(zhì)量的動(dòng)態(tài)性:?定期評(píng)估和更新數(shù)據(jù)清理策略。

結(jié)論:

人工智能時(shí)代的數(shù)據(jù)質(zhì)量管理是一項(xiàng)復(fù)雜而富有挑戰(zhàn)性的任務(wù)。企業(yè)需要根據(jù)自身的業(yè)務(wù)需求和模型特點(diǎn),制定靈活、可持續(xù)的數(shù)據(jù)質(zhì)量管理策略。通過(guò)平衡數(shù)據(jù)質(zhì)量與模型性能,企業(yè)可以更好地利用人工智能技術(shù),推動(dòng)業(yè)務(wù)創(chuàng)新和發(fā)展。

建議:

  • 建立數(shù)據(jù)治理委員會(huì):?負(fù)責(zé)制定數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和策略。

  • 投資數(shù)據(jù)質(zhì)量工具:?提升數(shù)據(jù)清洗和驗(yàn)證效率。

  • 培養(yǎng)數(shù)據(jù)質(zhì)量文化:?提高員工對(duì)數(shù)據(jù)質(zhì)量重要性的認(rèn)識(shí)。

  • 持續(xù)學(xué)習(xí)和探索:?跟隨技術(shù)發(fā)展趨勢(shì),不斷優(yōu)化數(shù)據(jù)質(zhì)量管理實(shí)踐。

關(guān)鍵詞:?人工智能,數(shù)據(jù)質(zhì)量,數(shù)據(jù)清理,模型性能,業(yè)務(wù)創(chuàng)新

目標(biāo)受眾:?數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師、業(yè)務(wù)分析師、企業(yè)管理者

應(yīng)用場(chǎng)景:

  • 培訓(xùn)課程:?可作為人工智能相關(guān)培訓(xùn)課程的教學(xué)內(nèi)容。

  • 企業(yè)內(nèi)部培訓(xùn):?可用于提高企業(yè)員工對(duì)數(shù)據(jù)質(zhì)量的認(rèn)識(shí)。

  • 學(xué)術(shù)研究:?可作為人工智能領(lǐng)域研究的參考?!?/span>

威信县| 梅河口市| 都兰县| 如皋市| 红河县| 鄂尔多斯市| 公主岭市| 邯郸市| 梁山县| 济南市| 龙门县| 神木县| 西畴县| 拉萨市| 永福县| 玛纳斯县| 敖汉旗| 锦屏县| 洪江市| 邵阳市| 屯门区| 海口市| 库车县| 荆州市| 宝鸡市| 凤冈县| 寻甸| 和顺县| 巴塘县| 娄烦县| 瓦房店市| 岳西县| 乌鲁木齐县| 修水县| 洞口县| 缙云县| 包头市| 财经| 桃源县| 延寿县| 普定县|