亚洲精品蜜桃一区二区,国语精品对白

別讓完美數(shù)據(jù)毀了CIO的AI模型——人工智能時(shí)代的數(shù)據(jù)質(zhì)量挑戰(zhàn)與應(yīng)對(duì)

作者：CIO&睿觀來(lái)源：CIOCDO 發(fā)布時(shí)間：2024年11月29日點(diǎn)擊數(shù)：

人工智能時(shí)代的數(shù)據(jù)質(zhì)量并非一蹴而就，而是需要根據(jù)具體應(yīng)用場(chǎng)景和模型需求進(jìn)行靈活、迭代的處理。過(guò)度追求數(shù)據(jù)純凈可能導(dǎo)致信息的丟失和模型泛化能力的下降。

數(shù)據(jù)質(zhì)量對(duì)于AI項(xiàng)目的成功至關(guān)重要，但您需要保留原始數(shù)據(jù)的豐富性、多樣性和完整性，以免破壞結(jié)果。

數(shù)據(jù)管理曾經(jīng)是數(shù)據(jù)倉(cāng)庫(kù)團(tuán)隊(duì)的職責(zé)，如今已日益成為高管層的優(yōu)先事項(xiàng)，數(shù)據(jù)質(zhì)量被視為客戶體驗(yàn)和業(yè)務(wù)績(jī)效的關(guān)鍵。但除了數(shù)據(jù)孤島和合規(guī)性問(wèn)題外，數(shù)據(jù)質(zhì)量差也阻礙了企業(yè)AI項(xiàng)目的發(fā)展。雖然大多數(shù)高管普遍信任他們的數(shù)據(jù)，但他們也表示，只有不到三分之二的數(shù)據(jù)是可用的。

人工智能編碼助手Tabnine（Tabnine是一款人工智能代碼補(bǔ)全和生成工具。它利用深度學(xué)習(xí)算法來(lái)分析代碼，并提供完成代碼片段的智能建議。核心功能包括AI代碼補(bǔ)全、多語(yǔ)言支持、IDE集成、AI驅(qū)動(dòng)的聊天功能、代碼解釋和文檔生成、測(cè)試用例生成以及代碼重構(gòu)建議）的聯(lián)合創(chuàng)始人兼首席技術(shù)官Eran Yahav（埃蘭·亞哈夫）【Eran Yahav（埃蘭·亞哈夫）是一位在計(jì)算機(jī)科學(xué)領(lǐng)域有著顯著貢獻(xiàn)的科學(xué)家和企業(yè)家，他與Dror Weiss共同創(chuàng)立了Tabnine，還在學(xué)術(shù)界有著豐富的研究經(jīng)歷，他的研究領(lǐng)域包括程序語(yǔ)言、軟件工程和人工智能】表示，對(duì)于許多組織來(lái)說(shuō)，為人工智能準(zhǔn)備數(shù)據(jù)是他們第一次以跨領(lǐng)域的視角看待數(shù)據(jù)，從而顯示出系統(tǒng)之間的差異。

解決這個(gè)問(wèn)題可能意味著要從基本的數(shù)據(jù)清潔開(kāi)始，比如確保數(shù)據(jù)庫(kù)中有正確的字段來(lái)滿足不同團(tuán)隊(duì)的需求，或者精簡(jiǎn)你用人工智能處理的數(shù)據(jù)以反映你想要的結(jié)果?！拔覀冋噲D讓人工智能擁有與企業(yè)中最好的員工相同的知識(shí)，”他說(shuō)?！斑@需要整理和清理以保證數(shù)據(jù)清潔和一致性，也需要一個(gè)反饋循環(huán)?！?/span>

使用自己的代碼庫(kù)來(lái)教授AI編碼助手最佳實(shí)踐的組織，需要?jiǎng)h除他們不想重復(fù)的模式的遺留代碼，而且大型數(shù)據(jù)集并不總是比小型數(shù)據(jù)集更好。“一位客戶通過(guò)復(fù)制現(xiàn)有項(xiàng)目并對(duì)其進(jìn)行修改來(lái)創(chuàng)建新項(xiàng)目，”Yahav（亞哈夫）說(shuō)。“他們有一百份相同內(nèi)容的副本，只有細(xì)微的差別，而且無(wú)法區(qū)分它是否重要，因?yàn)樗蜎](méi)在重復(fù)中?！?/span>

良好的數(shù)據(jù)治理始終涉及處理數(shù)據(jù)集中的錯(cuò)誤和不一致，以及通過(guò)刪除重復(fù)項(xiàng)、糾正拼寫錯(cuò)誤、標(biāo)準(zhǔn)化和驗(yàn)證數(shù)據(jù)格式和類型以及擴(kuò)充不完整信息或檢測(cè)數(shù)據(jù)中不尋常和不可能的變化來(lái)索引和分類結(jié)構(gòu)化數(shù)據(jù)。這仍然很重要，但并不總是與人工智能處理的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)相關(guān)，因?yàn)檫@些數(shù)據(jù)也會(huì)有更多的變化。人工智能的數(shù)據(jù)質(zhì)量需要涵蓋偏見(jiàn)檢測(cè)、侵權(quán)預(yù)防、模型特征數(shù)據(jù)中的偏差檢測(cè)和噪聲檢測(cè)。

【睿觀：人工智能的數(shù)據(jù)質(zhì)量綜合評(píng)價(jià)指標(biāo)表 100分@福建CIO網(wǎng)】

序號(hào)

一級(jí)指標(biāo)

二級(jí)指標(biāo)

三級(jí)指標(biāo)

定義

計(jì)算方式

權(quán)重

數(shù)據(jù)來(lái)源


1	偏見(jiàn)檢測(cè)	人群偏見(jiàn)	性別偏見(jiàn)	模型對(duì)不同性別的個(gè)體輸出結(jié)果的差異程度	計(jì)算不同性別群體在模型輸出結(jié)果上的差異性指標(biāo)（如差異性比例、置信區(qū)間等）	15%	模型預(yù)測(cè)結(jié)果、用戶數(shù)據(jù)
			年齡偏見(jiàn)	模型對(duì)不同年齡段的個(gè)體輸出結(jié)果的差異程度	計(jì)算不同年齡段群體在模型輸出結(jié)果上的差異性指標(biāo)	15%	模型預(yù)測(cè)結(jié)果、用戶數(shù)據(jù)
			其他群體偏見(jiàn)	模型對(duì)其他受保護(hù)群體（如種族、宗教）的個(gè)體輸出結(jié)果的差異程度	計(jì)算不同受保護(hù)群體在模型輸出結(jié)果上的差異性指標(biāo)	10%	模型預(yù)測(cè)結(jié)果、用戶數(shù)據(jù)
2	侵權(quán)預(yù)防	版權(quán)侵權(quán)	內(nèi)容相似度	模型生成內(nèi)容與現(xiàn)有版權(quán)內(nèi)容的相似度	使用相似度算法計(jì)算（如BLEU、ROUGE等）	10%	模型生成內(nèi)容、版權(quán)數(shù)據(jù)庫(kù)
			來(lái)源標(biāo)識(shí)	模型生成內(nèi)容是否明確標(biāo)注來(lái)源	對(duì)生成內(nèi)容進(jìn)行人工或自動(dòng)審核	5%	模型生成內(nèi)容
3	模型特征數(shù)據(jù)偏差	代表性不足	少數(shù)群體代表性	模型訓(xùn)練數(shù)據(jù)中少數(shù)群體的樣本比例	計(jì)算少數(shù)群體樣本在訓(xùn)練數(shù)據(jù)中的比例	10%	訓(xùn)練數(shù)據(jù)
			標(biāo)簽偏差	標(biāo)簽數(shù)據(jù)是否準(zhǔn)確、一致	對(duì)標(biāo)簽數(shù)據(jù)進(jìn)行人工審核或使用一致性檢查算法	5%	標(biāo)簽數(shù)據(jù)
4	噪聲檢測(cè)	數(shù)據(jù)噪聲	異常值檢測(cè)	數(shù)據(jù)中是否存在明顯偏離正常范圍的值	使用統(tǒng)計(jì)方法或異常檢測(cè)算法	5%	模型訓(xùn)練數(shù)據(jù)、模型預(yù)測(cè)結(jié)果
			數(shù)據(jù)缺失	數(shù)據(jù)是否完整	計(jì)算缺失值的比例	5%	模型訓(xùn)練數(shù)據(jù)

常見(jiàn)的數(shù)據(jù)管理做法對(duì)于人工智能來(lái)說(shuō)太慢、太結(jié)構(gòu)化、太死板，因?yàn)閿?shù)據(jù)清理需要針對(duì)具體情況并根據(jù)特定用例進(jìn)行量身定制。對(duì)于人工智能來(lái)說(shuō)，沒(méi)有通用的標(biāo)準(zhǔn)來(lái)衡量數(shù)據(jù)何時(shí)“足夠干凈”。

即使對(duì)于更傳統(tǒng)的機(jī)器學(xué)習(xí)，為商業(yè)智能和金融帶來(lái)紅利的大規(guī)模數(shù)據(jù)清理工作也很少能滿足數(shù)據(jù)科學(xué)團(tuán)隊(duì)的需求，因?yàn)樗麄兛赡芤呀?jīng)在為AI進(jìn)行自己的數(shù)據(jù)工程——并且在此過(guò)程中創(chuàng)建了更多不受管控的數(shù)據(jù)孤島，Domino數(shù)據(jù)實(shí)驗(yàn)室【Domino數(shù)據(jù)實(shí)驗(yàn)室（Domino Data Lab）是一個(gè)企業(yè)級(jí)人工智能平臺(tái)，它提供了一系列工具和服務(wù)，幫助企業(yè)構(gòu)建、部署和管理AI模型。該平臺(tái)支持?jǐn)?shù)據(jù)科學(xué)家在一個(gè)統(tǒng)一的端到端平臺(tái)上快速、負(fù)責(zé)任且經(jīng)濟(jì)高效地構(gòu)建、部署和管理AI，同時(shí)增強(qiáng)協(xié)作和監(jiān)管】的AI戰(zhàn)略主管Kjell Carlsson（謝爾·卡爾森）【Kjell Carlsson（謝爾·卡爾森）是一位在數(shù)據(jù)分析、人工智能和機(jī)器學(xué)習(xí)領(lǐng)域有著深厚背景的專業(yè)人士，他擁有豐富的經(jīng)驗(yàn)，曾在多個(gè)領(lǐng)域內(nèi)推動(dòng)數(shù)據(jù)的戰(zhàn)略洞察。他的研究議程集中在策略、最佳實(shí)踐、技能和供應(yīng)商上，以加速公司采納和從機(jī)器學(xué)習(xí)和高級(jí)分析中獲得價(jià)值】說(shuō)。

數(shù)據(jù)清理不夠會(huì)導(dǎo)致明顯的問(wèn)題，但背景才是關(guān)鍵。谷歌的錯(cuò)誤示例是建議使用膠水制作披薩食譜，因?yàn)檫@就是美食攝影師讓融化的馬蘇里拉奶酪看起來(lái)誘人的方式，而這應(yīng)該從普通的大模型（LLM）中剔除。但這正是你在訓(xùn)練人工智能提供攝影技巧時(shí)想要包含的數(shù)據(jù)類型。相反，如果在訓(xùn)練集中保留了明顯諷刺性網(wǎng)站的內(nèi)容來(lái)源，谷歌搜索中發(fā)現(xiàn)的其他一些不恰當(dāng)?shù)慕ㄗh可能會(huì)被避免。

“數(shù)據(jù)質(zhì)量極其重要，但它會(huì)導(dǎo)致過(guò)于循序漸進(jìn)的思維，從而讓你誤入歧途，”Carlsson（卡爾森）說(shuō)。“在最好的情況下，它最終會(huì)浪費(fèi)大量的時(shí)間和精力。在最壞的情況下，它可能會(huì)從你的數(shù)據(jù)中刪除信號(hào)，實(shí)際上與你所需要的完全相反?！?/span>

一、相對(duì)而言

不同的領(lǐng)域和應(yīng)用需要不同級(jí)別的數(shù)據(jù)治理。您不能將數(shù)據(jù)治理視為一種通用的方法來(lái)獲取適合所有用途的數(shù)據(jù)，而傳統(tǒng)的“單一事實(shí)版本”一直是商業(yè)智能的目標(biāo)，實(shí)際上是一個(gè)有偏見(jiàn)的數(shù)據(jù)集。“沒(méi)有所謂的‘干凈的數(shù)據(jù)’，”Carlsson（卡爾森）說(shuō)?！八偸桥c您使用它的目的有關(guān)。在所有這些不同的用例中，清理的樣子都非常不同?！?/span>

以員工記錄的數(shù)據(jù)質(zhì)量為例，您可能將其用于薪資處理和包含公司新聞的內(nèi)部郵寄活動(dòng)?！皯?yīng)該以不同的方式看待這些內(nèi)容，并對(duì)其質(zhì)量做出不同的判斷，”日立有限公司全資子公司Pentaho（Pentaho是Hitachi Vantara的一個(gè)部門，專注于提供企業(yè)級(jí)的數(shù)據(jù)集成和業(yè)務(wù)分析平臺(tái)）的產(chǎn)品管理高級(jí)總監(jiān)Kunju Kashalikar（昆居·卡沙利卡）【Kunju Kashalikar（昆居·卡沙利卡）是Pentaho的高級(jí)產(chǎn)品管理總監(jiān)，他在數(shù)據(jù)平臺(tái)、數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量領(lǐng)域擁有多年的工作經(jīng)驗(yàn)，在工程和產(chǎn)品管理的不同角色中積累了豐富的經(jīng)驗(yàn)，并在該領(lǐng)域持有多項(xiàng)專利】表示。

Carlsson（卡爾森）補(bǔ)充道，人工智能需要更靈活、更具協(xié)作性、更具迭代性、更適合數(shù)據(jù)使用方式的數(shù)據(jù)清理。“很棒的一點(diǎn)是，我們現(xiàn)在以許多以前沒(méi)有過(guò)的方式使用數(shù)據(jù)，”他說(shuō)?！暗F(xiàn)在的挑戰(zhàn)是，你需要考慮使用數(shù)據(jù)的每一種不同方式的清潔度?！?span style="font-family: 黑體, SimHei; outline: 0px; color: rgb(64, 118, 0);">有時(shí)這意味著在清理方面做更多的工作，有時(shí)則意味著做更少的工作。

Carlsson（卡爾森）警告稱，如果一家企業(yè)在開(kāi)始理解和構(gòu)建AI用例之前就嘗試為AI準(zhǔn)備好數(shù)據(jù)，那么它可能會(huì)損害自身利益。因此，在開(kāi)始為企業(yè)AI進(jìn)行大規(guī)模數(shù)據(jù)清理之前，請(qǐng)考慮將數(shù)據(jù)清理得太干凈的弊端。

二、收益遞減

軟件開(kāi)發(fā)商Cohesity（Cohesity是一家由軟銀集團(tuán)支持的企業(yè)數(shù)據(jù)存儲(chǔ)公司，專注于提供超融合二級(jí)存儲(chǔ)解決方案。該公司的解決方案旨在統(tǒng)一和管理系統(tǒng)備份和分析等二級(jí)數(shù)據(jù)，這些系統(tǒng)跨公有云和私有云連接到一個(gè)統(tǒng)一的視圖中，消除了IT孤島）的歐洲、中東和非洲地區(qū)首席技術(shù)官M(fèi)ark Molyneux（馬克·莫利紐克斯）【Mark Molyneux（馬克·莫利紐克斯）是Cohesity公司歐洲、中東和非洲地區(qū)的首席技術(shù)官。他的職責(zé)包括向客戶、潛在客戶和合作伙伴提供建議，幫助他們管理、保護(hù)、安全地處理數(shù)據(jù)，并從數(shù)據(jù)中獲取價(jià)值】表示，首席信息官會(huì)問(wèn)如何清理數(shù)據(jù)，但他們應(yīng)該問(wèn)清理到什么程度?！袄碚撋?，你可以永遠(yuǎn)清理數(shù)據(jù)，這取決于數(shù)據(jù)的大小，”他說(shuō)。

例如Syniti EMEA（Syniti EMEA是指企業(yè)數(shù)據(jù)管理軟件和服務(wù)提供商Syniti在歐洲、中東和非洲地區(qū)的業(yè)務(wù)和領(lǐng)導(dǎo)團(tuán)隊(duì)）董事總經(jīng)理Chris Gorton（克里斯·戈頓）【Chris Gorton（克里斯·戈頓）是Syniti公司的高級(jí)副總裁兼歐洲、中東和非洲地區(qū)的董事總經(jīng)理。他在技術(shù)和數(shù)據(jù)行業(yè)擁有超過(guò)23年的經(jīng)驗(yàn)，包括管理?yè)p益表（P&L）和實(shí)現(xiàn)收入增長(zhǎng)和盈利能力】，他在職業(yè)生涯早期花了大量時(shí)間為一家自動(dòng)售貨機(jī)公司清理客戶地址，結(jié)果卻發(fā)現(xiàn)他們真正需要的是用于發(fā)送發(fā)票的電子郵件地址，或者是用于維修的設(shè)備的具體位置。

他警告說(shuō)，許多組織都在囤積沒(méi)有運(yùn)營(yíng)價(jià)值的大型數(shù)據(jù)集，在開(kāi)始進(jìn)行大型且昂貴的數(shù)據(jù)清理計(jì)劃之前，確定更清潔的數(shù)據(jù)將帶來(lái)什么價(jià)值非常重要。“如果你不能描述你需要的數(shù)據(jù)活動(dòng)或結(jié)果如何與業(yè)務(wù)中的某些價(jià)值相關(guān)聯(lián)，那么它可能就不需要做，”Gorton（戈頓）說(shuō)。

80/20規(guī)則經(jīng)常適用，邊際收益（尤其是清理舊數(shù)據(jù)）可能不值得付出努力。無(wú)論您將數(shù)據(jù)用于什么用途，這都是適用的。如果檢測(cè)和刪除數(shù)據(jù)集中錯(cuò)誤電話號(hào)碼的成本高于撥打那么多無(wú)用電話或發(fā)送那么多無(wú)法送達(dá)的短信的成本，那么提前修復(fù)號(hào)碼就沒(méi)有投資回報(bào)。

“許多組織花費(fèi)大量時(shí)間來(lái)丟棄或改進(jìn)郵政編碼，但對(duì)于大多數(shù)數(shù)據(jù)科學(xué)而言，郵政編碼中的子部分并不重要，”Kashalikar（卡沙利卡）說(shuō)。“我們正在查看一個(gè)大致的地理區(qū)域，以了解趨勢(shì)可能是什么。這是一個(gè)浪費(fèi)太多好處的典型例子?！?/span>

哥倫比亞大學(xué)衛(wèi)生政策與管理副教授Howard Friedman（霍華德·弗里德曼）【Howard Friedman（霍華德·弗里德曼）是一位杰出的心理學(xué)教授。他在健康和長(zhǎng)壽科學(xué)領(lǐng)域的研究受到了科學(xué)界的廣泛關(guān)注，并在世界各地的大眾媒體上得到了報(bào)道】表示，要了解數(shù)據(jù)清理是否能帶來(lái)價(jià)值，首先要定義成功并了解模型的意義。首先要對(duì)缺失數(shù)據(jù)、范圍檢查、分布和相關(guān)性進(jìn)行基本數(shù)據(jù)分類和標(biāo)準(zhǔn)質(zhì)量檢查。并非所有列都相同，因此您需要優(yōu)先清理對(duì)您的模型和業(yè)務(wù)成果至關(guān)重要的數(shù)據(jù)特征。不要清理數(shù)據(jù)，而要自動(dòng)化基本操作，尋找解釋缺失數(shù)據(jù)的模式，并考慮轉(zhuǎn)換特征，因?yàn)榭s放可能會(huì)壓縮值或增加方差。

但在你尋求更先進(jìn)的數(shù)據(jù)質(zhì)量改進(jìn)方法之前，請(qǐng)先評(píng)估增量模型改進(jìn)將是什么。Friedman（弗里德曼）問(wèn)道：“如果我只花了幾個(gè)小時(shí)的努力和幾千美元的投資，就能獲得90%的模型價(jià)值，而不是花費(fèi)25萬(wàn)美元來(lái)獲得完美的數(shù)據(jù)，那會(huì)怎樣？”為了模型的小改進(jìn)而多獲得10%可能并不值得。

他說(shuō)：“把它想象成一個(gè)商業(yè)問(wèn)題：我把時(shí)間和金錢投資到哪里，以及我期望獲得什么回報(bào)。”

調(diào)查現(xiàn)有項(xiàng)目，了解數(shù)據(jù)質(zhì)量問(wèn)題實(shí)際上會(huì)產(chǎn)生什么影響。除了投資清理低質(zhì)量數(shù)據(jù)集之外，您還可以使用其他來(lái)源。這可能是您購(gòu)買的數(shù)據(jù)或您構(gòu)建的黃金數(shù)據(jù)集?！叭绻臄?shù)據(jù)清理預(yù)算有限，那么值得花錢創(chuàng)建一個(gè)由人工策劃的高質(zhì)量輸入和黃金標(biāo)準(zhǔn)輸出的數(shù)據(jù)集，”斯坦福大學(xué)醫(yī)學(xué)院生物醫(yī)學(xué)數(shù)據(jù)Knight-Hennessy【Knight-Hennessy Scholars是斯坦福大學(xué)（Stanford University）的一個(gè)研究生獎(jiǎng)學(xué)金項(xiàng)目。該項(xiàng)目旨在培養(yǎng)下一代全球領(lǐng)袖，以解決世界面臨的日益復(fù)雜的各種挑戰(zhàn)】學(xué)者Akshay Swaminathan（阿克沙伊·斯瓦米納坦）【Akshay Swaminathan（阿克沙伊·斯瓦米納坦）是一位在醫(yī)療保健和數(shù)據(jù)科學(xué)領(lǐng)域有著深厚背景的學(xué)者和研究者。他在哈佛大學(xué)獲得了統(tǒng)計(jì)學(xué)學(xué)士學(xué)位，并輔修全球健康和衛(wèi)生政策，致力于通過(guò)結(jié)合醫(yī)學(xué)、數(shù)據(jù)科學(xué)和創(chuàng)業(yè)精神來(lái)加強(qiáng)資源匱乏地區(qū)的衛(wèi)生系統(tǒng)】表示?！霸谏墒紸I世界中，準(zhǔn)確性的概念更加模糊?！?span style="font-family: 黑體, SimHei; outline: 0px; color: rgb(64, 118, 0);">隨著技術(shù)的進(jìn)步，問(wèn)題黃金數(shù)據(jù)集與黃金標(biāo)準(zhǔn)答案相結(jié)合可以幫助您快速對(duì)新模型進(jìn)行基準(zhǔn)測(cè)試。

三、機(jī)會(huì)成本

過(guò)多的數(shù)據(jù)清理不僅浪費(fèi)時(shí)間和金錢，甚至可能會(huì)刪除看似不完整的有用數(shù)據(jù)。

“如果你最初有100萬(wàn)條記錄，而你得到了50萬(wàn)條質(zhì)量最好的記錄，你真正想知道的是，在缺失的50萬(wàn)條記錄中，有多少條質(zhì)量足夠好而你沒(méi)有得到，”Kashalikar（卡沙利卡）說(shuō)。

【睿觀：假設(shè)我們有100萬(wàn)條原始數(shù)據(jù)，經(jīng)過(guò)篩選，我們得到了50萬(wàn)條質(zhì)量最好的數(shù)據(jù)。Kashalikar認(rèn)為，我們真正想知道的是：在剩下的50萬(wàn)條數(shù)據(jù)中，有多少條也具備足夠好的質(zhì)量，只是由于我們的篩選標(biāo)準(zhǔn)或方法不夠完善而被我們遺漏了？

潛在損失：?如果有大量的優(yōu)質(zhì)數(shù)據(jù)被誤認(rèn)為是低質(zhì)量數(shù)據(jù)而被丟棄，那么我們就會(huì)損失寶貴的信息，這就好比我們丟掉了一大筆潛在的財(cái)富。
不必要的時(shí)間浪費(fèi)：?另一方面，如果我們把大量時(shí)間和精力花在清理那些本來(lái)就不需要清理的低質(zhì)量數(shù)據(jù)上，那么就會(huì)造成資源的浪費(fèi)?！?/span>

同樣重要的是，不要過(guò)度清理數(shù)據(jù)，以免失去其獨(dú)特性，這也稱為過(guò)度規(guī)范化。過(guò)度標(biāo)準(zhǔn)化或同質(zhì)化數(shù)據(jù)集可能會(huì)消除有價(jià)值的變化和細(xì)微差別，而這些變化和細(xì)微差別對(duì)于AI模型來(lái)說(shuō)是重要的特征，從而降低其泛化能力。例如，在不考慮區(qū)域差異的情況下規(guī)范化地址拼寫可能會(huì)抹去重要的人口統(tǒng)計(jì)見(jiàn)解。

丟失異常值與過(guò)度標(biāo)準(zhǔn)化問(wèn)題類似，但針對(duì)的是單個(gè)數(shù)據(jù)點(diǎn)，而不是整個(gè)數(shù)據(jù)集。積極移除異常值和極端情況可以消除重要的邊緣情況。正如Swaminathan（斯瓦米納坦）所說(shuō)，“一個(gè)人的垃圾可能是另一個(gè)人的寶藏。”

數(shù)據(jù)集中的一些不可能值很容易且安全地修復(fù)，例如價(jià)格不太可能為負(fù)數(shù)或人類年齡不可能超過(guò)200歲，但手動(dòng)數(shù)據(jù)收集或設(shè)計(jì)不良的數(shù)據(jù)庫(kù)可能會(huì)出現(xiàn)錯(cuò)誤?！耙苍S數(shù)據(jù)是在醫(yī)院緊急情況下輸入的，然后人員調(diào)換了身高和體重，”Tabnine的Yahav（亞哈夫）說(shuō)。例如，他處理的一個(gè)產(chǎn)品數(shù)據(jù)庫(kù)沒(méi)有產(chǎn)品序列號(hào)字段，因此工作人員將其放在重量字段中。“突然間，玩具店里的產(chǎn)品重達(dá)五噸，”他補(bǔ)充道。

但一些異常值或看似“臟”的數(shù)據(jù)點(diǎn)可能是真正的信號(hào)，而不是錯(cuò)誤，并且可能表明值得探索的有趣領(lǐng)域。“有人因?yàn)橄掠甓诼飞匣宋鍌€(gè)小時(shí)？這對(duì)于交通信息來(lái)說(shuō)是一個(gè)有趣的異常值，”Yahav（亞哈夫）說(shuō)。

如果您正在訓(xùn)練一個(gè)模型來(lái)去除醫(yī)療數(shù)據(jù)的身份信息，那么它需要對(duì)異常值（如唯一名稱、地址的變體格式和身份證號(hào)碼）具有魯棒性，以便正確檢測(cè)它們，這意味著您需要在訓(xùn)練集中包含這些內(nèi)容。尤其是在處理代碼不太可能更新的遺留系統(tǒng)時(shí)，您的數(shù)據(jù)管道需要驗(yàn)證和清理已知問(wèn)題。但Yahav（亞哈夫）認(rèn)為，其中一些需要人類判斷來(lái)區(qū)分真正的錯(cuò)誤，而不是用于泛化的有意義的信號(hào)。

四、添加偏見(jiàn)

過(guò)度清理會(huì)刪除未通過(guò)驗(yàn)證的記錄，從而導(dǎo)致數(shù)據(jù)集出現(xiàn)偏差，因?yàn)闀?huì)丟失具有特定特征的記錄。Kashalikar（卡沙利卡）警告說(shuō)，刪除沒(méi)有中間名首字母的記錄會(huì)刪除來(lái)自印度次大陸某些地區(qū)的人員。同樣，刪除不常見(jiàn)的姓名或堅(jiān)持要求所有姓名長(zhǎng)度超過(guò)兩個(gè)字母可能會(huì)導(dǎo)致模型出現(xiàn)偏差，從而導(dǎo)致模型在不同人群中表現(xiàn)不佳。

他指出：“創(chuàng)建模型的數(shù)據(jù)科學(xué)家可能不理解沒(méi)有數(shù)據(jù)對(duì)業(yè)務(wù)的影響?！?span style="font-family: 黑體, SimHei; outline: 0px; color: rgb(64, 118, 0);">讓了解您要解決的問(wèn)題背景的人可以參與數(shù)據(jù)清理決策非常重要。

五、刪除上下文

過(guò)于徹底地清理數(shù)據(jù)集，你可能會(huì)刪除對(duì)整體情況至關(guān)重要的上下文信息。一些網(wǎng)絡(luò)釣魚郵件故意包含錯(cuò)誤的拼寫和語(yǔ)法，以吸引不太謹(jǐn)慎和不太了解情況的受害者，而虛假鏈接將包含接近真實(shí)域名的URL。清理這些數(shù)據(jù)——或者清理沮喪客戶消息中的語(yǔ)言——可以刪除有關(guān)如何應(yīng)對(duì)的寶貴線索。而且LLM使用數(shù)據(jù)的方式與更傳統(tǒng)的ML不同；數(shù)據(jù)的語(yǔ)義可能至關(guān)重要。

醫(yī)療轉(zhuǎn)錄模型的干凈數(shù)據(jù)集顯然不應(yīng)包括YouTube視頻中要求用戶“點(diǎn)贊和訂閱”的常用短語(yǔ)，因?yàn)橄馩penAI的Whisper（Whisper是由OpenAI開(kāi)發(fā)的一款人工智能語(yǔ)音識(shí)別模型。它是一個(gè)通用的語(yǔ)音識(shí)別系統(tǒng)，使用了大量多語(yǔ)言和多任務(wù)的監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練，能夠在英語(yǔ)語(yǔ)音識(shí)別上達(dá)到接近人類水平的魯棒性和準(zhǔn)確性）這樣的通用模型在處理亂碼音頻時(shí)經(jīng)常會(huì)產(chǎn)生這些短語(yǔ)的幻覺(jué)，使其不適合醫(yī)療轉(zhuǎn)錄。但這些數(shù)據(jù)對(duì)于創(chuàng)建轉(zhuǎn)錄視頻的模型至關(guān)重要。

標(biāo)準(zhǔn)數(shù)據(jù)清理還會(huì)刪除停頓、嘆息、猶豫和說(shuō)話者不愿意說(shuō)完的單詞，但這些線索在預(yù)測(cè)購(gòu)買意愿或意圖時(shí)很有用，Carlsson（卡爾森）指出。“如果有一個(gè)模型可以檢測(cè)客戶的興趣并告訴客戶代表你應(yīng)該停止強(qiáng)行推銷，因?yàn)檫@個(gè)人顯然不感興趣，那將很有用，”他說(shuō)。這就是為什么在清理數(shù)據(jù)之前知道要用數(shù)據(jù)做什么是如此重要。

六、懷念現(xiàn)實(shí)世界的混亂

傳統(tǒng)機(jī)器學(xué)習(xí)在處理雜亂數(shù)據(jù)時(shí)會(huì)變得脆弱，因此人們很容易將其剔除。但是，如果數(shù)據(jù)過(guò)于統(tǒng)一，則會(huì)導(dǎo)致模型在干凈、結(jié)構(gòu)化的數(shù)據(jù)（如訓(xùn)練集）上表現(xiàn)良好，但在處理現(xiàn)實(shí)世界的雜亂數(shù)據(jù)時(shí)卻舉步維艱，導(dǎo)致在生產(chǎn)環(huán)境中表現(xiàn)不佳。

Swaminathan（斯瓦米納坦）解釋說(shuō)，大語(yǔ)言模型（LLM）之所以能通過(guò)律師資格考試或醫(yī)學(xué)委員會(huì)考試，是因?yàn)檫@些考試太過(guò)清晰，無(wú)法作為有用的基準(zhǔn)?！八鼮槟闾峁┝艘粋€(gè)患者簡(jiǎn)介，其中包含所有相關(guān)信息，”他說(shuō)?！八嬖V你，患者會(huì)告訴你他們的生命體征、影像和實(shí)驗(yàn)室結(jié)果。在現(xiàn)實(shí)世界中，醫(yī)生需要分別獲取所有這些信息。”同樣，如果你正在為客戶支持創(chuàng)建一個(gè)黃金數(shù)據(jù)集，請(qǐng)避免讓客戶請(qǐng)求過(guò)于清晰和信息豐富。

Friedman（弗里德曼）承認(rèn)，這其中存在著明顯的矛盾?！澳阌?xùn)練的數(shù)據(jù)集越臟，模型就越難學(xué)習(xí)并取得成功，”他說(shuō)?！暗c此同時(shí)，為了在現(xiàn)實(shí)世界中充分發(fā)揮作用，它需要能夠在那些更臟的環(huán)境中運(yùn)行?！?/span>

LLM尤其需要能夠?qū)﹀e(cuò)誤輸入做出反應(yīng)。刪除口語(yǔ)、拼寫錯(cuò)誤或區(qū)域語(yǔ)言差異可能會(huì)妨礙模型處理現(xiàn)實(shí)世界語(yǔ)言使用的能力。“了解如何應(yīng)對(duì)臟數(shù)據(jù)以及理想的干凈數(shù)據(jù)——從干凈數(shù)據(jù)開(kāi)始很好，但最終它必須是穩(wěn)健的，”Friedman（弗里德曼）補(bǔ)充道。

七、缺失的趨勢(shì)

以同樣的方式清理新舊數(shù)據(jù)可能會(huì)導(dǎo)致其他問(wèn)題。新傳感器可能會(huì)更精確、更準(zhǔn)確，客戶支持請(qǐng)求將涉及您產(chǎn)品的較新版本，或者您將從新潛在客戶的在線足跡中獲取更多有關(guān)他們的元數(shù)據(jù)。無(wú)論數(shù)據(jù)來(lái)源是什么，都可能有新的信息需要捕獲，或者數(shù)據(jù)中的特征可能會(huì)隨著時(shí)間的推移而發(fā)生變化。例如，在印度，離婚直到最近才得到官方承認(rèn)。您不能將其添加到舊記錄中，但為了保持一致性，您不應(yīng)該將其從新記錄中刪除。因此，請(qǐng)注意數(shù)據(jù)清理不會(huì)掩蓋新舊數(shù)據(jù)之間的差異，從而導(dǎo)致模型無(wú)法考慮不斷變化的趨勢(shì)。

“即使對(duì)于相同的用例，基礎(chǔ)數(shù)據(jù)也會(huì)隨著時(shí)間的推移而發(fā)生變化，”Swaminathan（斯瓦米納坦）警告說(shuō)?！袄?，我們?cè)?024年10月為回答客戶問(wèn)題而制定的黃金基準(zhǔn)，可能會(huì)在三個(gè)月后因自然災(zāi)害而過(guò)時(shí)，并且突然出現(xiàn)衛(wèi)生紙短缺的情況。即使是在同一家公司為同一客戶執(zhí)行同一任務(wù)，基準(zhǔn)也會(huì)隨著時(shí)間的推移而過(guò)時(shí)?！?/span>

隨著趨勢(shì)的變化，數(shù)據(jù)中的信號(hào)也可能會(huì)丟失。當(dāng)客戶的聯(lián)系電話從固定電話轉(zhuǎn)移到手機(jī)時(shí)，組織就失去了從號(hào)碼中提取客戶位置的能力?！叭绻闶褂脜^(qū)號(hào)來(lái)驗(yàn)證位置，你會(huì)丟失很多記錄，”Kashalikar（卡沙利卡）補(bǔ)充道。你合作的兩家公司也可能會(huì)合并，因此決定是將它們視為同一實(shí)體還是將它們單獨(dú)保留在你的公司黃金主記錄中取決于用例。

即使沒(méi)有重大變化，基礎(chǔ)數(shù)據(jù)本身也可能已經(jīng)發(fā)生變化?！案信d趣的結(jié)果變量與特征之間的關(guān)系可能已經(jīng)改變，”Friedman（弗里德曼）說(shuō)?！澳悴荒芎?jiǎn)單地鎖定并說(shuō)，‘這個(gè)數(shù)據(jù)集絕對(duì)完美’，然后把它從架子上拿下來(lái)用于一年后的問(wèn)題?！?/span>

為了避免所有這些問(wèn)題，您需要讓具有專業(yè)知識(shí)的人員參與進(jìn)來(lái)，以區(qū)分真正的錯(cuò)誤和有意義的信號(hào)，記錄您對(duì)數(shù)據(jù)清理做出的決策及其原因，并定期審查數(shù)據(jù)清理對(duì)模型性能和業(yè)務(wù)結(jié)果的影響。

不要先進(jìn)行大量數(shù)據(jù)清理然后才開(kāi)始開(kāi)發(fā)，而是采用增量數(shù)據(jù)清理和快速實(shí)驗(yàn)的迭代方法。

“我們認(rèn)為成功的方法就是逐步導(dǎo)入數(shù)據(jù)，”Yahav（亞哈夫）說(shuō)道?！叭藗兒芟胝f(shuō)讓我們把所有東西都連接起來(lái)，相信它能正常工作。但當(dāng)它來(lái)襲時(shí)，你不知道哪里出了問(wèn)題，然后你就必須開(kāi)始斷開(kāi)連接?！?/span>

因此，從少量近期數(shù)據(jù)或您信任的數(shù)據(jù)開(kāi)始，看看它是如何工作的，然后從那里構(gòu)建更多來(lái)源或數(shù)據(jù)量，看看它在哪里出現(xiàn)問(wèn)題?！八罱K會(huì)出問(wèn)題，因?yàn)槟阃浀臇|西會(huì)進(jìn)入主管道，有些事情會(huì)讓你大吃一驚，”他說(shuō)?！?span style="font-family: 黑體, SimHei; outline: 0px; color: rgb(172, 1, 249);">你希望這個(gè)過(guò)程足夠漸進(jìn)，這樣你才能了解是什么原因造成的。”

作者：Mary Branscombe（瑪麗·布蘭斯科姆）

譯者：穿山甲

【睿觀：人工智能時(shí)代的數(shù)據(jù)質(zhì)量并非一蹴而就，而是需要根據(jù)具體應(yīng)用場(chǎng)景和模型需求進(jìn)行靈活、迭代的處理。過(guò)度追求數(shù)據(jù)純凈可能導(dǎo)致信息的丟失和模型泛化能力的下降。

核心支撐論點(diǎn)：

數(shù)據(jù)質(zhì)量與應(yīng)用場(chǎng)景密切相關(guān)：?沒(méi)有絕對(duì)的“干凈數(shù)據(jù)”，數(shù)據(jù)質(zhì)量的衡量標(biāo)準(zhǔn)取決于具體的應(yīng)用場(chǎng)景和模型需求。
數(shù)據(jù)清理的收益遞減：?過(guò)度的數(shù)據(jù)清理可能導(dǎo)致邊際收益遞減，甚至刪除有價(jià)值的信息。
數(shù)據(jù)清理的時(shí)機(jī)：?在開(kāi)始大規(guī)模數(shù)據(jù)清理之前，應(yīng)先明確數(shù)據(jù)的使用目的和模型需求。
數(shù)據(jù)質(zhì)量與模型性能的關(guān)系：?數(shù)據(jù)質(zhì)量過(guò)高或過(guò)低都可能影響模型的泛化能力。
數(shù)據(jù)質(zhì)量的動(dòng)態(tài)性：?數(shù)據(jù)質(zhì)量會(huì)隨著時(shí)間的推移而變化，需要持續(xù)關(guān)注和調(diào)整。

具體論證：

數(shù)據(jù)清理的誤區(qū)：

過(guò)度清理：?刪除異常值、重復(fù)數(shù)據(jù)等可能導(dǎo)致信息丟失。
過(guò)度標(biāo)準(zhǔn)化：?抹平數(shù)據(jù)差異，降低模型泛化能力。
忽視上下文：?刪除上下文信息，影響模型對(duì)復(fù)雜場(chǎng)景的理解。
忽略數(shù)據(jù)動(dòng)態(tài)性：?未能適應(yīng)數(shù)據(jù)隨時(shí)間變化的趨勢(shì)。

數(shù)據(jù)清理的最佳實(shí)踐：

根據(jù)應(yīng)用場(chǎng)景定制：?針對(duì)不同的應(yīng)用場(chǎng)景，采用不同的數(shù)據(jù)清理策略。
迭代式清理：?逐步引入數(shù)據(jù)，不斷調(diào)整清理策略。
關(guān)注數(shù)據(jù)質(zhì)量對(duì)模型性能的影響：?通過(guò)實(shí)驗(yàn)評(píng)估數(shù)據(jù)清理的效果。
保留部分“臟數(shù)據(jù)”：?這些數(shù)據(jù)可能包含有價(jià)值的信息。
重視數(shù)據(jù)質(zhì)量的動(dòng)態(tài)性：?定期評(píng)估和更新數(shù)據(jù)清理策略。

結(jié)論：

人工智能時(shí)代的數(shù)據(jù)質(zhì)量管理是一項(xiàng)復(fù)雜而富有挑戰(zhàn)性的任務(wù)。企業(yè)需要根據(jù)自身的業(yè)務(wù)需求和模型特點(diǎn)，制定靈活、可持續(xù)的數(shù)據(jù)質(zhì)量管理策略。通過(guò)平衡數(shù)據(jù)質(zhì)量與模型性能，企業(yè)可以更好地利用人工智能技術(shù)，推動(dòng)業(yè)務(wù)創(chuàng)新和發(fā)展。

建議：

建立數(shù)據(jù)治理委員會(huì)：?負(fù)責(zé)制定數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和策略。
投資數(shù)據(jù)質(zhì)量工具：?提升數(shù)據(jù)清洗和驗(yàn)證效率。
培養(yǎng)數(shù)據(jù)質(zhì)量文化：?提高員工對(duì)數(shù)據(jù)質(zhì)量重要性的認(rèn)識(shí)。
持續(xù)學(xué)習(xí)和探索：?跟隨技術(shù)發(fā)展趨勢(shì)，不斷優(yōu)化數(shù)據(jù)質(zhì)量管理實(shí)踐。

關(guān)鍵詞：?人工智能，數(shù)據(jù)質(zhì)量，數(shù)據(jù)清理，模型性能，業(yè)務(wù)創(chuàng)新

目標(biāo)受眾：?數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師、業(yè)務(wù)分析師、企業(yè)管理者

應(yīng)用場(chǎng)景：

培訓(xùn)課程：?可作為人工智能相關(guān)培訓(xùn)課程的教學(xué)內(nèi)容。
企業(yè)內(nèi)部培訓(xùn)：?可用于提高企業(yè)員工對(duì)數(shù)據(jù)質(zhì)量的認(rèn)識(shí)。
學(xué)術(shù)研究：?可作為人工智能領(lǐng)域研究的參考?！?/span>

上一篇：忘掉ChatGPT吧，2025年CIO面臨更深層次的…

下一篇：盤點(diǎn)人工智能時(shí)代的人力資本

av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线

核心支撐論點(diǎn)：

具體論證：

結(jié)論：