許多首席信息官在匆忙推進(jìn)人工智能部署之前,都會(huì)跳過關(guān)鍵的數(shù)據(jù)治理步驟。
圖源:HURST PHOTO(圖片上傳者,可以譯為用戶HURST PHOTO,或者HURST PHOTO)?/ SHUTTERSTOCK
【睿觀:在推進(jìn)AI項(xiàng)目之前,企業(yè)必須先在數(shù)據(jù)治理方面做好充分準(zhǔn)備。盡管技術(shù)和投資壓力使得AI應(yīng)用成為趨勢(shì),但沒有高質(zhì)量的數(shù)據(jù)治理,AI項(xiàng)目難以成功。企業(yè)應(yīng)當(dāng)從小處著手,逐步整理和優(yōu)化數(shù)據(jù),確保數(shù)據(jù)的質(zhì)量和一致性,以支持AI的有效應(yīng)用。分析企業(yè)在推進(jìn)人工智能(AI)項(xiàng)目過程中面臨的關(guān)鍵數(shù)據(jù)治理挑戰(zhàn),將提供成功部署AI的建議。
跳過數(shù)據(jù)治理步驟:
許多企業(yè)匆忙推進(jìn)AI項(xiàng)目,但未能先整理和管理好數(shù)據(jù),這導(dǎo)致AI項(xiàng)目無(wú)法達(dá)到預(yù)期的效果。Databricks和Astera Software的領(lǐng)導(dǎo)者指出,僅不到一半的組織具備連貫的數(shù)據(jù)管理流程。
Databricks的AI副總裁Naveen Rao表示,只有約20%的組織擁有成熟的數(shù)據(jù)策略來(lái)充分利用AI工具,很多AI部署需要全面的內(nèi)部數(shù)據(jù)。
啟動(dòng)AI的壓力:
企業(yè)面臨市場(chǎng)和投資者的壓力,紛紛啟動(dòng)AI項(xiàng)目,但由于未能先整理數(shù)據(jù),很多項(xiàng)目未能取得成功。例如,Dell的AI主管Jeff Boudreau指出,高質(zhì)量的數(shù)據(jù)是AI應(yīng)用成功的關(guān)鍵。
數(shù)據(jù)管理挑戰(zhàn):
企業(yè)在數(shù)據(jù)管理中遇到的挑戰(zhàn)包括數(shù)據(jù)孤島、數(shù)據(jù)量龐大、數(shù)據(jù)不完整和不一致,以及大量非結(jié)構(gòu)化數(shù)據(jù)。Astera的Jay Mishra強(qiáng)調(diào),文檔中存儲(chǔ)的數(shù)據(jù)是企業(yè)交流的主要形式,管理這些數(shù)據(jù)是一個(gè)巨大的挑戰(zhàn)和機(jī)遇。
數(shù)據(jù)質(zhì)量勝過數(shù)量:
Mishra指出,數(shù)據(jù)質(zhì)量決定了AI項(xiàng)目的成敗。盡管一些AI工具需要大量數(shù)據(jù),但未經(jīng)過策劃的數(shù)據(jù)會(huì)導(dǎo)致錯(cuò)誤結(jié)果。
單一真實(shí)來(lái)源和數(shù)據(jù)清理:
組織需要解決數(shù)據(jù)中的單一真實(shí)來(lái)源問題,并且需要持續(xù)清理和更新數(shù)據(jù)。cBEYONData的CTO Bryan Eckle建議在AI項(xiàng)目中花費(fèi)大量時(shí)間清理和準(zhǔn)備數(shù)據(jù),以確保AI模型的準(zhǔn)確性。
數(shù)據(jù)策略和標(biāo)準(zhǔn)化:
Dell的Boudreau建議企業(yè)在數(shù)據(jù)治理過程中應(yīng)注重隱私、標(biāo)準(zhǔn)化、質(zhì)量和集成。Eckle則建議企業(yè)明確數(shù)據(jù)的目標(biāo),從需要回答的問題入手,確定所需的基本數(shù)據(jù)元素和數(shù)據(jù)真相來(lái)源。
逐步推進(jìn):
Mishra建議企業(yè)在AI項(xiàng)目啟動(dòng)時(shí)從小處著手,先處理單個(gè)業(yè)務(wù)部門中的數(shù)據(jù),然后再逐步擴(kuò)展,以防一次性處理大量數(shù)據(jù)過于繁瑣?!?/span>
盡管首席信息官和其他技術(shù)領(lǐng)袖面臨應(yīng)用人工智能的壓力,許多組織仍在跳過成功部署的關(guān)鍵第一步:整理數(shù)據(jù)庫(kù)。
據(jù)一些數(shù)據(jù)治理供應(yīng)商稱,盡管至少六年前有警告,但許多首席信息官未能收集和組織其組織不斷生成的大量數(shù)據(jù)。Databricks(屬于 Spark 的商業(yè)化公司。致力于提供基于 Spark 的云服務(wù),可用于數(shù)據(jù)集成、數(shù)據(jù)連接等任務(wù)。)和Astera Software(幫助企業(yè)以更快、更用戶友好的方式管理企業(yè)數(shù)據(jù)。為企業(yè)的數(shù)據(jù)驅(qū)動(dòng)計(jì)劃提供動(dòng)力。愿景是為數(shù)據(jù)專業(yè)人員提供可訪問的數(shù)據(jù)管理工具,這些工具提供了在一個(gè)統(tǒng)一、無(wú)代碼、易于使用的平臺(tái)中集成數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)功能以及數(shù)據(jù)分析和驗(yàn)證功能的功能和靈活性。)的IT領(lǐng)導(dǎo)者表示,在啟動(dòng)人工智能項(xiàng)目之前,只有不到一半的組織擁有連貫的數(shù)據(jù)管理流程。
數(shù)據(jù)治理供應(yīng)商Databricks的人工智能副總裁Naveen Rao(納維恩·拉奧)估計(jì),只有大約20%的組織擁有足夠成熟的數(shù)據(jù)策略,可以充分利用大多數(shù)人工智能工具。他說,一些小型人工智能項(xiàng)目可以基于有限的公司數(shù)據(jù)或公司外部的數(shù)據(jù)來(lái)進(jìn)行工作,但許多成功的人工智能部署需要全面的內(nèi)部數(shù)據(jù)。
“今天,當(dāng)我們與客戶談?wù)?span style="font-size: 18px; font-family: 微軟雅黑, "Microsoft YaHei"; padding: 0px; outline: 0px; max-width: 100%; color: rgb(172, 57, 255);">生成式人工智能時(shí),我們所做的很多事情實(shí)際上都是水平設(shè)置的?!彼a(bǔ)充道,“如果他們的數(shù)據(jù)實(shí)際上沒有整理好,那他們就不會(huì)產(chǎn)生他們想要的影響?!?/span>
一、啟動(dòng)壓力
與此同時(shí),另一家數(shù)據(jù)管理供應(yīng)商Astera Software的首席運(yùn)營(yíng)官Jay Mishra(杰伊·米什拉)補(bǔ)充道,只有不到一半的組織制定了數(shù)據(jù)戰(zhàn)略來(lái)支持任何類型的人工智能部署。一些組織對(duì)數(shù)據(jù)管理幾乎沒有概念,但仍在啟動(dòng)人工智能項(xiàng)目。
“來(lái)自市場(chǎng)的投資者面臨著很大的邁入人工智能領(lǐng)域的壓力。”他表示,“他們從某處開始,花了幾個(gè)月時(shí)間,再意識(shí)到這并沒有給出預(yù)期的結(jié)果?!?/span>
Dell Technologies(戴爾科技,指的是戴爾對(duì)EMC的收購(gòu)?fù)瓿珊蟮拿Q)的人工智能主管Jeff Boudreau(杰夫·布德羅)補(bǔ)充說,如果IT基礎(chǔ)設(shè)施和計(jì)算能力構(gòu)成了人工智能的引擎,那么數(shù)據(jù)就是燃料。“即使是最復(fù)雜的人工智能應(yīng)用程序也依賴于高質(zhì)量的數(shù)據(jù)來(lái)發(fā)揮作用。”他表示,“數(shù)據(jù)是區(qū)別。糟糕的數(shù)據(jù)等于糟糕的人工智能?!?/span>
Rao(拉奧)和Mishra(米什拉)的數(shù)據(jù)成熟度觀察在某些方面與Gartner(高德納,Gartner Group公司成立于1979年,它是第一家信息技術(shù)研究和分析的公司。它為有需要的技術(shù)用戶來(lái)提供專門的服務(wù)。Gartner已經(jīng)成為了一家獨(dú)立的咨詢公司,Gartner公司的服務(wù)主要是迎合中型公司的需要,它希望使自己的業(yè)務(wù)覆蓋到IT行業(yè)的所有領(lǐng)域,從而讓自己成為每一位用戶的一站式信息技術(shù)服務(wù)公司。)最近的一項(xiàng)調(diào)查相匹配。61%的受訪首席數(shù)據(jù)和分析官同意,ChatGPT(是人工智能技術(shù)驅(qū)動(dòng)的自然語(yǔ)言處理工具,它能夠通過理解和學(xué)習(xí)人類的語(yǔ)言來(lái)進(jìn)行對(duì)話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類一樣來(lái)聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務(wù))和其他技術(shù)市場(chǎng)中斷迫使他們發(fā)展或重新思考數(shù)據(jù)和分析戰(zhàn)略。
然而,78%的CDAO(chief data and analytics officers,首席數(shù)據(jù)和分析官)表示,他們的數(shù)據(jù)和分析策略在2023年發(fā)展到足以支持創(chuàng)新。然而,擁有CDAO或首席數(shù)據(jù)官職位的公司很可能已經(jīng)走在數(shù)據(jù)管理曲線的前面。
二、常見數(shù)據(jù)問題
數(shù)據(jù)管理方面的挑戰(zhàn)可分為四個(gè)方面:
首先,數(shù)據(jù)存在于孤島中。營(yíng)銷團(tuán)隊(duì)的數(shù)據(jù)可能與工程團(tuán)隊(duì)的數(shù)據(jù)位于不同的位置,具有不同的訪問規(guī)則。
其次,大多數(shù)組織已經(jīng)生成了大量的數(shù)據(jù),而且每天都在創(chuàng)建更多的數(shù)據(jù)。如果沒有數(shù)據(jù)管理計(jì)劃和系統(tǒng),舊數(shù)據(jù)就會(huì)被隱藏在舊服務(wù)器黑暗角落的文件夾中,新數(shù)據(jù)也不會(huì)被編目和組織。
數(shù)據(jù)不完整、不準(zhǔn)確且不一致。
最后,很大一部分的數(shù)據(jù)是非結(jié)構(gòu)化的,因此不容易組織。關(guān)鍵數(shù)據(jù)存在于每天發(fā)送和接收的數(shù)百封電子郵件、電子表格、PowerPoint演示文稿、視頻、圖片、帶圖表的報(bào)告、文本文檔、網(wǎng)頁(yè)、采購(gòu)訂單、水電費(fèi)賬單和PDF中。
Astera的Mishra(米什拉)說,文本文檔通常存儲(chǔ)在一個(gè)組織的多個(gè)位置,通常包含豐富的信息。一個(gè)重要的數(shù)據(jù)點(diǎn)可以隱藏在20頁(yè)文件第5頁(yè)的圖表上,也可以隱藏在100頁(yè)的華爾街分析師報(bào)告中。
“由常規(guī)應(yīng)用程序或業(yè)務(wù)用戶產(chǎn)生的大量數(shù)據(jù)都保存在文檔中,而文檔仍然是最大的交流形式?!彼硎荆斑@些數(shù)據(jù)是自由流動(dòng)的,不存在于一個(gè)地方。這是一個(gè)巨大的挑戰(zhàn)和機(jī)遇?!?/span>
三、更多的數(shù)據(jù)并不總能產(chǎn)生更好的人工智能
Mishra(米什拉)補(bǔ)充道,對(duì)公司持有的數(shù)據(jù)量的一個(gè)誤解是,向人工智能模型提供越多的數(shù)據(jù)會(huì)產(chǎn)生越好的人工智能結(jié)果。雖然一些人工智能工具需要大量的數(shù)據(jù),但質(zhì)量更為重要。
“未經(jīng)策劃的數(shù)據(jù)將成為錯(cuò)誤結(jié)果的基礎(chǔ)。”他說,“數(shù)據(jù)質(zhì)量決定一切?!?/span>
但人工智能用戶不應(yīng)忽視大型語(yǔ)言模型人工智能對(duì)數(shù)據(jù)的需求,美國(guó)政府機(jī)構(gòu)專業(yè)服務(wù)提供商cBEYONData(是一家專門打造的專業(yè)服務(wù)公司。專門為聯(lián)邦機(jī)構(gòu)和組織提供增強(qiáng)和自動(dòng)化其業(yè)務(wù)流程的解決方案,并提供數(shù)據(jù)分析,以實(shí)現(xiàn)有效的決策。提供財(cái)務(wù)管理報(bào)告和預(yù)算管理解決方案的快速部署,以提供首席財(cái)務(wù)官員工之間的透明度和協(xié)作。其利用這些能力幫助客戶在完成使命的同時(shí)實(shí)現(xiàn)正投資回報(bào)。)的首席技術(shù)官Bryan Eckle(布萊恩·??藸枺┍硎?。
“人工智能非常、非常渴求數(shù)據(jù),”為客戶評(píng)估人工智能工具的Eckle(??藸枺┱f,“數(shù)據(jù)需要準(zhǔn)確、及時(shí)、快速,且大批量。”
Eckle(??藸枺┱f,除了四大數(shù)據(jù)管理問題之外,組織也在努力尋找數(shù)據(jù)中的單一真實(shí)來(lái)源。在一個(gè)組織中浮動(dòng)的產(chǎn)品規(guī)范PDF的五個(gè)版本中,哪一個(gè)是正確的?您客戶支持的聊天機(jī)器人是否可以訪問所有五個(gè)版本?
四、注重質(zhì)量和標(biāo)準(zhǔn)化
對(duì)于那些努力清理數(shù)據(jù)的組織,戴爾的Boudreau(布德羅)建議將重點(diǎn)放在考慮隱私、標(biāo)準(zhǔn)化、質(zhì)量和集成的數(shù)據(jù)管理流程和治理上。
甚至在組織開始清理和組織數(shù)據(jù)之前,Eckle(埃克爾)就建議他們仔細(xì)考慮數(shù)據(jù)的目標(biāo)。
“您可以回過來(lái),從‘我們希望能夠回答哪種問題?’開始,”他說,“然后是,‘我們需要什么樣的基本數(shù)據(jù)元素來(lái)回答?’最后,‘真相源自哪里?’”
Eckle(??藸枺┭a(bǔ)充說,在人工智能項(xiàng)目中,清理數(shù)據(jù)往往被忽視,因?yàn)樗⒎悄切┤A而不實(shí)的部分。但人工智能項(xiàng)目的很大一部分,80%或更多,關(guān)乎清理數(shù)據(jù)。
“這是一項(xiàng)繁重的工作,”他說,“這些項(xiàng)目的大部分時(shí)間都花在確保您有正確的訓(xùn)練數(shù)據(jù)輸入到這些機(jī)器學(xué)習(xí)模型中,這些模型知道如何識(shí)別數(shù)據(jù)中存在的模式?!?/span>
Eckle(埃克爾)補(bǔ)充說,人工智能用戶還必須認(rèn)識(shí)到,清理數(shù)據(jù)并不是一個(gè)一次性的項(xiàng)目。如果您在三年前整理了內(nèi)部數(shù)據(jù),那您現(xiàn)在又過時(shí)了。數(shù)據(jù)不僅來(lái)自內(nèi)部用戶;大多數(shù)組織源源不斷地接收來(lái)自合作伙伴、供應(yīng)商和其他來(lái)源的數(shù)據(jù)。
“這是一次旅程,對(duì)吧?”他說,“您總是會(huì)帶來(lái)額外的數(shù)據(jù)源,這些數(shù)據(jù)源可以提供洞察力,您總是想監(jiān)控?cái)?shù)據(jù)管道的健康狀況。”
五、小步驟
Mishra(米什拉)建議組織在推出人工智能項(xiàng)目時(shí)從小處著手,也許只關(guān)注單個(gè)業(yè)務(wù)部門中的一個(gè)人工智能用例。組織一個(gè)業(yè)務(wù)部門持有的數(shù)據(jù)比從整個(gè)組織中收集數(shù)個(gè)TB(太字節(jié),計(jì)算機(jī)存儲(chǔ)容量單位。也常用TB來(lái)表示。1TB=1024GB=2^40字節(jié)。)的數(shù)據(jù)更容易。
“找到一種特定類型的數(shù)據(jù),并在一次迭代中清理這些數(shù)據(jù),”他說,“看看您整理的一個(gè)子集數(shù)據(jù),然后開始您的人工智能工作。與引入所有數(shù)據(jù)相比,這不會(huì)是太繁瑣的工作。”
作者:Grant Gross(格蘭特·格羅斯)
Grant Gross(格蘭特·格羅斯)是CIO的資深撰稿人,是一名長(zhǎng)期的科技記者。他曾擔(dān)任華盛頓記者,后來(lái)?yè)?dān)任IDG新聞服務(wù)的高級(jí)編輯。在他職業(yè)生涯的早期,他曾擔(dān)任Linux.com的總編輯和科技職業(yè)網(wǎng)站Techies.com的新聞編輯。在遙遠(yuǎn)的過去,他曾在明尼蘇達(dá)州和達(dá)科他州的報(bào)紙擔(dān)任記者和編輯。
譯者:寶藍(lán) ?@lex