
在協(xié)助大型企業(yè)部署AI的過(guò)程中,我看過(guò)無(wú)數(shù)次同樣的劇情:
一支頂尖的數(shù)據(jù)科學(xué)團(tuán)隊(duì)打造出了突破性的模型,業(yè)務(wù)方興奮不已,但在上線前的最后一刻,項(xiàng)目卻在“一堵墻”前戛然而止。
這堵墻由恐懼與混亂砌成,橫亙?cè)?/span>成本與風(fēng)險(xiǎn)的交匯處。
管理層提出了兩個(gè)看似簡(jiǎn)單卻無(wú)人能同時(shí)回答的問(wèn)題:
“安全運(yùn)行它需要多少錢?”
“我們到底承擔(dān)了多少風(fēng)險(xiǎn)?”
問(wèn)題在于,掌管錢袋子的CFO(財(cái)務(wù))、掌管紅線的CRO(風(fēng)控)和掌管代碼的CTO(技術(shù)),活在三個(gè)平行的宇宙里。
今天,我們不僅要揭開AI治理背后的“隱形成本”,更要提出一個(gè)打破壁壘的解決方案——“負(fù)責(zé)任的AI FinOps”。
除了顯性的云服務(wù)器賬單,AI治理在全生命周期中都在產(chǎn)生高昂的隱性成本。
第一階段:部署前的“返工稅”
在受監(jiān)管行業(yè)(如金融、醫(yī)療),模型光“準(zhǔn)”是不夠的,還必須“公平”。
場(chǎng)景:模型通過(guò)了所有技術(shù)測(cè)試,卻在最后的公平性審查中被斃掉。
代價(jià):數(shù)周甚至數(shù)月的返工、重新采樣、重新訓(xùn)練。這不僅浪費(fèi)了昂貴的開發(fā)時(shí)間,更錯(cuò)失了市場(chǎng)窗口。
第二階段:上線后的“運(yùn)行稅”
一旦模型投產(chǎn),治理成本就成了永久性的運(yùn)營(yíng)開支:
可解釋性開銷:為了向監(jiān)管解釋“為什么拒貸”,每筆交易都要運(yùn)行一個(gè)沉重的解釋算法(如SHAP),這可能讓計(jì)算資源翻倍。
持續(xù)監(jiān)控重負(fù):不僅要看模型準(zhǔn)不準(zhǔn)(性能漂移),還要看模型有沒(méi)有變壞(偏見(jiàn)漂移)。這需要一套始終運(yùn)行的獨(dú)立基礎(chǔ)設(shè)施。
審計(jì)存儲(chǔ)賬單:為了合規(guī)(如SEC規(guī)則),每一次預(yù)測(cè)、輸入和模型版本都要保留數(shù)年,存儲(chǔ)成本如滾雪球般增長(zhǎng)。
并非所有AI生而平等。未能區(qū)分受監(jiān)管與非監(jiān)管場(chǎng)景,是預(yù)算失控的主因。
視頻推薦(低風(fēng)險(xiǎn)):推薦錯(cuò)了視頻?用戶劃走就是了。成本幾乎為零。MLOps關(guān)注速度即可。
抵押貸款審批(高風(fēng)險(xiǎn)):拒貸因?yàn)榉N族偏見(jiàn)?那意味著聯(lián)邦調(diào)查、巨額罰款和公關(guān)災(zāi)難。在這里,可解釋性和審計(jì)不是“加分項(xiàng)”,而是“生存稅”。
如何彌合CFO、CRO和CTO之間的鴻溝?我們需要一種新的運(yùn)營(yíng)模式。
3.1 統(tǒng)一語(yǔ)言:創(chuàng)造新指標(biāo)
FinOps看“單次推理成本”,治理看“風(fēng)險(xiǎn)暴露”。?新指標(biāo):“單條合規(guī)決策成本”。將模型重訓(xùn)成本與合規(guī)收益掛鉤,量化性價(jià)比。
3.2 組建“猛虎團(tuán)隊(duì)” (Tiger Teams)
打破部門筒倉(cāng),創(chuàng)建一個(gè)包含財(cái)務(wù)、合規(guī)和技術(shù)成員的賦權(quán)小組。他們的KPI不是單點(diǎn)的節(jié)省或合規(guī),而是“風(fēng)險(xiǎn)調(diào)整后的整體盈利能力”。
3.3 統(tǒng)一儀表盤
CTO看性能,CFO看賬單,CRO看合規(guī)。這三者必須在一個(gè)屏幕上實(shí)時(shí)呈現(xiàn)。如果不知道風(fēng)險(xiǎn),就無(wú)法優(yōu)化成本;如果不量化成本,就無(wú)法管理風(fēng)險(xiǎn)。
結(jié)語(yǔ)
AI落地的最大障礙不再是技術(shù),而是組織。
擁抱“負(fù)責(zé)任的AI FinOps”,讓不同樓頂?shù)木瘓?bào)鈴?fù)瑫r(shí)靜音,把AI創(chuàng)新演奏成一首既盈利又負(fù)責(zé)的交響樂(lè)。
原文:除了云賬單,AI 治理還有哪些隱形的運(yùn)營(yíng)成本?
作者:Jayachander Reddy Kandakatla?
AI 不僅運(yùn)行成本高昂,治理成本同樣不菲。如果財(cái)務(wù)、風(fēng)險(xiǎn)與技術(shù)三方不能協(xié)同一致,AI 項(xiàng)目就會(huì)陷入停滯甚至失敗。
圖片來(lái)源:Shutterstock/ thanmano
在我協(xié)助大型企業(yè)部署 AI 的過(guò)程中,同樣的劇情不斷上演:一支頂尖的數(shù)據(jù)科學(xué)團(tuán)隊(duì)打造出一個(gè)突破性模型,業(yè)務(wù)方興奮不已,可項(xiàng)目卻在“一堵墻”前戛然而止——這堵墻由恐懼與混亂砌成,橫亙?cè)诔杀九c風(fēng)險(xiǎn)的交匯處。領(lǐng)導(dǎo)層提出了兩個(gè)似乎沒(méi)有人能同時(shí)回答的問(wèn)題:“安全運(yùn)行需要多少錢?”和“我們承擔(dān)了多少風(fēng)險(xiǎn)?”
問(wèn)題在于:對(duì)成本負(fù)責(zé)的人和對(duì)風(fēng)險(xiǎn)負(fù)責(zé)的人生活在不同的世界里。匯報(bào)給首席財(cái)務(wù)官(CFO)的?FinOps(財(cái)務(wù)運(yùn)營(yíng))團(tuán)隊(duì)致力于優(yōu)化云賬單;GRC(治理、風(fēng)險(xiǎn)與合規(guī))團(tuán)隊(duì)則專注于法律風(fēng)險(xiǎn);而由首席技術(shù)官(CTO)推動(dòng)的?AI 和 MLOps(機(jī)器學(xué)習(xí)運(yùn)營(yíng))團(tuán)隊(duì)則處于中間地帶,難以找到平衡。
這種組織架構(gòu)導(dǎo)致項(xiàng)目要么太昂貴無(wú)法運(yùn)行,要么太有風(fēng)險(xiǎn)無(wú)法部署。解決方案不是更好的財(cái)務(wù)運(yùn)營(yíng)或更嚴(yán)格的治理,而是將 AI 成本和治理風(fēng)險(xiǎn)視為一個(gè)可度量的系統(tǒng)來(lái)管理,而非不同部門角力的對(duì)立面。我把這套方法稱為“負(fù)責(zé)任的 AI 財(cái)務(wù)運(yùn)營(yíng)(Responsible AI FinOps)”。
為了理解為什么這個(gè)系統(tǒng)是必要的,我們首先必須揭開治理在模型見(jiàn)到客戶之前所附加的隱藏成本。
在開發(fā)過(guò)程中,第一個(gè)隱藏成本出現(xiàn)在我所稱的“開發(fā)重做成本”中。在受監(jiān)管的行業(yè)中,模型不僅需要準(zhǔn)確,還必須被證明是公平的。這是一個(gè)常見(jiàn)的場(chǎng)景:一個(gè)模型通過(guò)了所有的技術(shù)準(zhǔn)確性測(cè)試,但在最終的偏差審查中被標(biāo)記為不符合要求。
正如我在最近的?VentureBeat?文章中詳細(xì)說(shuō)明的,這個(gè)“重做”是導(dǎo)致 AI 戰(zhàn)略停滯的生產(chǎn)力差距的主要原因。這迫使團(tuán)隊(duì)重新開始,導(dǎo)致數(shù)周或數(shù)月的重做、重新采樣數(shù)據(jù)、重新設(shè)計(jì)功能和重新訓(xùn)練模型——所有這些都會(huì)消耗寶貴的開發(fā)人員時(shí)間并延遲上市時(shí)間。
即使當(dāng)模型運(yùn)行得非常完美時(shí),受監(jiān)管的行業(yè)仍然需要大量的文件。團(tuán)隊(duì)必須創(chuàng)建詳細(xì)的記錄,解釋模型如何做出決策以及數(shù)據(jù)的來(lái)源。你不會(huì)在云發(fā)票上看到這項(xiàng)開支,但它卻是由你最資深專家的工資小時(shí)數(shù)來(lái)衡量的重要組成部分。
這些不僅僅是技術(shù)問(wèn)題,而是由 AI 治理標(biāo)準(zhǔn)流程失敗引起的財(cái)務(wù)負(fù)擔(dān)。
模型一旦投產(chǎn),治理成本就會(huì)成為運(yùn)營(yíng)預(yù)算的永久部分。
2.1可解釋性開銷
對(duì)于高風(fēng)險(xiǎn)決策,治理要求每個(gè)預(yù)測(cè)都具有可解釋性。雖然用于實(shí)現(xiàn)這一點(diǎn)的庫(kù)(如流行的 SHAP 和 LIME)是開源的,但它們運(yùn)行時(shí)并非免費(fèi),因?yàn)樗鼈冊(cè)谟?jì)算上非常密集。在實(shí)際操作中,這意味著為每筆交易運(yùn)行一個(gè)次要的、重型的算法,還要與您的主要模型并行運(yùn)行。這很容易使計(jì)算資源和延遲翻倍,在每個(gè)預(yù)測(cè)上造成顯著且重復(fù)的治理開銷。
2.2持續(xù)監(jiān)控的重負(fù)
標(biāo)準(zhǔn)的 MLOps 包括性能漂移的監(jiān)控(例如,模型是否變得不那么準(zhǔn)確?)。但 AI 治理增加了第二層更復(fù)雜的監(jiān)控,這意味著要不斷檢查偏見(jiàn)漂移(例如,模型是否隨著時(shí)間的推移對(duì)特定群體變得不公平?)和可解釋性漂移。這需要一個(gè)單獨(dú)的、始終運(yùn)行的基礎(chǔ)設(shè)施,該基礎(chǔ)設(shè)施攝取生產(chǎn)數(shù)據(jù),運(yùn)行統(tǒng)計(jì)測(cè)試并存儲(chǔ)結(jié)果,為項(xiàng)目增加了一項(xiàng)持續(xù)且獨(dú)立的成本。
2.3審計(jì)與存儲(chǔ)賬單
為了可審計(jì),你必須記錄所有事情。在金融領(lǐng)域,像?FINRA?這樣的機(jī)構(gòu)要求會(huì)員公司遵守 SEC 的電子記錄保存規(guī)則,這可能要求至少保留六年的不可擦除格式。這意味著每一個(gè)預(yù)測(cè)、輸入和模型版本都會(huì)產(chǎn)生一個(gè)數(shù)據(jù)遺物,產(chǎn)生存儲(chǔ)成本,這個(gè)成本會(huì)每天增加,持續(xù)數(shù)年。
并非所有的 AI 都是一樣的,未能區(qū)分使用案例是預(yù)算和風(fēng)險(xiǎn)不匹配的主要原因之一。我上面描述的所謂“治理稅”不是普遍適用的,因?yàn)椴煌咐娘L(fēng)險(xiǎn)并不相同。
先考慮非監(jiān)管用途案例,比如一個(gè)社交媒體應(yīng)用上的視頻推薦引擎。如果模型推薦了一個(gè)我不喜歡的視頻,影響是微不足道的——我只需向下滾動(dòng)即可,錯(cuò)誤預(yù)測(cè)的成本幾乎為零。MLOps 團(tuán)隊(duì)可以優(yōu)先考慮速度和參與度指標(biāo),對(duì)治理的干預(yù)相對(duì)較少。
然后考慮一個(gè)我經(jīng)常遇到的受監(jiān)管的使用案例:一家銀行用于抵押貸款審批的 AI 模型。一個(gè)對(duì)受保護(hù)群體有偏見(jiàn)、拒貸不公的模型不僅會(huì)創(chuàng)造糟糕的客戶體驗(yàn),還可能引發(fā)聯(lián)邦調(diào)查、根據(jù)公平貸款法的數(shù)百萬(wàn)美元罰款以及公關(guān)災(zāi)難。此時(shí),可解釋性、偏見(jiàn)監(jiān)控、可審計(jì)性不是“加分項(xiàng)”,而是“生存稅”。
這一根本差異決定了:只讓 MLOps、FinOps 或 GRC 任何一方單方面決定做出的 AI 平臺(tái)注定會(huì)失敗。
彌合 CFO、CRO 和 CTO 之間的差距需要建立在共享語(yǔ)言和責(zé)任基礎(chǔ)上的新運(yùn)營(yíng)模式。
4.1創(chuàng)建一種具有新度量標(biāo)準(zhǔn)的統(tǒng)一語(yǔ)言。
FinOps 跟蹤業(yè)務(wù)度量標(biāo)準(zhǔn),如“單用戶成本”和“單次推理成本”;治理跟蹤風(fēng)險(xiǎn)暴露;負(fù)責(zé)任的 AI FinOps 把兩者熔成“單條合規(guī)決策成本”等新指標(biāo)。在我的研究中,我專注于不僅量化模型重新訓(xùn)練成本,還量化重新訓(xùn)練成本與合規(guī)提升相關(guān)的成本效益的度量標(biāo)準(zhǔn)。
4.2組建跨功能的猛虎團(tuán)隊(duì) (Tiger Teams)。
與其讓各個(gè)部門各自為戰(zhàn),不如創(chuàng)建賦權(quán)的小組。這些小組包括來(lái)自財(cái)務(wù)運(yùn)營(yíng)、合規(guī)和機(jī)器學(xué)習(xí)運(yùn)營(yíng)的成員,并對(duì)高風(fēng)險(xiǎn) AI 產(chǎn)品的整個(gè)生命周期負(fù)責(zé),其成功是根據(jù)系統(tǒng)的整體風(fēng)險(xiǎn)調(diào)整后的盈利能力來(lái)衡量的。這個(gè)團(tuán)隊(duì)不僅應(yīng)定義跨功能的 AI 成本治理指標(biāo),還要制定全公司所有模型必須遵循的工程與合規(guī)標(biāo)準(zhǔn)。
4.3投資于一個(gè)統(tǒng)一的平臺(tái)。
市場(chǎng)已用數(shù)據(jù)說(shuō)話:Fortune Business Insights(《財(cái)富》商業(yè)洞察)預(yù)測(cè) MLOps 市場(chǎng)將在 2032 年達(dá)到近 200 億美元,這證明了市場(chǎng)對(duì)統(tǒng)一的企業(yè)級(jí)控制平臺(tái)的需求。在這個(gè)統(tǒng)一平臺(tái)上提供一個(gè)單一的儀表板,CTO 可以看到模型性能,CFO 可以看到相關(guān)的云支出,CRO 可以看到實(shí)時(shí)合規(guī)狀態(tài)。
AI 落地的最大障礙不再是純粹的技術(shù)問(wèn)題,而是組織問(wèn)題;那些打破財(cái)務(wù)、風(fēng)險(xiǎn)和技術(shù)團(tuán)隊(duì)之間壁壘的公司將獲得成功。
他們將認(rèn)識(shí)到:
A) 在不了解風(fēng)險(xiǎn)的情況下,無(wú)法優(yōu)化成本;
B) 在未量化風(fēng)險(xiǎn)成本的情況下,無(wú)法管理風(fēng)險(xiǎn);
C) 在沒(méi)有對(duì)模型實(shí)際運(yùn)作的深入工程理解的情況下,無(wú)法同時(shí)實(shí)現(xiàn) A和 B。
擁抱“融合式負(fù)責(zé)任的 AI FinOps”,領(lǐng)導(dǎo)者終于可以讓不同樓頂?shù)木瘓?bào)鈴?fù)瑫r(shí)靜音,把創(chuàng)新演奏成一首既盈利又負(fù)責(zé)的交響樂(lè)。
作者:Jayachander Reddy Kandakatla(賈揚(yáng)德爾·雷迪·坎達(dá)卡特拉)
譯者:木青 ? ?編審:@lex