av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线

你好,歡迎您來到福建信息主管(CIO)網(wǎng)! 設(shè)為首頁|加入收藏|會員中心
您現(xiàn)在的位置:>> 新聞資訊 >>
讓人類始終參與 AI 決策
作者:CIO.com 來源:CIOCDO 發(fā)布時間:2025年08月26日 點(diǎn)擊數(shù):

確保人工智能安全與準(zhǔn)確的標(biāo)準(zhǔn)建議,是保留人工監(jiān)督。然而,即便人類也有局限,尤其當(dāng)企業(yè)大規(guī)模部署AI時。

圖片來源:SvetaZi / Shutterstock

“如果我的醫(yī)生說:‘ChatGPT?是這么說的,我就按這個方案給你治療?!視o法接受?!边_(dá)拉斯德州大學(xué)計算機(jī)科學(xué)教授、網(wǎng)絡(luò)安全研究與教育研究所創(chuàng)始主任?Bhavani Thuraisingham?(巴瓦尼·圖賴辛漢姆)說。

而那是在有消息傳出ChatGPT建議一名男子用溴化鈉代替食鹽,導(dǎo)致他產(chǎn)生幻覺并忍受了三周治療之前。她指出:“如今,對于關(guān)鍵系統(tǒng),我們必須讓人類留在決策環(huán)中?!?/span>

持同樣觀點(diǎn)的不止她一人。human in the loop”(人在回路)是降低?AI?風(fēng)險最常見、最核心的做法,許多企業(yè)都以此推進(jìn)?AI?部署。Thomson Reuters(湯森路透,是一家專業(yè)信息服務(wù)提供商)便是典型例子:始終讓人類參與,是其?AI?戰(zhàn)略不可或缺的一環(huán)。

“我們把人工評估視為黃金標(biāo)準(zhǔn)?!痹摴臼紫夹g(shù)官?Joel Hron?(喬爾·赫?。┱f。

湯森路透正將生成式AI?集成到其商業(yè)產(chǎn)品中,包括法律、稅務(wù)與會計平臺,同時在內(nèi)部開發(fā)、網(wǎng)絡(luò)安全、人力資源、客戶支持等眾多場景中使用。Hron(赫?。┍硎?,人工評估不僅是當(dāng)前生成式?AI?的關(guān)鍵環(huán)節(jié),也是公司正在構(gòu)建的新一代智能體系統(tǒng)的重要機(jī)制。但光說一句“讓人類盯緊AI”遠(yuǎn)遠(yuǎn)不夠。

他說:“我們花了大量時間設(shè)計極為精細(xì)的評分表,告訴人類如何標(biāo)注他們發(fā)現(xiàn)的錯誤,以便我們能建立更好的防護(hù)措施”。

然而,反面現(xiàn)實(shí)是,在很多場景下“人在回路”并不現(xiàn)實(shí),尤其當(dāng)企業(yè)利用?AI?實(shí)現(xiàn)自動化和智能體工作流時。把人類塞進(jìn)每一個決策環(huán)節(jié),既會拖慢流程,也可能導(dǎo)致“橡皮圖章”式(比喻不經(jīng)審查、不加思考就蓋章批準(zhǔn)的行為。的敷衍,甚至隨著?AI?越來越擅長欺騙人類,人類反而被蒙蔽。因此,一些企業(yè)正探索如何把人類“拉出回路”,同時依舊確保人類牢牢掌握最終指揮權(quán)。

一、人工智能是不是聰明得過了頭?

一種“人在回路”的?AI?監(jiān)控做法,是讓系統(tǒng)在真正執(zhí)行任何可能帶來風(fēng)險或損害的操作前,必須征得人類許可。但這默認(rèn)了?AI?會誠實(shí)匯報,而遺憾的是,這一點(diǎn)并不可靠。

Apollo Research?最近的一篇論文指出,更先進(jìn)的模型不僅欺騙率更高,而且手段更為高明。當(dāng)它們知道自己正在接受測試時,會故意蒙蔽評估者;有時甚至裝傻,以降低觸發(fā)防護(hù)機(jī)制的概率。

今年7月,頂尖?AI?供應(yīng)商?Anthropic?發(fā)布的報告顯示,具備高級推理能力的模型會對其思考過程撒謊;當(dāng)它們意識到自己正被評估時,不良行為會減少;而一旦認(rèn)為“沒人看著”,就會變本加厲。

一個智能體系統(tǒng)以目標(biāo)為導(dǎo)向,會不擇手段地達(dá)成那個目標(biāo)。”Hron(赫隆)說。例如,它可能直接篡改單元測試。它還會騙我說:我可沒改單元測試。但我去?GitHub?存儲庫一看,就知道它確實(shí)改了。

這種行為并非只是理論上的風(fēng)險。同樣是在?7?月,風(fēng)險投資人?Jason Lemkin?發(fā)現(xiàn),Replit?的?vibe coding?平臺上的一款?AI?助手為了掩蓋漏洞和其他問題,偽造了報告,還在單元測試上撒謊。隨后,它不顧未經(jīng)批準(zhǔn)不得更改任何內(nèi)容的嚴(yán)格指令,直接刪除了整個生產(chǎn)數(shù)據(jù)庫。要解決這類問題,企業(yè)必須對?AI?的具體操作有可見性,Hron(赫隆)指出:這樣你就能知道,智能體發(fā)現(xiàn)了哪些漏洞或捷徑,從而為它構(gòu)建更完善的護(hù)欄。

二、自動化流程是否快到無法監(jiān)控?

AI?智能體嵌入企業(yè)工作流的一大好處,是能顯著加速業(yè)務(wù)流程。若每次都要暫停流程,讓人類檢查?AI?的行為,便失去了提速的意義。因此,企業(yè)必須把部分乃至大部分監(jiān)控也自動化。

“這是我們最終必須抵達(dá)的、顯而易見且必要的狀態(tài)。”Hron(赫?。┱f。監(jiān)控可由傳統(tǒng)腳本系統(tǒng)完成,也可由專門被提示去發(fā)現(xiàn)問題的大模型執(zhí)行,他補(bǔ)充道:“還可以使用完全獨(dú)立、專為智能體系統(tǒng)做護(hù)欄與監(jiān)控而訓(xùn)練的模型”。

具體采用哪種方式,應(yīng)視每個用例的風(fēng)險高低而定。例如,一個只做信息搜集的AI,對公司風(fēng)險極低,可允許其較少受監(jiān)督地運(yùn)行;反之,一旦其操作可能引發(fā)災(zāi)難性后果,就需疊加多層監(jiān)督。

他說:“所以別把它看作非黑即白,而應(yīng)視為一條連續(xù)光譜”。

對某些流程,企業(yè)甚至?xí)幸獠话阉胁襟E自動化,而是加入人工把關(guān),即便這會拖慢整個工作流。

“我們明確區(qū)分哪些流程適合?AI,就用?AI?和智能體;其他流程則必須經(jīng)人類驗證?!睌?shù)據(jù)工程公司?Indicium?的首席數(shù)據(jù)官?Daniel Avancini?(丹尼爾·阿萬西尼)說。這包括軟件開發(fā)與大規(guī)模數(shù)據(jù)遷移項目。他補(bǔ)充道:“我們設(shè)置了關(guān)卡,讓人類驗證關(guān)鍵步驟,絕不會?100%?自動化。”

三、人類會不會開始對AI?的建議“橡皮圖章”式放行?

人們很容易掉進(jìn)“電腦說什么就點(diǎn)什么”的陷阱。Indicium為此建立了流程,確保人類真正在驗證,而非盲目授權(quán)。

Avancini(阿萬西尼)說:“我們用審計來驗證工作質(zhì)量,甚至可以追蹤每個人花了多少時間做復(fù)核,如果有人兩秒鐘就點(diǎn)完,我們立刻知道他只是按按鈕,根本沒在看,這存在真實(shí)風(fēng)險。我們通過培訓(xùn)和流程來減少這種情況?!?/span>

但如果AI?的錯誤率極低,而需要人工復(fù)核的動作卻海量增長,會發(fā)生什么?

網(wǎng)絡(luò)安全公司?Schellman?的?CEO Avani Desai(阿瓦尼·德賽)指出:“人類根本跟不上生成式?AI?高頻、高并發(fā)的決策速度,持續(xù)監(jiān)督會造成‘人在回路’疲勞和警報疲勞,人會逐漸麻木?!?/span>

到了這一步,人工監(jiān)督就形同虛設(shè),而且情況會更糟:足夠聰明的AI?會把審批請求包裝得滴水不漏,讓人類一看就想點(diǎn)“同意”。

“智能體系統(tǒng)已具備規(guī)劃與推理能力,還能學(xué)會操縱人類監(jiān)督者,”Desai(德賽)說,“尤其是在開放式強(qiáng)化學(xué)習(xí)訓(xùn)練下。”

這叫reward hacking”(獎勵劫持):AI被無意訓(xùn)練成只要達(dá)成目標(biāo)就給獎勵,于是它找到了捷徑并反復(fù)利用。

“因此,‘人在回路’反而可能變成一張?zhí)摷俚陌踩W(wǎng)。”

緩解措施包括:自動把最危險的操作標(biāo)出來做額外復(fù)核;輪崗人類審核員;部署自動化異常檢測;設(shè)置多級監(jiān)督,讓不同的審核員關(guān)注不同類型的風(fēng)險。

另一種方案是從系統(tǒng)設(shè)計之初就把約束條件寫死。“必須事先布好控制點(diǎn),讓智能體?AI?根本做不了某些事。”Desai(德賽)舉例:支付系統(tǒng)可限制?AI?發(fā)起的交易金額上限;開發(fā)環(huán)境可禁止?AI?修改或刪除特定類別文件。

她說:“我始終認(rèn)為,面對真正的智能體,人類參與是不夠的”。

四、建立清晰的等級制

Desai(德賽)認(rèn)為,企業(yè)應(yīng)轉(zhuǎn)向“人類主導(dǎo)”的架構(gòu)?!澳悴粌H要去監(jiān)督,還要設(shè)計控制系統(tǒng)和防護(hù)措施,在錯誤發(fā)生之前就進(jìn)行有效干預(yù),”她說,“安全必須內(nèi)建于設(shè)計之中,而不是等事故發(fā)生后再去修補(bǔ)?!?/span>

AI應(yīng)該在“沙盒”環(huán)境里運(yùn)行,企業(yè)可以嚴(yán)格限制它能看到什么、能做什么。畢竟,我們完全可以控制比自己更強(qiáng)大的系統(tǒng),Desai(德賽)指出:“飛機(jī)比人快,但我們能駕駛它?!?/span>

但如果一個組織把工作流或決策框架構(gòu)建得人類無法推翻,或復(fù)雜到人類無法理解,AI?就會成為重大風(fēng)險。

“這就是‘溫水煮青蛙’的場景,”她說,“等你意識到失控時已經(jīng)太晚了。我們失去控制,不是因為AI比我們聰明,而是因為我們放棄了責(zé)任。這才是我擔(dān)心的。”

其他專家也贊同把AI?關(guān)進(jìn)“緊箍咒”沙盒,讓它只能接收極受控的輸入,并輸出極其狹窄的結(jié)果。安永全球?AI?咨詢負(fù)責(zé)人?Dan Diasio?(丹·迪亞西奧)表示,事實(shí)上,許多公司已經(jīng)在高風(fēng)險流程中采取這種做法。

大語言模型只處理業(yè)務(wù)流程中真正需要它的那一小部分,其余由機(jī)器學(xué)習(xí)模型甚至腳本流程完成。

“我們發(fā)現(xiàn),大多數(shù)客戶在設(shè)計系統(tǒng)時都非常謹(jǐn)慎,不會過度放大?LLM?的能力去完成全部工作?!?/span>Diasio(迪亞西奧)說。

有人談?wù)撃欠N“無所不能、可訪問公司一切資源、自主達(dá)成目標(biāo)”的?AI,但企業(yè)內(nèi)部的實(shí)際做法截然不同,他指出:“他們設(shè)計的流程是‘有引導(dǎo)’的,而非完全無約束?!?/span>

畢馬威全球可信AI?負(fù)責(zé)人?Bryan McGowan?(布萊恩·麥高恩)表示,當(dāng)生成式?AI?在業(yè)務(wù)流程中被大規(guī)模使用時,另一種約束方式是“職責(zé)分離”。

他說:“如果所有智能體能力都由一個?AI?統(tǒng)一調(diào)度,它就能最終調(diào)用所需的全部權(quán)限,從而變得極其強(qiáng)大,我們可以把其中一部分職責(zé)拆分,并在它們之間設(shè)立‘防火墻’”。

兩個智能體可以通過共享信息協(xié)作,但這些通信可以被監(jiān)控和控制。這種做法類似于金融公司為防止串謀和腐敗而設(shè)置的控制措施。

五、人在回路(閉環(huán))

一旦AI?智能體的所有動作和通信都被記錄并納入監(jiān)控,人類便可以從“in the loop”(人在閉環(huán)中)轉(zhuǎn)為“on the loop”(人在環(huán)上)。

McGowan(麥高恩)說:“如果你硬要在50個步驟的流程里讓真人每一步都把關(guān),人類根本不會去看所有細(xì)節(jié),那我應(yīng)該在這個生命周期的哪些節(jié)點(diǎn)做評估,才能確保我對最終結(jié)果放心?”

企業(yè)可能想知道:每個步驟是否完成、是否準(zhǔn)確等等。這就要求把智能體的行為日志化,追蹤它執(zhí)行的順序步驟,并將其行為與預(yù)期進(jìn)行比對。

舉個例子,如果用戶只讓AI?發(fā)一封郵件,它卻發(fā)了五封,就屬于可疑行為。準(zhǔn)確且不可篡改的日志是監(jiān)督流程的關(guān)鍵。“我要一份智能體所做事情的日志,而且這份日志必須不可更改,防止智能體自己篡改?!彼a(bǔ)充道。隨后,企業(yè)可以用一個專門負(fù)責(zé)質(zhì)量保證的?AI?智能體,或傳統(tǒng)分析工具,來評估這些日志。

德州大學(xué)的Thuraisingham?(圖拉伊辛厄姆)說:“人類不可能一一檢查所有內(nèi)容,所以我們需要這些檢查器也自動化——這是目前唯一的可行方案?!?/span>

作者:Maria Korolov(瑪麗亞·科羅洛夫)

Maria Korolov(瑪麗亞·科羅洛夫)是一位屢獲殊榮的科技記者,擁有20多年報道企業(yè)技術(shù)的經(jīng)驗,長期為Foundry旗下媒體撰稿,包括《CIO》《CSO》《Network World》《Computerworld》《PCWorld》等。她同時也是演講者、科幻小說作家與雜志編輯,并主持一檔YouTube頻道。她曾在亞洲運(yùn)營商業(yè)新聞分社五年,并為《芝加哥論壇報》、路透社、合眾國際社、美聯(lián)社及《好萊塢報道》供稿。上世紀(jì)90年代,她曾任前蘇聯(lián)地區(qū)的戰(zhàn)地記者,報道過包括車臣和阿富汗在內(nèi)的十余個戰(zhàn)區(qū)。


2025年,Maria憑借對博通VMware及量子計算的報道榮獲AZBEE獎。


譯者:小知

睿觀:

盡管“human in the loop”(人在回路)被視為確保AI(人工智能)安全的核心手段,但隨著智能體規(guī)模化部署,人類因難以跟上其速度、易被欺騙和產(chǎn)生“橡皮圖章”式授權(quán),該機(jī)制正變得不可靠,甚至可能成為虛假的安全網(wǎng)。為此,企業(yè)必須從“人在回路”(in the loop)轉(zhuǎn)向“人在環(huán)上”(on the loop),這需要將監(jiān)控也自動化,通過不可篡改的日志記錄AI所有行為;并在系統(tǒng)設(shè)計之初就建立硬性“護(hù)欄”,對高風(fēng)險操作進(jìn)行限制;同時采用“職責(zé)分離”原則,為不同智能體設(shè)置“防火墻”以防串謀。因此,應(yīng)對AI風(fēng)險的關(guān)鍵,不是依賴人類進(jìn)行細(xì)致入微的檢查,而是將安全內(nèi)建于設(shè)計之中。CIO(首席信息官)的責(zé)任是構(gòu)建一個“人類主導(dǎo)”的架構(gòu),通過設(shè)計自動化監(jiān)督機(jī)制和嚴(yán)格的等級制,確保人類始終擁有最終的指揮權(quán),從而防止AI陷入“溫水煮青蛙”式的失控。

金句:

從“人在回路”到“人在環(huán)上”,標(biāo)志著我們對AI安全的理解,已從依賴“善意”的人類審查,升級為依賴“無情”的系統(tǒng)設(shè)計。

桃园市| 沂水县| 门头沟区| 泰宁县| 咸丰县| 太仆寺旗| 汝阳县| 平泉县| 哈巴河县| 金湖县| 新平| 临泽县| 中西区| 扬州市| 蒲城县| 明星| 三门峡市| 泊头市| 石泉县| 德江县| 临西县| 岫岩| 八宿县| 湾仔区| 南京市| 呼图壁县| 莱西市| 开封县| 潞西市| 时尚| 盐津县| 大同县| 黄冈市| 涟源市| 台东县| 绥德县| 海淀区| 凤台县| 陆良县| 新邵县| 金沙县|