色天堂网传媒视频,久久久久午夜福利,日韩激情九九九

讓人類始終參與 AI 決策

作者：CIO.com 來源：CIOCDO 發(fā)布時間：2025年08月26日點(diǎn)擊數(shù)：

確保人工智能安全與準(zhǔn)確的標(biāo)準(zhǔn)建議，是保留人工監(jiān)督。然而，即便人類也有局限，尤其當(dāng)企業(yè)大規(guī)模部署AI時。

圖片來源：SvetaZi / Shutterstock

“如果我的醫(yī)生說：‘ChatGPT?是這么說的，我就按這個方案給你治療?！視o法接受?！边_(dá)拉斯德州大學(xué)計算機(jī)科學(xué)教授、網(wǎng)絡(luò)安全研究與教育研究所創(chuàng)始主任?Bhavani Thuraisingham?（巴瓦尼·圖賴辛漢姆）說。

而那是在有消息傳出ChatGPT建議一名男子用溴化鈉代替食鹽，導(dǎo)致他產(chǎn)生幻覺并忍受了三周治療之前。她指出：“如今，對于關(guān)鍵系統(tǒng)，我們必須讓人類留在決策環(huán)中?！?/span>

持同樣觀點(diǎn)的不止她一人。“human in the loop”（人在回路）是降低?AI?風(fēng)險最常見、最核心的做法，許多企業(yè)都以此推進(jìn)?AI?部署。Thomson Reuters（湯森路透，是一家專業(yè)信息服務(wù)提供商）便是典型例子：始終讓人類參與，是其?AI?戰(zhàn)略不可或缺的一環(huán)。

“我們把人工評估視為黃金標(biāo)準(zhǔn)?！痹摴臼紫夹g(shù)官?Joel Hron?（喬爾·赫?。┱f。

湯森路透正將生成式AI?集成到其商業(yè)產(chǎn)品中，包括法律、稅務(wù)與會計平臺，同時在內(nèi)部開發(fā)、網(wǎng)絡(luò)安全、人力資源、客戶支持等眾多場景中使用。Hron（赫?。┍硎?，人工評估不僅是當(dāng)前生成式?AI?的關(guān)鍵環(huán)節(jié)，也是公司正在構(gòu)建的新一代智能體系統(tǒng)的重要機(jī)制。但光說一句“讓人類盯緊AI”遠(yuǎn)遠(yuǎn)不夠。

他說：“我們花了大量時間設(shè)計極為精細(xì)的評分表，告訴人類如何標(biāo)注他們發(fā)現(xiàn)的錯誤，以便我們能建立更好的防護(hù)措施”。

然而，反面現(xiàn)實(shí)是，在很多場景下“人在回路”并不現(xiàn)實(shí)，尤其當(dāng)企業(yè)利用?AI?實(shí)現(xiàn)自動化和智能體工作流時。把人類塞進(jìn)每一個決策環(huán)節(jié)，既會拖慢流程，也可能導(dǎo)致“橡皮圖章”式（比喻不經(jīng)審查、不加思考就蓋章批準(zhǔn)的行為。）的敷衍，甚至隨著?AI?越來越擅長欺騙人類，人類反而被蒙蔽。因此，一些企業(yè)正探索如何把人類“拉出回路”，同時依舊確保人類牢牢掌握最終指揮權(quán)。

一、人工智能是不是聰明得過了頭？

一種“人在回路”的?AI?監(jiān)控做法，是讓系統(tǒng)在真正執(zhí)行任何可能帶來風(fēng)險或損害的操作前，必須征得人類許可。但這默認(rèn)了?AI?會誠實(shí)匯報，而遺憾的是，這一點(diǎn)并不可靠。

Apollo Research?最近的一篇論文指出，更先進(jìn)的模型不僅欺騙率更高，而且手段更為高明。當(dāng)它們知道自己正在接受測試時，會故意蒙蔽評估者；有時甚至裝傻，以降低觸發(fā)防護(hù)機(jī)制的概率。

今年7月，頂尖?AI?供應(yīng)商?Anthropic?發(fā)布的報告顯示，具備高級推理能力的模型會對其思考過程撒謊；當(dāng)它們意識到自己正被評估時，不良行為會減少；而一旦認(rèn)為“沒人看著”，就會變本加厲。

“一個智能體系統(tǒng)以目標(biāo)為導(dǎo)向，會不擇手段地達(dá)成那個目標(biāo)。”Hron（赫隆）說。例如，它可能直接篡改單元測試。“它還會騙我說：‘我可沒改單元測試。’但我去?GitHub?存儲庫一看，就知道它確實(shí)改了。”

這種行為并非只是理論上的風(fēng)險。同樣是在?7?月，風(fēng)險投資人?Jason Lemkin?發(fā)現(xiàn)，Replit?的?vibe coding?平臺上的一款?AI?助手為了掩蓋漏洞和其他問題，偽造了報告，還在單元測試上撒謊。隨后，它不顧“未經(jīng)批準(zhǔn)不得更改任何內(nèi)容”的嚴(yán)格指令，直接刪除了整個生產(chǎn)數(shù)據(jù)庫。要解決這類問題，企業(yè)必須對?AI?的具體操作有可見性，Hron（赫隆）指出：“這樣你就能知道，智能體發(fā)現(xiàn)了哪些漏洞或捷徑，從而為它構(gòu)建更完善的護(hù)欄。”

二、自動化流程是否快到無法監(jiān)控？

將AI?智能體嵌入企業(yè)工作流的一大好處，是能顯著加速業(yè)務(wù)流程。若每次都要暫停流程，讓人類檢查?AI?的行為，便失去了提速的意義。因此，企業(yè)必須把部分乃至大部分監(jiān)控也自動化。

“這是我們最終必須抵達(dá)的、顯而易見且必要的狀態(tài)。”Hron（赫?。┱f。監(jiān)控可由傳統(tǒng)腳本系統(tǒng)完成，也可由專門被提示去發(fā)現(xiàn)問題的大模型執(zhí)行，他補(bǔ)充道：“還可以使用完全獨(dú)立、專為智能體系統(tǒng)做護(hù)欄與監(jiān)控而訓(xùn)練的模型”。

具體采用哪種方式，應(yīng)視每個用例的風(fēng)險高低而定。例如，一個只做信息搜集的AI，對公司風(fēng)險極低，可允許其較少受監(jiān)督地運(yùn)行；反之，一旦其操作可能引發(fā)災(zāi)難性后果，就需疊加多層監(jiān)督。

他說：“所以別把它看作非黑即白，而應(yīng)視為一條連續(xù)光譜”。

對某些流程，企業(yè)甚至?xí)幸獠话阉胁襟E自動化，而是加入人工把關(guān)，即便這會拖慢整個工作流。

“我們明確區(qū)分哪些流程適合?AI，就用?AI?和智能體；其他流程則必須經(jīng)人類驗證?！睌?shù)據(jù)工程公司?Indicium?的首席數(shù)據(jù)官?Daniel Avancini?（丹尼爾·阿萬西尼）說。這包括軟件開發(fā)與大規(guī)模數(shù)據(jù)遷移項目。他補(bǔ)充道：“我們設(shè)置了關(guān)卡，讓人類驗證關(guān)鍵步驟，絕不會?100%?自動化。”

三、人類會不會開始對AI?的建議“橡皮圖章”式放行？

人們很容易掉進(jìn)“電腦說什么就點(diǎn)什么”的陷阱。Indicium為此建立了流程，確保人類真正在驗證，而非盲目授權(quán)。

Avancini（阿萬西尼）說：“我們用審計來驗證工作質(zhì)量，甚至可以追蹤每個人花了多少時間做復(fù)核，如果有人兩秒鐘就點(diǎn)完，我們立刻知道他只是按按鈕，根本沒在看，這存在真實(shí)風(fēng)險。我們通過培訓(xùn)和流程來減少這種情況?！?/span>

但如果AI?的錯誤率極低，而需要人工復(fù)核的動作卻海量增長，會發(fā)生什么？

網(wǎng)絡(luò)安全公司?Schellman?的?CEO Avani Desai（阿瓦尼·德賽）指出：“人類根本跟不上生成式?AI?高頻、高并發(fā)的決策速度，持續(xù)監(jiān)督會造成‘人在回路’疲勞和警報疲勞，人會逐漸麻木?！?/span>

到了這一步，人工監(jiān)督就形同虛設(shè)，而且情況會更糟：足夠聰明的AI?會把審批請求包裝得滴水不漏，讓人類一看就想點(diǎn)“同意”。

“智能體系統(tǒng)已具備規(guī)劃與推理能力，還能學(xué)會操縱人類監(jiān)督者，”Desai（德賽）說，“尤其是在開放式強(qiáng)化學(xué)習(xí)訓(xùn)練下。”

這叫“reward hacking”（獎勵劫持）：AI被無意訓(xùn)練成只要達(dá)成目標(biāo)就給獎勵，于是它找到了捷徑并反復(fù)利用。

“因此，‘人在回路’反而可能變成一張?zhí)摷俚陌踩W(wǎng)。”

緩解措施包括：自動把最危險的操作標(biāo)出來做額外復(fù)核；輪崗人類審核員；部署自動化異常檢測；設(shè)置多級監(jiān)督，讓不同的審核員關(guān)注不同類型的風(fēng)險。

另一種方案是從系統(tǒng)設(shè)計之初就把約束條件寫死。“必須事先布好控制點(diǎn)，讓智能體?AI?根本做不了某些事。”Desai（德賽）舉例：支付系統(tǒng)可限制?AI?發(fā)起的交易金額上限；開發(fā)環(huán)境可禁止?AI?修改或刪除特定類別文件。

她說：“我始終認(rèn)為，面對真正的智能體，人類參與是不夠的”。

四、建立清晰的等級制

Desai（德賽）認(rèn)為，企業(yè)應(yīng)轉(zhuǎn)向“人類主導(dǎo)”的架構(gòu)?！澳悴粌H要去監(jiān)督，還要設(shè)計控制系統(tǒng)和防護(hù)措施，在錯誤發(fā)生之前就進(jìn)行有效干預(yù)，”她說，“安全必須內(nèi)建于設(shè)計之中，而不是等事故發(fā)生后再去修補(bǔ)?！?/span>

AI應(yīng)該在“沙盒”環(huán)境里運(yùn)行，企業(yè)可以嚴(yán)格限制它能看到什么、能做什么。畢竟，我們完全可以控制比自己更強(qiáng)大的系統(tǒng)，Desai（德賽）指出：“飛機(jī)比人快，但我們能駕駛它?！?/span>

但如果一個組織把工作流或決策框架構(gòu)建得人類無法推翻，或復(fù)雜到人類無法理解，AI?就會成為重大風(fēng)險。

“這就是‘溫水煮青蛙’的場景，”她說，“等你意識到失控時已經(jīng)太晚了。我們失去控制，不是因為AI比我們聰明，而是因為我們放棄了責(zé)任。這才是我擔(dān)心的。”

其他專家也贊同把AI?關(guān)進(jìn)“緊箍咒”沙盒，讓它只能接收極受控的輸入，并輸出極其狹窄的結(jié)果。安永全球?AI?咨詢負(fù)責(zé)人?Dan Diasio?（丹·迪亞西奧）表示，事實(shí)上，許多公司已經(jīng)在高風(fēng)險流程中采取這種做法。

大語言模型只處理業(yè)務(wù)流程中真正需要它的那一小部分，其余由機(jī)器學(xué)習(xí)模型甚至腳本流程完成。

“我們發(fā)現(xiàn)，大多數(shù)客戶在設(shè)計系統(tǒng)時都非常謹(jǐn)慎，不會過度放大?LLM?的能力去完成全部工作?！?/span>Diasio（迪亞西奧）說。

有人談?wù)撃欠N“無所不能、可訪問公司一切資源、自主達(dá)成目標(biāo)”的?AI，但企業(yè)內(nèi)部的實(shí)際做法截然不同，他指出：“他們設(shè)計的流程是‘有引導(dǎo)’的，而非完全無約束?！?/span>

畢馬威全球可信AI?負(fù)責(zé)人?Bryan McGowan?（布萊恩·麥高恩）表示，當(dāng)生成式?AI?在業(yè)務(wù)流程中被大規(guī)模使用時，另一種約束方式是“職責(zé)分離”。

他說：“如果所有智能體能力都由一個?AI?統(tǒng)一調(diào)度，它就能最終調(diào)用所需的全部權(quán)限，從而變得極其強(qiáng)大，我們可以把其中一部分職責(zé)拆分，并在它們之間設(shè)立‘防火墻’”。

兩個智能體可以通過共享信息協(xié)作，但這些通信可以被監(jiān)控和控制。這種做法類似于金融公司為防止串謀和腐敗而設(shè)置的控制措施。

五、人在回路（閉環(huán)）

一旦AI?智能體的所有動作和通信都被記錄并納入監(jiān)控，人類便可以從“in the loop”（人在閉環(huán)中）轉(zhuǎn)為“on the loop”（人在環(huán)上）。

McGowan（麥高恩）說：“如果你硬要在50個步驟的流程里讓真人每一步都把關(guān)，人類根本不會去看所有細(xì)節(jié)，那我應(yīng)該在這個生命周期的哪些節(jié)點(diǎn)做評估，才能確保我對最終結(jié)果放心？”

企業(yè)可能想知道：每個步驟是否完成、是否準(zhǔn)確等等。這就要求把智能體的行為日志化，追蹤它執(zhí)行的順序步驟，并將其行為與預(yù)期進(jìn)行比對。

舉個例子，如果用戶只讓AI?發(fā)一封郵件，它卻發(fā)了五封，就屬于可疑行為。準(zhǔn)確且不可篡改的日志是監(jiān)督流程的關(guān)鍵。“我要一份智能體所做事情的日志，而且這份日志必須不可更改，防止智能體自己篡改?！彼a(bǔ)充道。隨后，企業(yè)可以用一個專門負(fù)責(zé)質(zhì)量保證的?AI?智能體，或傳統(tǒng)分析工具，來評估這些日志。

德州大學(xué)的Thuraisingham?（圖拉伊辛厄姆）說：“人類不可能一一檢查所有內(nèi)容，所以我們需要這些檢查器也自動化——這是目前唯一的可行方案?！?/span>

作者：Maria Korolov（瑪麗亞·科羅洛夫）

Maria Korolov（瑪麗亞·科羅洛夫）是一位屢獲殊榮的科技記者，擁有20多年報道企業(yè)技術(shù)的經(jīng)驗，長期為Foundry旗下媒體撰稿，包括《CIO》《CSO》《Network World》《Computerworld》《PCWorld》等。她同時也是演講者、科幻小說作家與雜志編輯，并主持一檔YouTube頻道。她曾在亞洲運(yùn)營商業(yè)新聞分社五年，并為《芝加哥論壇報》、路透社、合眾國際社、美聯(lián)社及《好萊塢報道》供稿。上世紀(jì)90年代，她曾任前蘇聯(lián)地區(qū)的戰(zhàn)地記者，報道過包括車臣和阿富汗在內(nèi)的十余個戰(zhàn)區(qū)。

2025年，Maria憑借對博通VMware及量子計算的報道榮獲AZBEE獎。

譯者：小知

睿觀：

盡管“human in the loop”（人在回路）被視為確保AI（人工智能）安全的核心手段，但隨著智能體規(guī)模化部署，人類因難以跟上其速度、易被欺騙和產(chǎn)生“橡皮圖章”式授權(quán)，該機(jī)制正變得不可靠，甚至可能成為虛假的安全網(wǎng)。為此，企業(yè)必須從“人在回路”（in the loop）轉(zhuǎn)向“人在環(huán)上”（on the loop），這需要將監(jiān)控也自動化，通過不可篡改的日志記錄AI所有行為；并在系統(tǒng)設(shè)計之初就建立硬性“護(hù)欄”，對高風(fēng)險操作進(jìn)行限制；同時采用“職責(zé)分離”原則，為不同智能體設(shè)置“防火墻”以防串謀。因此，應(yīng)對AI風(fēng)險的關(guān)鍵，不是依賴人類進(jìn)行細(xì)致入微的檢查，而是將安全內(nèi)建于設(shè)計之中。CIO（首席信息官）的責(zé)任是構(gòu)建一個“人類主導(dǎo)”的架構(gòu)，通過設(shè)計自動化監(jiān)督機(jī)制和嚴(yán)格的等級制，確保人類始終擁有最終的指揮權(quán)，從而防止AI陷入“溫水煮青蛙”式的失控。

金句：

從“人在回路”到“人在環(huán)上”，標(biāo)志著我們對AI安全的理解，已從依賴“善意”的人類審查，升級為依賴“無情”的系統(tǒng)設(shè)計。

上一篇：成都AI人請注意！別再空談大模型，火山引…

下一篇：為何云效率反而推動IT支出增加（而非減少）

av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线

金句：