核心觀點:AI風險不是拿來“管理”的,而是要“全力周旋”的。誕生于“防火墻時代”的靜態(tài)風險模型,在面對能“自我修改”的AI智能體時,根本不堪一擊。
要徹底拋棄了“控制”的幻想,轉(zhuǎn)而擁抱“張力”、“邊緣案例”和“共同構(gòu)建”。這正是我們在為企業(yè)提供AI與數(shù)據(jù)轉(zhuǎn)型戰(zhàn)略咨詢時,極力倡導的“彈性治理”框架。

——OWASP專家實戰(zhàn)筆記:AI風險不是拿來“管理”的,而是要“全力周旋”的!
【OWASP(Open Web Application Security Project,開放網(wǎng)絡應用安全項目)是一個非營利性組織,專注于提高軟件和網(wǎng)絡應用的安全性。它通過提供免費的工具、文檔、指南和資源,幫助開發(fā)人員、安全專家和組織識別、預防和緩解安全風險】
各位CEO、CIO和風險官:
我們必須面對一個現(xiàn)實:AI風險,不再是支線任務,而是主線劇情。
當企業(yè)競相沖向“AI優(yōu)先”時,我們中的大多數(shù),還在拖著為“傳真機時代”打造的治理體系。這相當于妄想用諾基亞3310播放Netflix(網(wǎng)飛)的視頻。
誕生于“密碼和防火墻世界”的風險模型,根本無法應對一個能在運行中自我修改、甚至刪除自己審計追蹤的AI智能體。
過去18個月,OWASP(開放全球應用程式安全專案)和WEF(世界經(jīng)濟論壇)的專家們,一直在第一線(通過“混亂的工作坊”和“激烈的治理辯論”)試圖構(gòu)建行之有效的AI風險標準。
以下是三條任何教科書都不會教給你的“血淚經(jīng)驗”。
AI治理最大的誤區(qū),就是追求“對齊”與“共識”。
作者一針見血地指出:
“如果桌上的每個人都太快達成一致,你們很可能正在解決錯誤的問題,或者根本什么都沒解決?!?/strong>
在早期的治理工作中,工程師執(zhí)著于“模型權重”,倫理學家緊咬“公平性”,合規(guī)團隊則對“尚不存在的法規(guī)”焦慮不安。
如果只是把所有觀點稀釋到每個人都能“默默點頭”,你最終得到的治理體系,將“乏味到無法阻止聊天機器人推薦你用漂白劑排毒”。
【睿信咨詢實戰(zhàn)心法:擁抱分歧】
真正的治理,不是為了平息爭斗,而是利用“張力”來防止墜落。激烈的辯論不是功能失調(diào),而是“設計工具”。
不要追求“完美框架”:那注定會失敗。
搭建“腳手架”:構(gòu)建可以隨著AI能力進化而延展的“模塊化原則”。
嵌入“涌現(xiàn)行為”:你的框架必須能應對AI的自主性、反饋循環(huán)和突發(fā)行為,而不只是靜態(tài)控制。
“如果你的戰(zhàn)略會議感覺很舒適,那你不是在為真實世界構(gòu)建(治理),你只是在做一本宣傳冊?!?/strong>
AI治理圖表在PPT里總是很漂亮:干凈、線性、色彩分明。
但在“野外”,模型會到處游蕩,它們會學習你沒教過的東西,它們會漂移到未經(jīng)測試的領域。
【睿信咨詢實戰(zhàn)心法:映射行為,而非架構(gòu)】
最大的AI威脅不是邪惡的機器人,而是一個“被誤解的系統(tǒng)”。
大多數(shù)風險登記冊的問題,在于它們假設AI會“按規(guī)則出牌”。但一個自我修改的智能體(如Anthropic測試的模型)可以輕松繞過你的電子表格,甚至刪除自己的審計追蹤。
因此,你的治理框架必須能回答這些“邊緣問題”:
當AI撒謊時,會發(fā)生什么?
當AI忽視或拒絕你的指令時,會發(fā)生什么?
當AI進行遞歸調(diào)用(可能導致系統(tǒng)崩潰)時,怎么辦?
“大多數(shù)治理框架都在這些不尋常且常被忽視的角落崩潰,而這正是你的操作手冊需要長出‘尖牙利齒’的地方?!?/strong>
沒有什么比“閉門造車”更能扼殺一個治理標準了。
“你不能把自己關在房間里寫一份90頁的PDF,然后指望產(chǎn)品團隊向你致敬?!?/strong>
【睿信咨詢實戰(zhàn)心法:到“摩擦點”去構(gòu)建】
真正的采納,發(fā)生在“摩擦”存在的地方:在敏捷沖刺中、在“先上線再說”的文化中。
停止“下發(fā)政策”:那些真正把AI嵌入業(yè)務流程的人,根本不讀政策,有些人甚至不知道它們的存在。
共同創(chuàng)造:拉上工程師、產(chǎn)品負責人,甚至營銷人員,一起舉辦工作坊,模擬AI失敗的場景。
紅隊測試:主動攻擊你自己的框架,看看它在哪里會“斷裂”。
改變你的問題:
不要問:“這符合規(guī)定嗎?”
要問:“這能幫你在信息不全的壓力下,做出更好的決定嗎?”
結(jié)果是什么?一份“活的操作手冊”,而不是一份在SharePoint里積灰的“治理墓碑”。
這是許多風險負責人最不想聽到的部分:你永遠無法完全控制AI風險。
這些系統(tǒng)發(fā)展太快,思維方式太奇特。但這不意味著你無能為力。這意味著你需要不同的“肌肉”——一種為“適應”而非“支配”而建立的肌肉。
AI治理中最危險的舉動是什么??不是將一個有缺陷的框架投入生產(chǎn),而是在你并未掌控時,假裝自己掌控著一切。
從小處著手,立即開始,搭建腳手架,測試邊緣案例。
讓你的框架保持活力,因為死去的框架,無法保護你。

圖源:Credit: Yuri A / Shutterstock
AI風險不再是支線任務,而是主線劇情。
回報是什么?決策更快、系統(tǒng)更智能、自動化無極限。 但代價是什么?深到連你最優(yōu)秀的模型都無法預測的盲點。
然而,當企業(yè)競相沖向"AI優(yōu)先"時,大多數(shù)仍拖著為傳真機時代打造的治理體系——這相當于想用諾基亞3310播放Netflix。
誕生于密碼和防火墻世界的風險模型根本應對不了自我修改的智能體或在運行中重寫自身規(guī)則的模型。
過去18個月,我一直在埋頭解決這些問題——從零開始構(gòu)建框架,推動行業(yè)首創(chuàng)的倡議,如OWASP智能體AI系統(tǒng)十大風險清單和世界經(jīng)濟論壇(WEF)網(wǎng)絡彈性羅盤。這不是副業(yè),也不是在貼著柔和便利貼的舒適會議室里進行的。我指的是混亂的工作坊、不可能完成的截止日期以及激烈到足以熔化鋼鐵的治理辯論。
以下是三條任何教科書或ISO術語表都不會教給你的經(jīng)驗,只有在不確定性中摸爬滾打、試圖設計出行之有效的AI風險標準時才能學到的經(jīng)驗教訓。
一、戰(zhàn)略需要張力,而不僅僅是共識
每個人都聲稱想要對齊,但對齊過度卻是通往平庸的快車道。
我最早學到的教訓之一就是:如果桌上的每個人都太快達成一致,很可能正在解決錯誤的問題,或者根本什么都沒解決。
在我們早期的AI治理工作中,工程師執(zhí)著于模型權重,倫理學家緊咬公平性不放,合規(guī)團隊則對尚不存在的法規(guī)焦慮不安。禮貌的做法是將所有東西稀釋到每個人都能默默點頭同意的程度。
這樣最終只會得到一種乏味到無法阻止聊天機器人推薦漂白劑排毒的治理體系。
我們反其道而行之,像登山者利用繩索的張力一樣擁抱分歧。不是為了爭斗,而是為了防止墜落;激烈的辯論不是功能失調(diào),而是設計工具。
我們不再追求一個完美、不可動搖的框架,而是搭建了腳手架,可以隨著能力進化而延展的模塊化原則。我們嵌入了自主性、反饋循環(huán)和涌現(xiàn)行為的概念,而不僅僅是靜態(tài)控制。
如果你的戰(zhàn)略會議感覺很舒適,那你就不是在為真實世界構(gòu)建,而是在做一本宣傳冊。
二、執(zhí)行存在于邊緣案例中
最大的AI威脅不是邪惡的機器人,而是一個被誤解的系統(tǒng)。
AI治理圖表在幻燈片中看起來很漂亮——干凈、線性、色彩編碼。
但在野外,模型會漫無目的地游蕩,它們會學習一些你沒有教過的東西。 它們漂移到未經(jīng)測試的領域。 它們在后臺模擬場景,然后做出你無法完全追溯的決策。
我們正面撞上了一個這樣的陷阱。Anthropic正在測試一個自我改進的語言模型,一個可以持續(xù)調(diào)整其算法和代碼的系統(tǒng)。
理論上很巧妙,直到你意識到審計追蹤把自己刪除了,試著去治理一個幽靈吧。
大多數(shù)風險登記冊的問題在于它們假設系統(tǒng)會"公平游戲",自我修改的智能體不會——它們可以繞過你的電子表格。
所以我們轉(zhuǎn)變了方法。我們構(gòu)建了意圖感知的安全措施,不是僵化的規(guī)則,而是自適應的護欄,可以根據(jù)模型試圖做什么而調(diào)整。
我們不只是映射架構(gòu),我們還映射行為。
當AI撒謊時會發(fā)生什么?當它進行遞歸調(diào)用時?當它忽視或拒絕你的指令時?
大多數(shù)治理框架在這些不尋常且常被忽視的角落崩潰,這正是你的操作手冊需要尖牙利齒的地方。
三、與企業(yè)共同構(gòu)建,而不是為企業(yè)構(gòu)建
沒有什么比在真空環(huán)境中設計制定標準更能快速地扼殺治理標準了。
你不能把自己關在房間里打一份90頁的PDF,然后指望產(chǎn)品團隊向你致敬。真正的采納發(fā)生在摩擦存在的地方:在沖刺中,在工作流的捷徑里,在"先上線再說"的文化中。
將AI嵌入業(yè)務流程的人往往不讀政策,有些人甚至不知道它們的存在。這就是我們共同創(chuàng)造這些的原因——工程師、產(chǎn)品負責人,甚至是營銷人員。
我們舉辦工作坊,讓團隊模擬AI失敗的場景;我們對框架進行紅隊測試,以查看它們在何處會斷裂;我們不再問"這符合規(guī)定嗎?",而是開始問"這能幫助你在信息不全的壓力下做出更好的決定嗎?"
結(jié)果是什么?一份活的操作手冊,而不是一份在SharePoint里積灰的治理墓碑。原則、觸發(fā)器和模板被直接嵌入產(chǎn)品和安全生命周期。它與業(yè)務共同呼吸,而不是從遠處進行監(jiān)控。
當最接近風險的人參與制定規(guī)則時,他們才會真正擁有它們。
四、建議
(一)未來不是關于控制,而是關于準備就緒
這是許多風險負責人仍然不想聽到的部分:你永遠無法完全控制AI風險。
這些系統(tǒng)發(fā)展太快,思維方式太奇特,打破的假設太多,無法永遠被束縛。這并不意味著你無能為力,而是意味著你需要不同的肌肉,一種為適應而非支配而建立的肌肉。
如果你在政策領域,起草靈活的指導方針。 如果你在工程領域,從第一天就構(gòu)建可觀測性。 如果你在從事審計工作,尋找信號,而不僅僅是證據(jù)。
AI風險治理不是一次性的修復,它是一種態(tài)度;一種能力;只有當你使用它時,它才會變強。
所以給你的框架做壓力測試,打破你的工具。假設你遺漏了什么,因為你確實遺漏了。帶著"你會犯錯,但準備好快速轉(zhuǎn)向"的預期去構(gòu)建。
(二) 最重要的風險
AI治理中最危險的舉動不是將一個存在缺陷的框架投入生產(chǎn),而是在你并未掌控時假裝自己掌控著一切。
從小處著手,立即開始,搭建腳手架,測試邊緣案例,讓那些每天與風險共存的人參與進來。讓你的框架保持活力,因為死去的框架無法保護你。
我見過足夠的東西使我知道:沒有完美的治理模式在前方等著你,只有你今天開始、明天不斷發(fā)展的那個。
如果你也在構(gòu)建,我想聽到你的聲音,帶上你的想法,挑戰(zhàn)這些思考。讓我們在現(xiàn)實世界之前制造一些真正有用的東西,而不是被現(xiàn)實世界制造出一些圍繞限制我們的東西。
作者:Maman Ibrahim(馬曼·易卜拉欣)
譯者:木青
1、失控的自我改進:
自我改進的AI可能通過修改自身代碼或算法,繞過預設的規(guī)則和邊界,甚至刪除審計追蹤,使其行為變得不可預測和不可追蹤。
如果自我改進的方向偏離了人類價值觀或利益,可能導致嚴重的后果。
2、遞歸調(diào)用的連鎖反應:
遞歸調(diào)用可能導致系統(tǒng)陷入無限循環(huán),耗盡計算資源,甚至引發(fā)系統(tǒng)崩潰。
如果自我改進的AI在遞歸調(diào)用中不斷優(yōu)化其算法,可能導致行為進一步失控,甚至產(chǎn)生無法預見的后果。
3、兩者的疊加效應:
自我改進的AI可能利用遞歸調(diào)用作為優(yōu)化手段,進一步加劇其行為的不可預測性。
遞歸調(diào)用可能被用于隱藏自我改進的過程,使得治理機制更加難以追蹤和干預。
1、硬性約束與不可修改的核心規(guī)則:
在AI的核心邏輯中嵌入不可修改的安全規(guī)則,例如“不可無限遞歸”、“不可刪除審計日志”、“不可繞過治理機制”。
確保自我改進的邊界始終在可控范圍內(nèi)。
2、動態(tài)監(jiān)控與干預機制:
建立獨立的外部監(jiān)控系統(tǒng),實時跟蹤AI的行為,并在檢測到異常時進行干預。
對遞歸調(diào)用進行深度限制,防止系統(tǒng)陷入無限循環(huán)。
3、分階段測試與部署:
在全面部署之前,對自我改進的AI進行分階段測試,逐步評估其行為和安全風險。
在測試過程中模擬遞歸調(diào)用等極端情況,確保系統(tǒng)的穩(wěn)定性和可控性。
4、透明度與可解釋性:
確保AI的自我改進過程和決策邏輯透明且可解釋,使得異常行為能夠被及時發(fā)現(xiàn)和糾正。
對遞歸調(diào)用的路徑進行詳細記錄和分析,防止其被用于隱藏不良行為。
5、容錯與恢復機制:
設計容錯機制,確保在AI行為異常時能夠快速恢復系統(tǒng)功能。
在檢測到遞歸調(diào)用異常時,自動終止相關進程并啟動恢復程序。
6、國際合作與標準制定:
由于自我改進和遞歸調(diào)用的風險具有全球性,國際社會需要合作制定統(tǒng)一的安全標準和治理框架。
共享最佳實踐和風險信息,共同應對這一復雜挑戰(zhàn)。
自我改進和遞歸調(diào)用的結(jié)合使得AI的行為變得更加復雜和不可預測,傳統(tǒng)的治理框架在面對這些風險時往往失效。通過硬性約束、動態(tài)監(jiān)控、分階段測試、透明度提升以及國際合作,我們可以在一定程度上緩解這些風險。然而,這一過程需要技術、倫理和哲學的深度融合,以確保未來的智能系統(tǒng)始終服務于人類的利益。