人工智能的“hallucinations(幻覺,指模型生成不基于實際數(shù)據(jù)或與現(xiàn)實顯著不同的內(nèi)容的現(xiàn)象。)”帶來了重大的商業(yè)風(fēng)險,但新型的護欄可以防止它們造成嚴重損害。減輕聊天機器人錯誤風(fēng)險的最佳方法是使用常識。人工智能可能會很棒,但它需要在您的參與規(guī)則下運行,您想要定義它可以做的事情,也要定義它不能做的事情。

圖源:ISTOCK?/ TIPPAPATT
根據(jù)一份VentureBeat(是報道變革性技術(shù)的領(lǐng)導(dǎo)者。通過行業(yè)領(lǐng)先的人工智能和游戲報道,幫助商業(yè)領(lǐng)袖做出更明智的決策。)的報告顯示ChatGPT和其他生成式人工智能工具發(fā)布不到一年后,75%的受調(diào)查公司已經(jīng)將它們投入使用。但是,隨著新一代人工智能聊天機器人數(shù)量的增長,它們偶爾出現(xiàn)故障的風(fēng)險也在增加——荒謬或不準確的輸出或答案,這些輸出或答案很難從工具所訓(xùn)練的大型語言模型(LLM)中篩選出來。
用人工智能的行話來說,它們被稱為hallucinations(幻覺)。如果您在家里嘗試生成式人工智能,它們不會帶來大問題,但在向大量客戶和員工部署新聊天機器人的企業(yè)組織中,只有一個人工智能錯誤就可以讓公司被告上法庭。
去年春天,一名法官制裁了一家律師事務(wù)所,因為該律師事務(wù)所在一個聊天機器人起草的法律簡報中用虛假的引用和引文引用了司法意見。該公司承認,其“因錯誤地相信僅憑一小部分技術(shù)就可以完成整個工作”。
當用于訓(xùn)練LLM(大型語言模型)的數(shù)據(jù)質(zhì)量較差或不完整時,就會出現(xiàn)幻覺。大多數(shù)生成型人工智能平臺的發(fā)生率在3%到8%之間?!?/span>聊天機器人幾乎就像有機體,它們不斷迭代,并吸收新的數(shù)據(jù),”Freshworks(Freshworks制作易于使用的商業(yè)軟件。解決多種復(fù)雜業(yè)務(wù)問題的現(xiàn)代SaaS解決方案的領(lǐng)先提供商。)的chief security architect(首席安全架構(gòu)師)Steven Smith(史蒂文·史密斯)說,“您投入什么就得到什么。”
1.聊天機器人的失誤
使用客戶服務(wù)聊天機器人,發(fā)布不正確的建議或信息可能會有損本部門關(guān)鍵指標,如客戶滿意度;它們還可能在醫(yī)療保健或金融等高度復(fù)雜(和受監(jiān)管)的行業(yè)造成混亂和潛在傷害。
在IT組織中,生成式人工智能故障會以其他方式造成嚴重破壞。聊天機器人可能會錯誤地分配服務(wù)票據(jù),不準確地描述問題,或擾亂工作流程,并導(dǎo)致重大的系統(tǒng)性問題——導(dǎo)致數(shù)據(jù)泄露或重要資源分配不當——然后需要人工干預(yù)。
對于工程師來說,軟件開發(fā)中使用的人工智能生成的代碼可能包含安全漏洞或培訓(xùn)期間攝入的知識產(chǎn)權(quán)。人工智能系統(tǒng)還可以忽略只有開發(fā)者才能發(fā)現(xiàn)并解決的復(fù)雜錯誤或安全問題。
Smith(史密斯)說:“軟件輔助很棒,但您想要閱讀和理解它們給您的東西。如果您不知道代碼在做什么,因為你相信它來自專家而盲目地將代碼投入生產(chǎn),并不比從StackExchange復(fù)制代碼更安全。StackExchange是一個問答網(wǎng)站,曾經(jīng)受到程序員搜索特定代碼片段的青睞?!?/span>
2.最小化風(fēng)險
許多公司都開始投資于降低風(fēng)險。專家們認為,以下是一些最有效的策略。
部署內(nèi)容篩選器。各種技術(shù)上的或基于政策上的護欄可以防止不適當?shù)幕蛴泻Φ膬?nèi)容。例如,內(nèi)容過濾器可以拒絕回答有關(guān)敏感問題或敏感主題的問題。在客戶服務(wù)場景中,如果聊天機器人感到困惑或無法找到準確的答案,它應(yīng)該迅速將詢問交給人工操作員。
不斷升級數(shù)據(jù)質(zhì)量。在培訓(xùn)LLM(大型語言模型)時,IT團隊應(yīng)該驗證數(shù)據(jù),以確保它是高質(zhì)量的、具備相關(guān)性和全面性。應(yīng)定期審查訓(xùn)練數(shù)據(jù),以防止“model drift(模型恒定偏移,是指在機器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域中,訓(xùn)練好的模型在面對新的數(shù)據(jù)時逐漸失效或性能下降的現(xiàn)象。)”或由于基礎(chǔ)數(shù)據(jù)模型隨時間變化而導(dǎo)致的性能下降。
安全護欄。限制聊天機器人連接到第三方應(yīng)用程序和服務(wù)的能力,消除了產(chǎn)生誤導(dǎo)性、不準確或潛在破壞性數(shù)據(jù)的機會。以這種方式對聊天機器人進行沙箱的附帶好處是提高性能(減少依賴性),并增強那些至關(guān)重要的行業(yè)的合規(guī)性。
幻覺在今天可能是一個問題,但解決這個問題的研究正在進行中。為了提高準確性和可靠性,從建立更大的模型到讓LLM(大型語言模型)自己進行事實核查,一切都在探索中。
Smith(史密斯)說,最終,減輕聊天機器人錯誤風(fēng)險的最佳方法是使用常識。“人工智能可能會很棒,但它需要在您的參與規(guī)則下運行,”Smith(史密斯)說?!?/span>您想要定義它可以做的事情,也要定義它不能做的事情,并確保它在這些特定參數(shù)內(nèi)運行。”
作者:Paul Gillin(保爾·吉林)

福建CIO網(wǎng)注:根據(jù)愛分析報告,AI Agent 場景價值大致分為體驗類、降本類、增收類和變革類。變革類是指產(chǎn)生新的商業(yè)模式并帶來新的業(yè)務(wù)收益,增收類則指增加現(xiàn)有收益,體驗類和降本類則較為明確易懂。需要著重指出的是,盡管降低成本并增加收入以及完成變革是更大的價值所在,但在當前階段,對于許多公司,例如金融行業(yè)的銀行、保險和證券以及消費類企業(yè),無論他們是品牌商還是零售商,只要他們面向C端用戶,并且存在線上化業(yè)務(wù),那么體驗類價值的比重就會相當之高。