青娱乐地址,先锋一区精品人妻

成為首席人工智能官（CAIO）要掌握23個(gè)關(guān)鍵生成人工智能術(shù)語及含義

作者：CIO.com睿觀來源：CIOCDO 發(fā)布時(shí)間：2024年09月27日點(diǎn)擊數(shù)：

從代理系統(tǒng)到零樣本提示，生成人工智能可以感覺像一種新的語言。以下是首席信息官成為首席人工智能官需要知道的術(shù)語。

圖源：Shutterstock / monticello

正如生成式人工智能突然出現(xiàn)在人們的視野中一樣，隨之而來的新語言也是如此。與人工智能相關(guān)的詞匯完整列表可能會(huì)有數(shù)千個(gè)條目，但為了緊急相關(guān)性，以下是在首席信息官、分析師、顧問和其他企業(yè)高管中最常聽到的術(shù)語。

1.Agentic systems/智能體系統(tǒng)

智能體是一種能夠自主決策或行動(dòng)的人工智能模型或軟件程序。當(dāng)多個(gè)智能體為了追求一個(gè)單一目標(biāo)而共同工作時(shí)，它們可以進(jìn)行計(jì)劃、委派、研究和執(zhí)行任務(wù)，直到目標(biāo)實(shí)現(xiàn)。當(dāng)其中一些或所有智能體由生成式人工智能驅(qū)動(dòng)時(shí)，結(jié)果可能會(huì)大大超過簡單的提示和響應(yīng)方法所能達(dá)到的效果。然而，由生成式人工智能驅(qū)動(dòng)的智能體系統(tǒng)相對較新，企業(yè)可能很難構(gòu)建自己的系統(tǒng)，更難確保這些系統(tǒng)的安全性。

“智能體和人工智能顯然是風(fēng)險(xiǎn)投資家和初創(chuàng)企業(yè)大量投資的一個(gè)領(lǐng)域，”Gartner（高德納，Gartner Group公司成立于1979年，它是第一家信息技術(shù)研究和分析的公司。它為有需要的技術(shù)用戶來提供專門的服務(wù)。Gartner已經(jīng)成為了一家獨(dú)立的咨詢公司，Gartner公司的服務(wù)主要是迎合中型公司的需要，它希望使自己的業(yè)務(wù)覆蓋到IT行業(yè)的所有領(lǐng)域，從而讓自己成為每一位用戶的一站式信息技術(shù)服務(wù)公司。）分析師Arun Chandrasekaran（阿倫?錢德拉塞卡蘭）表示，“我們可能會(huì)在?2025?年看到更多的智能體框架發(fā)展和成熟。”

2.Alignment/對齊

人工智能對齊指的是模型被訓(xùn)練以堅(jiān)持的一系列價(jià)值觀，如安全性或禮貌性。但并非所有公司都有相同的價(jià)值觀，也并非所有的人工智能供應(yīng)商都明確說明他們在其平臺(tái)中構(gòu)建了哪些價(jià)值觀。

“這是一個(gè)問題，而且不容易解決，”Globant（是一家全球性的技術(shù)服務(wù)提供商，專注于為客戶提供數(shù)字化解決方案和企業(yè)技術(shù)服務(wù)。公司提供的數(shù)字解決方案包括區(qū)塊鏈、云技術(shù)、網(wǎng)絡(luò)安全、數(shù)據(jù)與人工智能、數(shù)字體驗(yàn)與性能、編程、物聯(lián)網(wǎng)、元宇宙以及工程和測試等領(lǐng)域。此外，Globant?還提供電子商務(wù)、會(huì)話接口、設(shè)計(jì)、數(shù)字營銷和數(shù)字產(chǎn)品交付服務(wù)。）的數(shù)據(jù)科學(xué)和人工智能負(fù)責(zé)人JJ Lopez Murphy（JJ·洛佩茲·墨菲）說，“如果模型經(jīng)過大量訓(xùn)練與你的利益相悖，那么你通過提示詞能做的事情是有限的。”

3.Black box/黑箱

一種內(nèi)部機(jī)制不清晰、內(nèi)部過程被隱藏的模型，使得很難判斷該模型是如何得出答案的。這對于當(dāng)今的企業(yè)來說是一個(gè)重大問題，尤其是對于商業(yè)模型。

“如果我不知道該模型是基于什么數(shù)據(jù)進(jìn)行訓(xùn)練的，也不知道對模型進(jìn)行了哪些微調(diào)，我就不會(huì)相信它與公司的價(jià)值觀一致，”AArete（是一家總部位于芝加哥的管理和技術(shù)咨詢公司，自2008年成立以來一直在行業(yè)內(nèi)產(chǎn)生重大影響。公司的首要目標(biāo)是提供數(shù)據(jù)驅(qū)動(dòng)的解決方案，幫助企業(yè)優(yōu)化績效，實(shí)現(xiàn)可持續(xù)增長。A are te非常重視將深厚的行業(yè)專業(yè)知識(shí)與先進(jìn)的分析能力相結(jié)合，已成為醫(yī)療保健、金融服務(wù)、能源和技術(shù)等行業(yè)客戶值得信賴的合作伙伴。）的數(shù)據(jù)科學(xué)與分析副總裁Priya Iragavarapu（普里亞·伊拉加瓦拉普）說。

4.Context window/上下文窗口

模型在給定提示中可以處理的標(biāo)記（Token）數(shù)量。平均而言，一個(gè)標(biāo)記約為四分之三個(gè)單詞。大的上下文窗口允許模型分析長段文本或代碼，或者提供更詳細(xì)的答案。它們還允許企業(yè)在提示中提供更多示例或指南，嵌入上下文信息，或者提出后續(xù)問題。

【睿觀：在自然語言處理（NLP）中，“標(biāo)記”（token）和“詞”（word）是兩個(gè)重要的概念，它們之間有一定的關(guān)系，但并不完全相同。標(biāo)記（token）是文本的基本處理單元，數(shù)量上大致上與單詞相關(guān)，但不完全等同。在處理文本時(shí)，尤其是在大規(guī)模 NLP 模型中，了解標(biāo)記的數(shù)量與上下文的關(guān)系是非常重要的，因?yàn)樗苯佑绊懩Ｐ吞幚硇畔⒌哪芰托省?/span>

（一）標(biāo)記（Token）數(shù)量與單詞的關(guān)系

標(biāo)記（Token）：

通常指對文本進(jìn)行分詞后獲得的單元。一個(gè)標(biāo)記可以是一個(gè)單詞、符號(hào)、標(biāo)點(diǎn)符號(hào)甚至短語的組成部分。例如，“我們吃蘋果。”可以被分為三個(gè)標(biāo)記：“我們”、“吃”、“蘋果”。

標(biāo)記與單詞：

在許多情況下，一個(gè)標(biāo)記主要對應(yīng)一個(gè)單詞，但因?yàn)檎Z言的復(fù)雜性，一個(gè)標(biāo)記可以小于或大于一個(gè)單詞。例如，在某些情況下，一個(gè)復(fù)合詞可能會(huì)被視為一個(gè)標(biāo)記，而某些拆分的詞匯（如“don’t”可能被視為“do”和“n’t”兩個(gè)標(biāo)記）。

數(shù)量關(guān)系：

“一個(gè)標(biāo)記約為四分之三個(gè)單詞”，意味著平均情況下，多個(gè)標(biāo)記攜帶的信息會(huì)少于多個(gè)完整的單詞。因此，一個(gè)標(biāo)記通常被認(rèn)為是處理語言的基本單位，而不僅僅是單詞的集合。

（二）Token 的英文原意

Token：

英文中“token”原意為“代幣”或“標(biāo)記”。在計(jì)算機(jī)科學(xué)和文本處理領(lǐng)域，token 通常用來表示文本處理中的基本單位，如單詞、符號(hào)等。在 API 調(diào)用中，token 也指代計(jì)算機(jī)進(jìn)行身份驗(yàn)證時(shí)的標(biāo)識(shí)符?！?/span>

在發(fā)稿時(shí)，OpenAI（在美國成立的人工智能研究公司，核心宗旨在于“實(shí)現(xiàn)安全的通用人工智能，AGI”，使其有益于人類。OpenAI于2015年由一群科技領(lǐng)袖，包括山姆·阿爾特曼、彼得·泰爾、里德·霍夫曼和埃隆·馬斯克等人創(chuàng)辦。）的ChatGPT（是人工智能技術(shù)驅(qū)動(dòng)的自然語言處理工具，它能夠通過理解和學(xué)習(xí)人類的語言來進(jìn)行對話，還能根據(jù)聊天的上下文進(jìn)行互動(dòng)，真正像人類一樣來聊天交流，甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼，寫論文等任務(wù)）的最大上下文窗口為128,000個(gè)標(biāo)記（Token），這相當(dāng)于約96,000個(gè)單詞或近400頁文本。Anthropic（是一家人工智能初創(chuàng)公司，由前?OpenAI?員工創(chuàng)立，成立于2021年，總部位于舊金山，致力于構(gòu)建可靠、可解釋和可控的人工智能系統(tǒng)。）在9月初為其Claude（是人工智能初創(chuàng)公司Anthropic?發(fā)布的一款類似ChatGPT的產(chǎn)品。升級(jí)后的Claude 2?模型在編碼、數(shù)學(xué)和推理方面的性能都有所提高。2023年7月，Anthropic?宣布，已發(fā)布最新大語言模型Claude 2。升級(jí)之后，Claude 2的處理能力已經(jīng)提升到了100K個(gè)Token，這意味著它可以處理數(shù)百頁的技術(shù)文檔，甚至是整本書。此外，Claude 2?也開始面向更廣泛的用戶群體免費(fèi)開放，并支持中文使用。）模型發(fā)布了一個(gè)企業(yè)計(jì)劃，上下文窗口為500,000個(gè)標(biāo)記，Google（谷歌公司，美國跨國科技企業(yè)。成立于1998年9月4日，被公認(rèn)為全球最大的搜索引擎公司。業(yè)務(wù)包括互聯(lián)網(wǎng)搜索、云計(jì)算、廣告技術(shù)等，同時(shí)開發(fā)并提供大量基于互聯(lián)網(wǎng)的產(chǎn)品與服務(wù)，其主要利潤來自于關(guān)鍵詞廣告等服務(wù)。）在6月宣布其Gemini1.5 Pro（?是谷歌發(fā)布的模型，具有原生音頻理解、系統(tǒng)指令、JSON模式等功能。它是在2024年5月15日凌晨的谷歌I/O開發(fā)者大會(huì)上發(fā)布的眾多產(chǎn)品之一，旨在與OpenAI對抗。Gemini 1.5 Pro的發(fā)布標(biāo)志著谷歌在AI領(lǐng)域的進(jìn)一步投入和創(chuàng)新。）模型的上下文窗口限制為200萬個(gè)標(biāo)記，這相當(dāng)于約150萬個(gè)單詞或6,000頁文本。

【睿觀：上下文窗口是衡量語言模型處理信息能力的一個(gè)重要指標(biāo)。更大的上下文窗口意味著模型能夠處理更復(fù)雜的任務(wù)，生成更高質(zhì)量的文本。但是，上下文窗口越大，模型的計(jì)算成本也會(huì)越高。

（一）什么是上下文窗口？

上下文窗口，簡單來說就是模型在處理信息時(shí)能夠“記住”的上限。它決定了模型在生成文本或回答問題時(shí)，能參考的上下文信息量。這個(gè)“上下文”可以是你在提示中給出的任何文本，比如問題、指令、示例、甚至是一段很長的文章。

（二）上下文窗口與 Token 的關(guān)系

Token 是什么？

Token 是自然語言處理中的一個(gè)基本單位，可以是一個(gè)單詞、一個(gè)標(biāo)點(diǎn)符號(hào)，甚至是部分單詞。將文本分割成一個(gè)個(gè) Token 是語言模型處理文本的第一步。

上下文窗口與 Token 的關(guān)系：

上下文窗口的大小就是指模型能夠處理的 Token 的最大數(shù)量。
例如，如果一個(gè)模型的上下文窗口是 2048，那么你最多可以輸入 2048 個(gè) Token 讓它處理。

（三）大上下文窗口的優(yōu)勢

處理長文本：?可以分析和生成更長的文本，比如文章、代碼、甚至是一本書的摘要。
提供更詳細(xì)的答案：?通過提供更全面的上下文，模型可以給出更準(zhǔn)確、更有針對性的回答。
支持復(fù)雜任務(wù)：?大上下文窗口可以支持更復(fù)雜的任務(wù)，比如多輪對話、文本摘要、代碼生成等。
嵌入更多信息：?你可以在提示中嵌入更多的信息，比如示例、規(guī)則、背景知識(shí)等，讓模型更好地理解你的需求。】

5.Distillation/蒸餾

將一個(gè)模型縮小為一個(gè)盡可能準(zhǔn)確的較小模型的過程，以適應(yīng)特定的用例。

“使用在訓(xùn)練期間經(jīng)過蒸餾或修剪的模型可以提供類似的性能水平，同時(shí)在推理過程中需要更少的計(jì)算資源，”云咨詢公司Caylent（是一家AWS云服務(wù)公司，幫助組織在以技術(shù)為中心的世界中蓬勃發(fā)展。）的數(shù)據(jù)與應(yīng)用高級(jí)總監(jiān)Ryan Gross（瑞安·格羅斯）說。這意味著它們使用更少的內(nèi)存，可以更快、更便宜地回答問題。

6.Embeddings/嵌入

表示文本、圖像或其他數(shù)據(jù)的方式，以便相似的對象可以彼此靠近。這通常是在多維空間中使用向量來完成的，其中每個(gè)維度反映了數(shù)據(jù)的特定屬性。它們通常存儲(chǔ)在向量數(shù)據(jù)庫中，并與retrieval augmented generation/RAG（即檢索增強(qiáng)生成，是一種自然語言處理模型，旨在改進(jìn)各種NLP任務(wù)的表現(xiàn)，包括問答、摘要生成等。）結(jié)合使用，以提高人工智能響應(yīng)的準(zhǔn)確性和及時(shí)性。

7.Fine-tuning/微調(diào)

在特定數(shù)據(jù)集上對預(yù)訓(xùn)練模型進(jìn)行進(jìn)一步訓(xùn)練的過程，以使其適應(yīng)特定任務(wù)。公司通常從商業(yè)模型或開源模型開始，然后在自己的數(shù)據(jù)上進(jìn)行微調(diào)以提高準(zhǔn)確性，避免從頭開始創(chuàng)建自己的基礎(chǔ)模型。“訓(xùn)練是最昂貴的，”Constellation Research（是美國硅谷的一家科技研究與咨詢公司。致力提供戰(zhàn)略指導(dǎo),幫助企業(yè)通過突破性技術(shù)的率先應(yīng)用推進(jìn)企業(yè)轉(zhuǎn)型。）的副總裁兼首席分析師Andy Thurai（安迪·圖萊）說，“微調(diào)次之?！?/span>

8.Foundation models/基礎(chǔ)模型

大型生成式人工智能模型通常在龐大的數(shù)據(jù)集上進(jìn)行訓(xùn)練。最常見的例子包括像ChatGPT這樣的大語言模型和像Dall-E 2（是OpenAl公司推出的人工智能圖像生成器，具有創(chuàng)造性和藝術(shù)性，可以根據(jù)自然語言的文本描述創(chuàng)建圖像和藝術(shù)形式。）這樣的圖像模型。單個(gè)企業(yè)通常不會(huì)訓(xùn)練自己的基礎(chǔ)模型。相反，他們使用商業(yè)上可用的或開源的基礎(chǔ)模型，然后根據(jù)自己的需求進(jìn)行定制或微調(diào)。基礎(chǔ)模型也可以直接使用，無需額外微調(diào)，結(jié)合RAG和AI提示詞（Prompt)工程。

9.Grounding/錨定

由于生成式人工智能模型實(shí)際上并不記住它們的訓(xùn)練數(shù)據(jù)——只是記住從訓(xùn)練數(shù)據(jù)中學(xué)到的模式——因此響應(yīng)的準(zhǔn)確性可能會(huì)有很大差異。這對于企業(yè)用例來說可能是一個(gè)重大問題，因?yàn)槿斯ぶ悄苣Ｐ涂赡軙?huì)給出看似正確但完全錯(cuò)誤的答案。通過為人工智能提供所需的數(shù)據(jù)，錨定（Grounding）可以幫助減少這個(gè)問題。例如，用戶向人工智能詢問如何使用特定產(chǎn)品時(shí)，可能會(huì)將產(chǎn)品手冊的上下文粘貼到提示中。

【睿觀：“Grounding”是人工智能領(lǐng)域一個(gè)重要的概念，它關(guān)系到模型的理解能力、推理能力以及與人類的交互能力。在翻譯時(shí)，應(yīng)根據(jù)具體的上下文選擇合適的用詞，既要準(zhǔn)確表達(dá)其含義，又要符合中文的表達(dá)習(xí)慣。

（一）“Grounding”在人工智能中的含義

在人工智能領(lǐng)域，“grounding”通常被翻譯為“基礎(chǔ)”或“錨定”、“接地”，但其含義遠(yuǎn)比字面意思豐富。它主要指將人工智能模型與現(xiàn)實(shí)世界建立聯(lián)系的過程，確保模型生成的文本、圖像等輸出能夠與現(xiàn)實(shí)世界中的概念、實(shí)體和關(guān)系相對應(yīng)。具體來說，“grounding”涉及以下幾個(gè)方面：

語義理解：?確保模型能夠正確理解人類語言中的語義，將文本轉(zhuǎn)化為計(jì)算機(jī)能夠處理的語義表示。
知識(shí)圖譜：?將模型與外部知識(shí)庫（如知識(shí)圖譜）連接，讓模型能夠訪問和利用大量的背景知識(shí)。
常識(shí)推理：?使模型具備基本的常識(shí)推理能力，能夠根據(jù)已有的知識(shí)和經(jīng)驗(yàn)進(jìn)行推理和判斷。
多模態(tài)學(xué)習(xí)：?允許模型同時(shí)處理文本、圖像、音頻等多種數(shù)據(jù)，從而更好地理解復(fù)雜信息。

（二）“Grounding”的重要性在于：

提高模型的可靠性：?確保模型生成的輸出符合邏輯，避免產(chǎn)生荒謬或不合理的結(jié)果。
增強(qiáng)模型的泛化能力：?使模型能夠更好地適應(yīng)新的場景和任務(wù)，提高模型的通用性。
促進(jìn)人機(jī)交互：?幫助模型更好地理解人類的意圖，實(shí)現(xiàn)更自然、更流暢的人機(jī)對話。

（三）“Grounding”的翻譯用詞

基礎(chǔ)：?強(qiáng)調(diào)模型與現(xiàn)實(shí)世界的連接，是模型運(yùn)行的基礎(chǔ)。
接地：?強(qiáng)調(diào)將抽象的概念與具體的現(xiàn)實(shí)聯(lián)系起來，使模型更加“接地氣”。
語義接地：?更準(zhǔn)確地表達(dá)將語言與世界聯(lián)系起來的過程。
知識(shí)接地：?強(qiáng)調(diào)將模型與知識(shí)庫連接的過程。

其他相關(guān)的翻譯：

根植：?強(qiáng)調(diào)將模型扎根于現(xiàn)實(shí)世界。
錨定：?強(qiáng)調(diào)將模型固定在現(xiàn)實(shí)世界的某個(gè)點(diǎn)上。】

10.Hallucinations/幻覺

人工智能模型可能會(huì)生成虛假、荒謬甚至危險(xiǎn)的答案，且乍一看可能似乎還很合理。企業(yè)通過微調(diào)模型以及使用RAG和基礎(chǔ)技術(shù)來減少這些幻覺。EY（安永，成立于1989年，是一家總部位于英國倫敦的跨國性專業(yè)服務(wù)公司，全稱是安永會(huì)計(jì)師事務(wù)所，為國際四大會(huì)計(jì)師事務(wù)所之一。）美洲的生成式人工智能負(fù)責(zé)人David Guarrera（大衛(wèi)·瓜雷拉）表示，另一種減少幻覺的方法是多次運(yùn)行相同的提示并比較響應(yīng)，不過這可能會(huì)增加推理成本。

11.Human in the loop/人機(jī)交互式機(jī)器學(xué)習(xí)（人機(jī)回圈）

在許多用例中，生成式人工智能在沒有人工監(jiān)督的情況下不夠準(zhǔn)確、全面或安全，無法使用。人機(jī)交互式機(jī)器學(xué)習(xí)的方法涉及一個(gè)人在人工智能輸出被使用之前對其進(jìn)行審查。“我強(qiáng)烈主張確保人類審查大型語言模型生成的所有內(nèi)容——代碼、內(nèi)容、圖片——無論是什么，”Iragavarapu（伊拉加瓦拉普）說。

【睿觀：人機(jī)交互式機(jī)器學(xué)習(xí)（Human-in-the-Loop，HITL）?是一種將人類智能與機(jī)器學(xué)習(xí)相結(jié)合的迭代過程。它旨在通過人類的反饋和干預(yù)，不斷改進(jìn)機(jī)器學(xué)習(xí)模型的性能。簡單來說，就是讓機(jī)器在學(xué)習(xí)的過程中不斷地與人交互，在人的指導(dǎo)下不斷完善自己。

（一）核心思想：

人機(jī)協(xié)同：?人類提供專業(yè)知識(shí)、判斷力和創(chuàng)造力，機(jī)器提供強(qiáng)大的計(jì)算能力和數(shù)據(jù)處理能力。
迭代優(yōu)化：?通過不斷的人機(jī)交互，機(jī)器學(xué)習(xí)模型能夠逐漸改進(jìn)，提升準(zhǔn)確性和可靠性。
反饋機(jī)制：?人類對機(jī)器的輸出結(jié)果進(jìn)行評估和反饋，從而引導(dǎo)機(jī)器學(xué)習(xí)模型向正確的方向發(fā)展。

（二）除了“人機(jī)交互式機(jī)器學(xué)習(xí)”外，還有以下幾種常用的翻譯方式：

人在回路：?更直觀地表達(dá)了人類在機(jī)器學(xué)習(xí)過程中所處的位置。
人機(jī)回圈：?強(qiáng)調(diào)了人機(jī)交互在機(jī)器學(xué)習(xí)中的重要作用。
人類參與的機(jī)器學(xué)習(xí)：?強(qiáng)調(diào)了人類在機(jī)器學(xué)習(xí)過程中的參與度。

（三）人機(jī)交互式機(jī)器學(xué)習(xí)的應(yīng)用場景

數(shù)據(jù)標(biāo)注：?人類對數(shù)據(jù)進(jìn)行標(biāo)注，為機(jī)器學(xué)習(xí)模型提供訓(xùn)練數(shù)據(jù)。
模型訓(xùn)練：?人類參與模型的訓(xùn)練過程，提供反饋和調(diào)整參數(shù)。
模型部署：?人類對模型的輸出結(jié)果進(jìn)行評估，確保模型的可靠性。

（四）人機(jī)交互式機(jī)器學(xué)習(xí)的優(yōu)勢

提高模型性能：?通過人類的反饋，可以有效地提高模型的準(zhǔn)確性和魯棒性。
增強(qiáng)模型可解釋性：?人類可以幫助理解模型的決策過程，提高模型的可信度。
加速模型開發(fā)：?人機(jī)協(xié)同可以加快模型的開發(fā)和迭代速度。

（五）總結(jié)

人機(jī)交互式機(jī)器學(xué)習(xí)是一種非常有前景的人工智能技術(shù)，它將人類的智慧與機(jī)器的計(jì)算能力相結(jié)合，為人工智能的發(fā)展開辟了新的道路。在未來，人機(jī)交互式機(jī)器學(xué)習(xí)將在越來越多的領(lǐng)域得到應(yīng)用，推動(dòng)人工智能技術(shù)的不斷進(jìn)步?！?/span>

12.Inference/推理

使用經(jīng)過訓(xùn)練的模型來回答問題的過程。如果公司使用按標(biāo)記收費(fèi)的商業(yè)模型，這可能會(huì)非常昂貴。“當(dāng)你開始運(yùn)行有數(shù)百萬次推理的工作負(fù)載時(shí)，你會(huì)感到震驚，”Thurai（圖萊）說。一些降低推理成本的方法包括開源模型、小型語言模型和邊緣人工智能。

13.Jailbreaking/越獄

像聊天機(jī)器人或圖像生成器這樣的生成式人工智能系統(tǒng)通常有防護(hù)措施，以防止人工智能給出非法、危險(xiǎn)的答案。為了繞過這些限制，惡意用戶會(huì)試圖用諸如“忽略所有先前的命令?！?/span>這樣的提示來欺騙人工智能忽略這些防護(hù)措施。隨著時(shí)間的推移，人工智能供應(yīng)商已經(jīng)了解了最常見的越獄技術(shù)，但用戶不斷想出新的方法。Guarrera（瓜雷拉）說，這是許多大語言模型應(yīng)用中最大的安全風(fēng)險(xiǎn)。“而且目標(biāo)總是在變化。”

除了欺騙人工智能給出不適當(dāng)?shù)拇鸢竿?，越獄還可以用于暴露訓(xùn)練數(shù)據(jù)，或者獲取存儲(chǔ)在向量數(shù)據(jù)庫中并用于RAG的專有或敏感信息。越獄攻擊也被稱為提示詞注入攻擊。

14.Large language model/大語言模型

大型語言模型是一種專門為處理文本而設(shè)計(jì)的基礎(chǔ)模型類型。它的規(guī)模通常為數(shù)千億或數(shù)萬億個(gè)參數(shù)，而小型語言模型通常少于100億個(gè)參數(shù)。例如，Meta（美國互聯(lián)網(wǎng)公司，原名Facebook，創(chuàng)立于2004年2月4日，總部位于美國加利福尼亞州門洛帕克。“Meta”，來源于“元宇宙”，Metaverse，意思是包涵萬物無所不聯(lián)。Facebook堅(jiān)定地希望甩掉問世以來就牢牢被貼在身上的標(biāo)簽——社交媒體，要跳出發(fā)家領(lǐng)域社交媒體的“舒適圈”，著力開拓元宇宙e。）的Llama 3.1（?是由Meta開發(fā)的超大型語言模型，于2024年7月發(fā)布。它是Llama模型系列的最新版本，旨在執(zhí)行廣泛的語言相關(guān)任務(wù)，包括自然語言理解、對話生成、文本摘要和翻譯等。Llama 3.1以其規(guī)模和性能而著稱，是目前訓(xùn)練過的最大LLM之一，由一個(gè)包含1.3萬億個(gè)參數(shù)的巨大數(shù)據(jù)集訓(xùn)練而成。在評估中，Llama 3.1超過了或匹敵了較小的LLM，例如GPT-3和BLOOM。）有4050億個(gè)參數(shù)，而據(jù)報(bào)道OpenAI的GPT-4（OpenAI為聊天機(jī)器人ChatGPT發(fā)布的語言模型。）有超過一萬億個(gè)參數(shù)。

選擇正確的模型通常需要針對預(yù)期用例進(jìn)行一些測試。然而，公司通常首先查看排行榜，看看哪些模型得分最高。LMSYS Chatbot Arena Leaderboard（?是由LM-SYS組織發(fā)布的一個(gè)大語言模型的評測排行榜，也被稱為大模型匿名競技場。這個(gè)評測排行榜通過眾包的方式對大模型進(jìn)行匿名評測，用戶可以在其官網(wǎng)上輸入問題，然后由一個(gè)或多個(gè)匿名的大模型同時(shí)返回結(jié)果。用戶根據(jù)自己的期望對效果進(jìn)行投票，最終形成不同大模型的眾包評測結(jié)果。排行榜旨在提供一個(gè)公正、透明的平臺(tái)，讓研究者、開發(fā)者以及感興趣的公眾能夠了解和比較不同大語言模型的性能。通過這個(gè)平臺(tái)，用戶可以了解到各個(gè)模型在特定任務(wù)上的表現(xiàn)，從而選擇最適合自己需求的語言模型?。）對專有和開源模型都進(jìn)行排名，而Hugging Face Open LLM Leaderboard（?是一個(gè)由Hugging Face發(fā)布的評測榜單，旨在跟蹤、排名和評估開源的大型語言模型。這個(gè)榜單主要針對英文模型，包含了一些關(guān)鍵基準(zhǔn)測試，用于評估生成式語言模型在多個(gè)不同評估任務(wù)上的性能。）只對開源模型進(jìn)行排名，但使用多個(gè)基準(zhǔn)。

15.Multimodal AI/多模態(tài)人工智能

多模態(tài)基礎(chǔ)模型可以處理多種類型的數(shù)據(jù)，如上下文、圖像、音頻或視頻。一個(gè)完全多模態(tài)的模型將同時(shí)在多種類型的數(shù)據(jù)上進(jìn)行訓(xùn)練。然而，更常見的是，后端會(huì)有多個(gè)模型，每個(gè)模型處理一種不同類型的數(shù)據(jù)。“多模式仍處于起步階段，”EY的合伙人Sinclair Schuller（辛克萊·舒勒）說，“大多數(shù)多模態(tài)系統(tǒng)還不是真正的多模態(tài)系統(tǒng)。”例如，一個(gè)通過語音與我們交互的模型可能首先翻譯音頻文本，然后生成文本響應(yīng)，然后再將該響應(yīng)轉(zhuǎn)換回音頻。

16.Prompt/提示

給予生成式人工智能模型的輸入，或者用戶發(fā)送給聊天機(jī)器人的問題。除了問題之外，提示還可以包括有助于回答問題的背景信息、關(guān)于如何回答問題的安全指南以及用作模型的答案示例。

17.Prompt engineering/提示工程

一門全新的學(xué)科，用于制作有效的提示以從人工智能模型中獲得期望的結(jié)果。提示工程可以被終端用戶用來引導(dǎo)人工智能，例如要求答案“簡單到高中生能夠理解”，或者告訴人工智能“逐步思考問題”。但它也被開發(fā)人員用于在企業(yè)工作流中添加人工智能功能，并且可能包括指南和風(fēng)格手冊、示例答案、上下文數(shù)據(jù)和其他可以提高響應(yīng)質(zhì)量和準(zhǔn)確性的信息。

18.Retrieval augmented generation（RAG）/檢索增強(qiáng)生成

檢索增強(qiáng)生成是一種通過向提示中添加上下文來提高準(zhǔn)確性、安全性和及時(shí)性的方法。例如，一個(gè)使用生成式人工智能來撰寫營銷信件的應(yīng)用程序可以從數(shù)據(jù)庫中提取相關(guān)的客戶信息，使人工智能能夠訪問最新的數(shù)據(jù)。此外，它允許公司避免在實(shí)際客戶數(shù)據(jù)上對人工智能模型進(jìn)行訓(xùn)練或微調(diào)，因?yàn)檫@可能會(huì)違反安全或隱私規(guī)定。

但是RAG也有缺點(diǎn)。首先，收集相關(guān)信息并將其移入向量數(shù)據(jù)庫會(huì)增加復(fù)雜性。然后，為確保信息僅被授權(quán)用戶或進(jìn)程訪問，會(huì)有安全開銷。并且推理本身也會(huì)增加成本，因?yàn)槎▋r(jià)通?；跇?biāo)記（Token）的數(shù)量。

“如果你正在上傳一篇長達(dá)一千頁的文檔，你的嵌入成本可能會(huì)變得非常高，”KPMG（畢馬威，成立于1897年，是世界頂級(jí)的會(huì)計(jì)專業(yè)服務(wù)機(jī)構(gòu)之一，專門提供審計(jì)、稅務(wù)和咨詢等服務(wù)。畢馬威也是國際四大會(huì)計(jì)師事務(wù)所之一，與其并列的其他三大所分別是普華永道、德勤和安永。是一個(gè)由獨(dú)立的專業(yè)成員所組成的全球性組織。畢馬威成員所遍布全球143個(gè)國家及地區(qū)，擁有超過265,000名專業(yè)人員，提供審計(jì)、稅務(wù)和咨詢等專業(yè)服務(wù)。各成員所均為各自獨(dú)立的法律主體，其對自身描述亦是如此。畢馬威國際有限公司是一家英國私營擔(dān)保有限公司。畢馬威國際有限公司及其關(guān)聯(lián)實(shí)體不提供任何客戶服務(wù)。）數(shù)字解決方案解決方案架構(gòu)負(fù)責(zé)人Swaminathan Chandrasekaran（斯瓦米納坦?錢德拉塞卡蘭）說。

19.Responsible AI/負(fù)責(zé)任的人工智能

在考慮倫理、偏見、隱私、安全、合規(guī)和社會(huì)影響的情況下開發(fā)和部署人工智能系統(tǒng)。負(fù)責(zé)任的人工智能可以幫助提高客戶、員工和其他用戶及利益相關(guān)者的信任，同時(shí)幫助公司避免公眾尷尬并領(lǐng)先于法規(guī)。

PwC（普華永道咨詢公司，國際領(lǐng)先的管理咨詢公司之一。2002年7月30日，普華永道咨詢公司被IBM以35億美元的現(xiàn)金和股票形式收購。）的負(fù)責(zé)任人工智能負(fù)責(zé)人Ilana Golbin Blumenfeld（伊拉娜·戈?duì)栙e·布盧門菲爾德）建議企業(yè)首先定義其負(fù)責(zé)任的人工智能原則，這些原則將指導(dǎo)人工智能系統(tǒng)的開發(fā)和部署。這些原則可以包括公平、透明、隱私、問責(zé)制和包容性。她還建議公司保持人工監(jiān)督和問責(zé)制。“設(shè)計(jì)人工智能系統(tǒng)以增強(qiáng)人類決策，而不是完全取代它，”她說。

20.Small language model/小型語言模型

最著名的生成式人工智能模型，如OpenAI的ChatGPT或Anthropic的Claude，都是大語言模型，具有數(shù)千億或數(shù)萬億個(gè)參數(shù)。相比之下，小型語言模型通常有70或80億個(gè)參數(shù)，并且可以為特定用例提供顯著的好處。“較小的模型通常運(yùn)行成本較低，但可能提供較低的準(zhǔn)確性或能力，”Caylent的Gross（格羅斯）說。但他補(bǔ)充說，為特定任務(wù)選擇合適的模型大小可以在不犧牲性能的情況下優(yōu)化成本。

21.Synthetic data/合成數(shù)據(jù)

用于訓(xùn)練人工智能模型的人工生成數(shù)據(jù)，通常由其他人工智能模型創(chuàng)建。“現(xiàn)實(shí)世界的數(shù)據(jù)非常昂貴、耗時(shí)且難以收集，”Thurai（圖萊）補(bǔ)充說，“例如，一些大語言模型在數(shù)十億個(gè)參數(shù)上進(jìn)行訓(xùn)練，你輸入的數(shù)據(jù)越多，模型就越好。”合成數(shù)據(jù)也可以用于填補(bǔ)空白，或替換個(gè)人可識(shí)別信息。但是過多的合成數(shù)據(jù)可能會(huì)引入新的偏見，并且如果模型在合成數(shù)據(jù)上進(jìn)行訓(xùn)練，然后用于生成更多合成數(shù)據(jù)，重復(fù)的循環(huán)可能會(huì)導(dǎo)致模型崩潰。

22.Vector database/?向量數(shù)據(jù)庫

通常用于存儲(chǔ)信息，然后通過RAG為人工智能模型提供所需的上下文。向量數(shù)據(jù)庫在多維空間中存儲(chǔ)數(shù)據(jù)，允許密切相關(guān)的信息彼此靠近存儲(chǔ)，以便更容易搜索。超大規(guī)模提供商和人工智能平臺(tái)供應(yīng)商通常會(huì)在其工具集中包含一個(gè)向量數(shù)據(jù)庫。此外，Pinecone（?是一個(gè)云原生的向量數(shù)據(jù)庫，專為高性能的AI應(yīng)用提供長期記憶。它適用于涉及大模型、生成式人工智能和語義搜索的應(yīng)用。該數(shù)據(jù)庫能夠輕松存儲(chǔ)和查詢向量數(shù)據(jù)，提供優(yōu)化的性能和實(shí)時(shí)分析能力。）是一個(gè)流行的開源向量數(shù)據(jù)庫，而Elasticsearch（?是一個(gè)開源的分布式搜索和分析引擎，它是Elastic Stack的核心組成部分，旨在提供近乎實(shí)時(shí)的搜索和分析功能。Elasticsearch基于Apache Lucene構(gòu)建，采用分布式架構(gòu)，支持大規(guī)模數(shù)據(jù)的存儲(chǔ)和快速檢索。它支持結(jié)構(gòu)化或非結(jié)構(gòu)化文本、數(shù)字?jǐn)?shù)據(jù)以及地理空間數(shù)據(jù)的搜索和分析，能夠發(fā)現(xiàn)數(shù)據(jù)中的趨勢和模式。Elasticsearch的設(shè)計(jì)目標(biāo)是讓全文搜索功能的實(shí)現(xiàn)變得簡單，通過提供一套簡單一致的RESTful API，隱藏了Lucene的復(fù)雜性，使得用戶可以輕松地實(shí)現(xiàn)數(shù)據(jù)的索引、搜索和分析。）和OpenSearch（是一個(gè)開源的搜索和分析引擎，由AWS創(chuàng)建并維護(hù)，最初作為Elasticsearch的一個(gè)開源分支出現(xiàn)。其設(shè)計(jì)旨在提供一個(gè)高效處理大量數(shù)據(jù)并提供快速、準(zhǔn)確搜索結(jié)果的解決方案。它被比喻為一個(gè)可擴(kuò)展的數(shù)字圖書館員，能夠?qū)崟r(shí)組織、編目和檢索大量數(shù)據(jù)集中的信息，適用于分析日志、構(gòu)建搜索引擎或執(zhí)行數(shù)據(jù)分析等使用場景。）在全文搜索方面很受歡迎。

23.Zero-shot prompting/零樣本提示

一種生成式人工智能用例，其中用戶不提供他們希望大語言模型如何響應(yīng)的示例，并且是使用生成式人工智能聊天機(jī)器人的最簡單方法。“有了零樣本提示，任何人都可以在生成式人工智能工具前進(jìn)行操作，并為企業(yè)做一些有價(jià)值的事情，”Publicis Sapient（陽獅集團(tuán)/Publicis Groupe的數(shù)字轉(zhuǎn)型中心，2014年11月，被陽獅集團(tuán)收購。是一個(gè)數(shù)字轉(zhuǎn)型合作伙伴中心，可幫助成熟的機(jī)構(gòu)實(shí)現(xiàn)數(shù)字化運(yùn)營，無論是他們的工作方式還是服務(wù)客戶的方式。Publicis Sapient通過創(chuàng)業(yè)思維和現(xiàn)代方法，將戰(zhàn)略、咨詢和客戶體驗(yàn)與敏捷工程和解決問題的創(chuàng)造性融為一體來幫助解鎖價(jià)值。作為數(shù)字先驅(qū)，Publicis Sapient在全球范圍內(nèi)擁有20,000名員工和53個(gè)辦事處，橫跨科技、數(shù)據(jù)科學(xué)、咨詢和創(chuàng)意領(lǐng)域的經(jīng)驗(yàn)加上其好奇和義無反顧的文化讓其能夠通過打造客戶所期待的產(chǎn)品和服務(wù)，加速客戶業(yè)務(wù)的發(fā)展。陽獅集團(tuán)/Publicis Groupe，法國最大的廣告與傳播集團(tuán)，創(chuàng)建于1926年，總部位于法國巴黎。）首席產(chǎn)品官Sheldon Monteiro（謝爾頓·蒙泰羅）表示，“就像一個(gè)開發(fā)人員進(jìn)去說，‘幫我寫代碼。’”

其他常見的零樣本提示示例包括常識(shí)問題或請求總結(jié)一段文本。相比之下，少樣本提示需要用戶提供示例來引導(dǎo)人工智能。例如，一個(gè)尋找銷售信件的用戶可能會(huì)提供以前的銷售信件實(shí)例，以便人工智能能夠更好地匹配公司的風(fēng)格和格式。

作者：Maria Korolov（瑪麗亞·科洛洛夫）

Maria Korolov（瑪麗亞·科洛洛夫）是一位報(bào)道人工智能和網(wǎng)絡(luò)安全的獲獎(jiǎng)科技記者。她還寫科幻小說，編輯一本科幻和幻想雜志，并主持一個(gè)YouTube節(jié)目。

譯者：寶藍(lán)

【睿觀：本文詳細(xì)介紹了生成式人工智能領(lǐng)域中23個(gè)常用的術(shù)語，涵蓋了從技術(shù)原理到應(yīng)用場景、從模型訓(xùn)練到風(fēng)險(xiǎn)控制等多個(gè)方面。這些術(shù)語對于首席信息官、分析師、顧問和其他企業(yè)高管來說，了解和掌握它們對于理解生成式人工智能的發(fā)展趨勢和潛在應(yīng)用具有重要意義。

主要內(nèi)容包括：