av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线

你好,歡迎您來到福建信息主管(CIO)網(wǎng)! 設(shè)為首頁|加入收藏|會(huì)員中心
您現(xiàn)在的位置:>> 新聞資訊 >>
成為首席人工智能官(CAIO)要掌握23個(gè)關(guān)鍵生成人工智能術(shù)語及含義
作者:CIO.com睿觀 來源:CIOCDO 發(fā)布時(shí)間:2024年09月27日 點(diǎn)擊數(shù):

從代理系統(tǒng)到零樣本提示,生成人工智能可以感覺像一種新的語言。以下是首席信息官成為首席人工智能官需要知道的術(shù)語。


圖源:Shutterstock / monticello

正如生成式人工智能突然出現(xiàn)在人們的視野中一樣,隨之而來的新語言也是如此。與人工智能相關(guān)的詞匯完整列表可能會(huì)有數(shù)千個(gè)條目,但為了緊急相關(guān)性,以下是在首席信息官、分析師、顧問和其他企業(yè)高管中最常聽到的術(shù)語。


1.Agentic systems/智能體系統(tǒng)

智能體是一種能夠自主決策或行動(dòng)的人工智能模型或軟件程序。當(dāng)多個(gè)智能體為了追求一個(gè)單一目標(biāo)而共同工作時(shí),它們可以進(jìn)行計(jì)劃、委派、研究和執(zhí)行任務(wù),直到目標(biāo)實(shí)現(xiàn)。當(dāng)其中一些或所有智能體由生成式人工智能驅(qū)動(dòng)時(shí),結(jié)果可能會(huì)大大超過簡單的提示和響應(yīng)方法所能達(dá)到的效果。然而,由生成式人工智能驅(qū)動(dòng)的智能體系統(tǒng)相對較新,企業(yè)可能很難構(gòu)建自己的系統(tǒng),更難確保這些系統(tǒng)的安全性。

智能體和人工智能顯然是風(fēng)險(xiǎn)投資家和初創(chuàng)企業(yè)大量投資的一個(gè)領(lǐng)域,Gartner(高德納,Gartner Group公司成立于1979年,它是第一家信息技術(shù)研究和分析的公司。它為有需要的技術(shù)用戶來提供專門的服務(wù)。Gartner已經(jīng)成為了一家獨(dú)立的咨詢公司,Gartner公司的服務(wù)主要是迎合中型公司的需要,它希望使自己的業(yè)務(wù)覆蓋到IT行業(yè)的所有領(lǐng)域,從而讓自己成為每一位用戶的一站式信息技術(shù)服務(wù)公司。分析師Arun Chandrasekaran(阿倫?錢德拉塞卡蘭)表示,“我們可能會(huì)在?2025?年看到更多的智能體框架發(fā)展和成熟。

2.Alignment/對齊

人工智能對齊指的是模型被訓(xùn)練以堅(jiān)持的一系列價(jià)值觀,如安全性或禮貌性。但并非所有公司都有相同的價(jià)值觀,也并非所有的人工智能供應(yīng)商都明確說明他們在其平臺(tái)中構(gòu)建了哪些價(jià)值觀。

“這是一個(gè)問題,而且不容易解決,”Globant(是一家全球性的技術(shù)服務(wù)提供商,專注于為客戶提供數(shù)字化解決方案和企業(yè)技術(shù)服務(wù)。公司提供的數(shù)字解決方案包括區(qū)塊鏈、云技術(shù)、網(wǎng)絡(luò)安全、數(shù)據(jù)與人工智能、數(shù)字體驗(yàn)與性能、編程、物聯(lián)網(wǎng)、元宇宙以及工程和測試等領(lǐng)域。此外,Globant?還提供電子商務(wù)、會(huì)話接口、設(shè)計(jì)、數(shù)字營銷和數(shù)字產(chǎn)品交付服務(wù)。的數(shù)據(jù)科學(xué)和人工智能負(fù)責(zé)人JJ Lopez MurphyJJ·洛佩茲·墨菲)說,“如果模型經(jīng)過大量訓(xùn)練與你的利益相悖,那么你通過提示詞能做的事情是有限的。

3.Black box/黑箱

一種內(nèi)部機(jī)制不清晰、內(nèi)部過程被隱藏的模型,使得很難判斷該模型是如何得出答案的。這對于當(dāng)今的企業(yè)來說是一個(gè)重大問題,尤其是對于商業(yè)模型。

如果我不知道該模型是基于什么數(shù)據(jù)進(jìn)行訓(xùn)練的,也不知道對模型進(jìn)行了哪些微調(diào),我就不會(huì)相信它與公司的價(jià)值觀一致,”AArete(是一家總部位于芝加哥的管理和技術(shù)咨詢公司,自2008年成立以來一直在行業(yè)內(nèi)產(chǎn)生重大影響。公司的首要目標(biāo)是提供數(shù)據(jù)驅(qū)動(dòng)的解決方案,幫助企業(yè)優(yōu)化績效,實(shí)現(xiàn)可持續(xù)增長。A are te非常重視將深厚的行業(yè)專業(yè)知識(shí)與先進(jìn)的分析能力相結(jié)合,已成為醫(yī)療保健、金融服務(wù)、能源和技術(shù)等行業(yè)客戶值得信賴的合作伙伴。的數(shù)據(jù)科學(xué)與分析副總裁Priya Iragavarapu(普里亞·伊拉加瓦拉普)說。

4.Context window/上下文窗口

模型在給定提示中可以處理的標(biāo)記(Token)數(shù)量。平均而言,一個(gè)標(biāo)記約為四分之三個(gè)單詞。大的上下文窗口允許模型分析長段文本或代碼,或者提供更詳細(xì)的答案。它們還允許企業(yè)在提示中提供更多示例或指南,嵌入上下文信息,或者提出后續(xù)問題。

【睿觀:在自然語言處理(NLP)中,“標(biāo)記”(token)和“詞”(word)是兩個(gè)重要的概念,它們之間有一定的關(guān)系,但并不完全相同。標(biāo)記(token)是文本的基本處理單元,數(shù)量上大致上與單詞相關(guān),但不完全等同。在處理文本時(shí),尤其是在大規(guī)模 NLP 模型中,了解標(biāo)記的數(shù)量與上下文的關(guān)系是非常重要的,因?yàn)樗苯佑绊懩P吞幚硇畔⒌哪芰托省?/span>

(一)標(biāo)記(Token)數(shù)量與單詞的關(guān)系

  1. 標(biāo)記(Token):

    • 通常指對文本進(jìn)行分詞后獲得的單元。一個(gè)標(biāo)記可以是一個(gè)單詞、符號(hào)、標(biāo)點(diǎn)符號(hào)甚至短語的組成部分。例如,“我們吃蘋果。”可以被分為三個(gè)標(biāo)記:“我們”、“吃”、“蘋果”。

  2. 標(biāo)記與單詞:

    • 在許多情況下,一個(gè)標(biāo)記主要對應(yīng)一個(gè)單詞,但因?yàn)檎Z言的復(fù)雜性,一個(gè)標(biāo)記可以小于或大于一個(gè)單詞。例如,在某些情況下,一個(gè)復(fù)合詞可能會(huì)被視為一個(gè)標(biāo)記,而某些拆分的詞匯(如“don’t”可能被視為“do”和“n’t”兩個(gè)標(biāo)記)。

  3. 數(shù)量關(guān)系:

    • “一個(gè)標(biāo)記約為四分之三個(gè)單詞”,意味著平均情況下,多個(gè)標(biāo)記攜帶的信息會(huì)少于多個(gè)完整的單詞。因此,一個(gè)標(biāo)記通常被認(rèn)為是處理語言的基本單位,而不僅僅是單詞的集合。

(二)Token 的英文原意

  • Token:

    • 英文中“token”原意為“代幣”或“標(biāo)記”。在計(jì)算機(jī)科學(xué)和文本處理領(lǐng)域,token 通常用來表示文本處理中的基本單位,如單詞、符號(hào)等。在 API 調(diào)用中,token 也指代計(jì)算機(jī)進(jìn)行身份驗(yàn)證時(shí)的標(biāo)識(shí)符?!?/span>

在發(fā)稿時(shí),OpenAI(在美國成立的人工智能研究公司,核心宗旨在于實(shí)現(xiàn)安全的通用人工智能,AGI”,使其有益于人類。OpenAI2015年由一群科技領(lǐng)袖,包括山姆·阿爾特曼、彼得·泰爾、里德·霍夫曼和埃隆·馬斯克等人創(chuàng)辦。)ChatGPT是人工智能技術(shù)驅(qū)動(dòng)的自然語言處理工具,它能夠通過理解和學(xué)習(xí)人類的語言來進(jìn)行對話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務(wù))的最大上下文窗口為128,000個(gè)標(biāo)記(Token),這相當(dāng)于約96,000個(gè)單詞或近400頁文本。Anthropic(是一家人工智能初創(chuàng)公司,由前?OpenAI?員工創(chuàng)立,成立于2021年,總部位于舊金山,致力于構(gòu)建可靠、可解釋和可控的人工智能系統(tǒng)。9月初為其Claude(是人工智能初創(chuàng)公司Anthropic?發(fā)布的一款類似ChatGPT的產(chǎn)品。升級(jí)后的Claude 2?模型在編碼、數(shù)學(xué)和推理方面的性能都有所提高。20237月,Anthropic?宣布,已發(fā)布最新大語言模型Claude 2。升級(jí)之后,Claude 2的處理能力已經(jīng)提升到了100K個(gè)Token,這意味著它可以處理數(shù)百頁的技術(shù)文檔,甚至是整本書。此外,Claude 2?也開始面向更廣泛的用戶群體免費(fèi)開放,并支持中文使用。)模型發(fā)布了一個(gè)企業(yè)計(jì)劃,上下文窗口為500,000個(gè)標(biāo)記,Google(谷歌公司,美國跨國科技企業(yè)。成立于199894日,被公認(rèn)為全球最大的搜索引擎公司。業(yè)務(wù)包括互聯(lián)網(wǎng)搜索、云計(jì)算、廣告技術(shù)等,同時(shí)開發(fā)并提供大量基于互聯(lián)網(wǎng)的產(chǎn)品與服務(wù),其主要利潤來自于關(guān)鍵詞廣告等服務(wù)。6月宣布其Gemini1.5 Pro(?是谷歌發(fā)布的模型,具有原生音頻理解、系統(tǒng)指令、JSON模式等功能。它是在2024515日凌晨的谷歌I/O開發(fā)者大會(huì)上發(fā)布的眾多產(chǎn)品之一,旨在與OpenAI對抗。Gemini 1.5 Pro的發(fā)布標(biāo)志著谷歌在AI領(lǐng)域的進(jìn)一步投入和創(chuàng)新。模型的上下文窗口限制為200萬個(gè)標(biāo)記,這相當(dāng)于約150萬個(gè)單詞或6,000頁文本。

【睿觀:上下文窗口是衡量語言模型處理信息能力的一個(gè)重要指標(biāo)。更大的上下文窗口意味著模型能夠處理更復(fù)雜的任務(wù),生成更高質(zhì)量的文本。但是,上下文窗口越大,模型的計(jì)算成本也會(huì)越高。

(一)什么是上下文窗口?

上下文窗口,簡單來說就是模型在處理信息時(shí)能夠“記住”的上限。它決定了模型在生成文本或回答問題時(shí),能參考的上下文信息量。這個(gè)“上下文”可以是你在提示中給出的任何文本,比如問題、指令、示例、甚至是一段很長的文章。

(二)上下文窗口與 Token 的關(guān)系

  • Token 是什么?

    • Token 是自然語言處理中的一個(gè)基本單位,可以是一個(gè)單詞、一個(gè)標(biāo)點(diǎn)符號(hào),甚至是部分單詞。將文本分割成一個(gè)個(gè) Token 是語言模型處理文本的第一步。

  • 上下文窗口與 Token 的關(guān)系:

    • 上下文窗口的大小就是指模型能夠處理的 Token 的最大數(shù)量。

    • 例如,如果一個(gè)模型的上下文窗口是 2048,那么你最多可以輸入 2048 個(gè) Token 讓它處理。

(三)大上下文窗口的優(yōu)勢

  • 處理長文本:?可以分析和生成更長的文本,比如文章、代碼、甚至是一本書的摘要。

  • 提供更詳細(xì)的答案:?通過提供更全面的上下文,模型可以給出更準(zhǔn)確、更有針對性的回答。

  • 支持復(fù)雜任務(wù):?大上下文窗口可以支持更復(fù)雜的任務(wù),比如多輪對話、文本摘要、代碼生成等。

  • 嵌入更多信息:?你可以在提示中嵌入更多的信息,比如示例、規(guī)則、背景知識(shí)等,讓模型更好地理解你的需求。


5.Distillation/蒸餾

將一個(gè)模型縮小為一個(gè)盡可能準(zhǔn)確的較小模型的過程,以適應(yīng)特定的用例。

“使用在訓(xùn)練期間經(jīng)過蒸餾或修剪的模型可以提供類似的性能水平,同時(shí)在推理過程中需要更少的計(jì)算資源,”云咨詢公司Caylent(是一家AWS云服務(wù)公司,幫助組織在以技術(shù)為中心的世界中蓬勃發(fā)展。)的數(shù)據(jù)與應(yīng)用高級(jí)總監(jiān)Ryan Gross(瑞安·格羅斯)說。這意味著它們使用更少的內(nèi)存,可以更快、更便宜地回答問題。

6.Embeddings/嵌入

表示文本、圖像或其他數(shù)據(jù)的方式,以便相似的對象可以彼此靠近。這通常是在多維空間中使用向量來完成的,其中每個(gè)維度反映了數(shù)據(jù)的特定屬性。它們通常存儲(chǔ)在向量數(shù)據(jù)庫中,并與retrieval augmented generation/RAG(即檢索增強(qiáng)生成,是一種自然語言處理模型,旨在改進(jìn)各種NLP任務(wù)的表現(xiàn),包括問答、摘要生成等。)結(jié)合使用,以提高人工智能響應(yīng)的準(zhǔn)確性和及時(shí)性。

7.Fine-tuning/微調(diào)

在特定數(shù)據(jù)集上對預(yù)訓(xùn)練模型進(jìn)行進(jìn)一步訓(xùn)練的過程,以使其適應(yīng)特定任務(wù)。公司通常從商業(yè)模型或開源模型開始,然后在自己的數(shù)據(jù)上進(jìn)行微調(diào)以提高準(zhǔn)確性,避免從頭開始創(chuàng)建自己的基礎(chǔ)模型。訓(xùn)練是最昂貴的,Constellation Research(是美國硅谷的一家科技研究與咨詢公司。致力提供戰(zhàn)略指導(dǎo),幫助企業(yè)通過突破性技術(shù)的率先應(yīng)用推進(jìn)企業(yè)轉(zhuǎn)型。)的副總裁兼首席分析師Andy Thurai(安迪·圖萊)說,“微調(diào)次之?!?/span>

8.Foundation models/基礎(chǔ)模型

大型生成式人工智能模型通常在龐大的數(shù)據(jù)集上進(jìn)行訓(xùn)練。最常見的例子包括像ChatGPT這樣的大語言模型和像Dall-E 2(是OpenAl公司推出的人工智能圖像生成器,具有創(chuàng)造性和藝術(shù)性,可以根據(jù)自然語言的文本描述創(chuàng)建圖像和藝術(shù)形式。)這樣的圖像模型。單個(gè)企業(yè)通常不會(huì)訓(xùn)練自己的基礎(chǔ)模型。相反,他們使用商業(yè)上可用的或開源的基礎(chǔ)模型,然后根據(jù)自己的需求進(jìn)行定制或微調(diào)。基礎(chǔ)模型也可以直接使用,無需額外微調(diào),結(jié)合RAG和AI提示詞(Prompt)工程。

9.Grounding/錨定

由于生成式人工智能模型實(shí)際上并不記住它們的訓(xùn)練數(shù)據(jù)——只是記住從訓(xùn)練數(shù)據(jù)中學(xué)到的模式——因此響應(yīng)的準(zhǔn)確性可能會(huì)有很大差異。這對于企業(yè)用例來說可能是一個(gè)重大問題,因?yàn)槿斯ぶ悄苣P涂赡軙?huì)給出看似正確但完全錯(cuò)誤的答案。通過為人工智能提供所需的數(shù)據(jù),錨定(Grounding)可以幫助減少這個(gè)問題。例如,用戶向人工智能詢問如何使用特定產(chǎn)品時(shí),可能會(huì)將產(chǎn)品手冊的上下文粘貼到提示中。

【睿觀:“Grounding”是人工智能領(lǐng)域一個(gè)重要的概念,它關(guān)系到模型的理解能力、推理能力以及與人類的交互能力。在翻譯時(shí),應(yīng)根據(jù)具體的上下文選擇合適的用詞,既要準(zhǔn)確表達(dá)其含義,又要符合中文的表達(dá)習(xí)慣。

(一)“Grounding”在人工智能中的含義

在人工智能領(lǐng)域,“grounding”通常被翻譯為“基礎(chǔ)”或“錨定”、“接地”,但其含義遠(yuǎn)比字面意思豐富。它主要指將人工智能模型與現(xiàn)實(shí)世界建立聯(lián)系的過程,確保模型生成的文本、圖像等輸出能夠與現(xiàn)實(shí)世界中的概念、實(shí)體和關(guān)系相對應(yīng)。具體來說,“grounding”涉及以下幾個(gè)方面:

  • 語義理解:?確保模型能夠正確理解人類語言中的語義,將文本轉(zhuǎn)化為計(jì)算機(jī)能夠處理的語義表示。

  • 知識(shí)圖譜:?將模型與外部知識(shí)庫(如知識(shí)圖譜)連接,讓模型能夠訪問和利用大量的背景知識(shí)。

  • 常識(shí)推理:?使模型具備基本的常識(shí)推理能力,能夠根據(jù)已有的知識(shí)和經(jīng)驗(yàn)進(jìn)行推理和判斷。

  • 多模態(tài)學(xué)習(xí):?允許模型同時(shí)處理文本、圖像、音頻等多種數(shù)據(jù),從而更好地理解復(fù)雜信息。


(二)“Grounding”的重要性在于:

  • 提高模型的可靠性:?確保模型生成的輸出符合邏輯,避免產(chǎn)生荒謬或不合理的結(jié)果。

  • 增強(qiáng)模型的泛化能力:?使模型能夠更好地適應(yīng)新的場景和任務(wù),提高模型的通用性。

  • 促進(jìn)人機(jī)交互:?幫助模型更好地理解人類的意圖,實(shí)現(xiàn)更自然、更流暢的人機(jī)對話。

(三)“Grounding”的翻譯用詞

  • 基礎(chǔ):?強(qiáng)調(diào)模型與現(xiàn)實(shí)世界的連接,是模型運(yùn)行的基礎(chǔ)。

  • 接地:?強(qiáng)調(diào)將抽象的概念與具體的現(xiàn)實(shí)聯(lián)系起來,使模型更加“接地氣”。

  • 語義接地:?更準(zhǔn)確地表達(dá)將語言與世界聯(lián)系起來的過程。

  • 知識(shí)接地:?強(qiáng)調(diào)將模型與知識(shí)庫連接的過程。

其他相關(guān)的翻譯:

  • 根植:?強(qiáng)調(diào)將模型扎根于現(xiàn)實(shí)世界。

  • 錨定:?強(qiáng)調(diào)將模型固定在現(xiàn)實(shí)世界的某個(gè)點(diǎn)上。


10.Hallucinations/幻覺

人工智能模型可能會(huì)生成虛假、荒謬甚至危險(xiǎn)的答案,乍一看可能似乎還很合理。企業(yè)通過微調(diào)模型以及使用RAG和基礎(chǔ)技術(shù)來減少這些幻覺。EY(安永,成立于1989年,是一家總部位于英國倫敦的跨國性專業(yè)服務(wù)公司,全稱是安永會(huì)計(jì)師事務(wù)所,為國際四大會(huì)計(jì)師事務(wù)所之一。)美洲的生成式人工智能負(fù)責(zé)人David Guarrera大衛(wèi)·瓜雷拉表示,另一種減少幻覺的方法是多次運(yùn)行相同的提示并比較響應(yīng),不過這可能會(huì)增加推理成本。

11.Human in the loop/人機(jī)交互式機(jī)器學(xué)習(xí)(人機(jī)回圈)

在許多用例中,生成式人工智能在沒有人工監(jiān)督的情況下不夠準(zhǔn)確、全面或安全,無法使用。人機(jī)交互式機(jī)器學(xué)習(xí)的方法涉及一個(gè)人在人工智能輸出被使用之前對其進(jìn)行審查。我強(qiáng)烈主張確保人類審查大型語言模型生成的所有內(nèi)容——代碼、內(nèi)容、圖片——無論是什么,Iragavarapu(伊拉加瓦拉普)說。

【睿觀:人機(jī)交互式機(jī)器學(xué)習(xí)(Human-in-the-Loop,HITL)?是一種將人類智能與機(jī)器學(xué)習(xí)相結(jié)合的迭代過程。它旨在通過人類的反饋和干預(yù),不斷改進(jìn)機(jī)器學(xué)習(xí)模型的性能。簡單來說,就是讓機(jī)器在學(xué)習(xí)的過程中不斷地與人交互,在人的指導(dǎo)下不斷完善自己。

(一)核心思想:

  • 人機(jī)協(xié)同:?人類提供專業(yè)知識(shí)、判斷力和創(chuàng)造力,機(jī)器提供強(qiáng)大的計(jì)算能力和數(shù)據(jù)處理能力。

  • 迭代優(yōu)化:?通過不斷的人機(jī)交互,機(jī)器學(xué)習(xí)模型能夠逐漸改進(jìn),提升準(zhǔn)確性和可靠性。

  • 反饋機(jī)制:?人類對機(jī)器的輸出結(jié)果進(jìn)行評估和反饋,從而引導(dǎo)機(jī)器學(xué)習(xí)模型向正確的方向發(fā)展。

(二)除了“人機(jī)交互式機(jī)器學(xué)習(xí)”外,還有以下幾種常用的翻譯方式:

  • 人在回路:?更直觀地表達(dá)了人類在機(jī)器學(xué)習(xí)過程中所處的位置。

  • 人機(jī)回圈:?強(qiáng)調(diào)了人機(jī)交互在機(jī)器學(xué)習(xí)中的重要作用。

  • 人類參與的機(jī)器學(xué)習(xí):?強(qiáng)調(diào)了人類在機(jī)器學(xué)習(xí)過程中的參與度。

(三)人機(jī)交互式機(jī)器學(xué)習(xí)的應(yīng)用場景

  • 數(shù)據(jù)標(biāo)注:?人類對數(shù)據(jù)進(jìn)行標(biāo)注,為機(jī)器學(xué)習(xí)模型提供訓(xùn)練數(shù)據(jù)。

  • 模型訓(xùn)練:?人類參與模型的訓(xùn)練過程,提供反饋和調(diào)整參數(shù)。

  • 模型部署:?人類對模型的輸出結(jié)果進(jìn)行評估,確保模型的可靠性。

(四)人機(jī)交互式機(jī)器學(xué)習(xí)的優(yōu)勢

  • 提高模型性能:?通過人類的反饋,可以有效地提高模型的準(zhǔn)確性和魯棒性。

  • 增強(qiáng)模型可解釋性:?人類可以幫助理解模型的決策過程,提高模型的可信度。

  • 加速模型開發(fā):?人機(jī)協(xié)同可以加快模型的開發(fā)和迭代速度。

(五)總結(jié)

人機(jī)交互式機(jī)器學(xué)習(xí)是一種非常有前景的人工智能技術(shù),它將人類的智慧與機(jī)器的計(jì)算能力相結(jié)合,為人工智能的發(fā)展開辟了新的道路。在未來,人機(jī)交互式機(jī)器學(xué)習(xí)將在越來越多的領(lǐng)域得到應(yīng)用,推動(dòng)人工智能技術(shù)的不斷進(jìn)步?!?/span>

12.Inference/推理

使用經(jīng)過訓(xùn)練的模型來回答問題的過程。如果公司使用按標(biāo)記收費(fèi)的商業(yè)模型,這可能會(huì)非常昂貴。當(dāng)你開始運(yùn)行有數(shù)百萬次推理的工作負(fù)載時(shí),你會(huì)感到震驚,Thurai(圖萊)說。一些降低推理成本的方法包括開源模型、小型語言模型和邊緣人工智能。

13.Jailbreaking/越獄

像聊天機(jī)器人或圖像生成器這樣的生成式人工智能系統(tǒng)通常有防護(hù)措施,以防止人工智能給出非法、危險(xiǎn)的答案。為了繞過這些限制,惡意用戶會(huì)試圖用諸如忽略所有先前的命令?!?/span>這樣的提示來欺騙人工智能忽略這些防護(hù)措施。隨著時(shí)間的推移,人工智能供應(yīng)商已經(jīng)了解了最常見的越獄技術(shù),但用戶不斷想出新的方法。Guarrera瓜雷拉說,這是許多大語言模型應(yīng)用中最大的安全風(fēng)險(xiǎn)。而且目標(biāo)總是在變化。

除了欺騙人工智能給出不適當(dāng)?shù)拇鸢竿?,越獄還可以用于暴露訓(xùn)練數(shù)據(jù),或者獲取存儲(chǔ)在向量數(shù)據(jù)庫中并用于RAG的專有或敏感信息。越獄攻擊也被稱為提示詞注入攻擊。

14.Large language model/大語言模型

大型語言模型是一種專門為處理文本而設(shè)計(jì)的基礎(chǔ)模型類型。它的規(guī)模通常為數(shù)千億或數(shù)萬億個(gè)參數(shù),而小型語言模型通常少于100億個(gè)參數(shù)。例如,Meta(美國互聯(lián)網(wǎng)公司,原名Facebook,創(chuàng)立于200424日,總部位于美國加利福尼亞州門洛帕克。“Meta”,來源于元宇宙Metaverse,意思是包涵萬物無所不聯(lián)。Facebook堅(jiān)定地希望甩掉問世以來就牢牢被貼在身上的標(biāo)簽——社交媒體,要跳出發(fā)家領(lǐng)域社交媒體的舒適圈,著力開拓元宇宙e。)Llama 3.1(?是由Meta開發(fā)的超大型語言模型,于20247月發(fā)布。它是Llama模型系列的最新版本,旨在執(zhí)行廣泛的語言相關(guān)任務(wù),包括自然語言理解、對話生成、文本摘要和翻譯等。Llama 3.1以其規(guī)模和性能而著稱,是目前訓(xùn)練過的最大LLM之一,由一個(gè)包含1.3萬億個(gè)參數(shù)的巨大數(shù)據(jù)集訓(xùn)練而成。在評估中,Llama 3.1超過了或匹敵了較小的LLM,例如GPT-3BLOOM。)4050億個(gè)參數(shù),而據(jù)報(bào)道OpenAIGPT-4OpenAI為聊天機(jī)器人ChatGPT發(fā)布的語言模型。有超過一萬億個(gè)參數(shù)。

選擇正確的模型通常需要針對預(yù)期用例進(jìn)行一些測試。然而,公司通常首先查看排行榜,看看哪些模型得分最高。LMSYS Chatbot Arena Leaderboard(?是由LM-SYS組織發(fā)布的一個(gè)大語言模型的評測排行榜,也被稱為大模型匿名競技場。這個(gè)評測排行榜通過眾包的方式對大模型進(jìn)行匿名評測,用戶可以在其官網(wǎng)上輸入問題,然后由一個(gè)或多個(gè)匿名的大模型同時(shí)返回結(jié)果。用戶根據(jù)自己的期望對效果進(jìn)行投票,最終形成不同大模型的眾包評測結(jié)果。排行榜旨在提供一個(gè)公正、透明的平臺(tái),讓研究者、開發(fā)者以及感興趣的公眾能夠了解和比較不同大語言模型的性能。通過這個(gè)平臺(tái),用戶可以了解到各個(gè)模型在特定任務(wù)上的表現(xiàn),從而選擇最適合自己需求的語言模型?。對專有和開源模型都進(jìn)行排名,Hugging Face Open LLM Leaderboard(?是一個(gè)由Hugging Face發(fā)布的評測榜單,旨在跟蹤、排名和評估開源的大型語言模型。這個(gè)榜單主要針對英文模型,包含了一些關(guān)鍵基準(zhǔn)測試,用于評估生成式語言模型在多個(gè)不同評估任務(wù)上的性能。)只對開源模型進(jìn)行排名,但使用多個(gè)基準(zhǔn)。

15.Multimodal AI/多模態(tài)人工智能

多模態(tài)基礎(chǔ)模型可以處理多種類型的數(shù)據(jù),如上下文、圖像、音頻或視頻。一個(gè)完全多模態(tài)的模型將同時(shí)在多種類型的數(shù)據(jù)上進(jìn)行訓(xùn)練。然而,更常見的是,后端會(huì)有多個(gè)模型,每個(gè)模型處理一種不同類型的數(shù)據(jù)。多模式仍處于起步階段,EY的合伙人Sinclair Schuller辛克萊·舒勒說,“大多數(shù)多模態(tài)系統(tǒng)還不是真正的多模態(tài)系統(tǒng)。例如,一個(gè)通過語音與我們交互的模型可能首先翻譯音頻文本,然后生成文本響應(yīng),然后再將該響應(yīng)轉(zhuǎn)換回音頻。

16.Prompt/提示

給予生成式人工智能模型的輸入,或者用戶發(fā)送給聊天機(jī)器人的問題。除了問題之外,提示還可以包括有助于回答問題的背景信息、關(guān)于如何回答問題的安全指南以及用作模型的答案示例。

17.Prompt engineering/提示工程

一門全新的學(xué)科,用于制作有效的提示以從人工智能模型中獲得期望的結(jié)果。提示工程可以被終端用戶用來引導(dǎo)人工智能,例如要求答案簡單到高中生能夠理解,或者告訴人工智能逐步思考問題。但它也被開發(fā)人員用于在企業(yè)工作流中添加人工智能功能,并且可能包括指南和風(fēng)格手冊、示例答案、上下文數(shù)據(jù)和其他可以提高響應(yīng)質(zhì)量和準(zhǔn)確性的信息。

18.Retrieval augmented generationRAG/檢索增強(qiáng)生成

檢索增強(qiáng)生成是一種通過向提示中添加上下文來提高準(zhǔn)確性、安全性和及時(shí)性的方法。例如,一個(gè)使用生成式人工智能來撰寫營銷信件的應(yīng)用程序可以從數(shù)據(jù)庫中提取相關(guān)的客戶信息,使人工智能能夠訪問最新的數(shù)據(jù)。此外,它允許公司避免在實(shí)際客戶數(shù)據(jù)上對人工智能模型進(jìn)行訓(xùn)練或微調(diào),因?yàn)檫@可能會(huì)違反安全或隱私規(guī)定。

但是RAG也有缺點(diǎn)。首先,收集相關(guān)信息并將其移入向量數(shù)據(jù)庫會(huì)增加復(fù)雜性。然后,為確保信息僅被授權(quán)用戶或進(jìn)程訪問,會(huì)有安全開銷。并且推理本身也會(huì)增加成本,因?yàn)槎▋r(jià)通?;跇?biāo)記(Token)的數(shù)量。

如果你正在上傳一篇長達(dá)一千頁的文檔,你的嵌入成本可能會(huì)變得非常高,KPMG(畢馬威,成立于1897年,是世界頂級(jí)的會(huì)計(jì)專業(yè)服務(wù)機(jī)構(gòu)之一,專門提供審計(jì)、稅務(wù)和咨詢等服務(wù)。畢馬威也是國際四大會(huì)計(jì)師事務(wù)所之一,與其并列的其他三大所分別是普華永道、德勤和安永。是一個(gè)由獨(dú)立的專業(yè)成員所組成的全球性組織。畢馬威成員所遍布全球143個(gè)國家及地區(qū),擁有超過265,000名專業(yè)人員,提供審計(jì)、稅務(wù)和咨詢等專業(yè)服務(wù)。各成員所均為各自獨(dú)立的法律主體,其對自身描述亦是如此。畢馬威國際有限公司是一家英國私營擔(dān)保有限公司。畢馬威國際有限公司及其關(guān)聯(lián)實(shí)體不提供任何客戶服務(wù)。數(shù)字解決方案解決方案架構(gòu)負(fù)責(zé)人Swaminathan Chandrasekaran斯瓦米納坦?錢德拉塞卡蘭說。

19.Responsible AI/負(fù)責(zé)任的人工智能

在考慮倫理、偏見、隱私、安全、合規(guī)和社會(huì)影響的情況下開發(fā)和部署人工智能系統(tǒng)。負(fù)責(zé)任的人工智能可以幫助提高客戶、員工和其他用戶及利益相關(guān)者的信任,同時(shí)幫助公司避免公眾尷尬并領(lǐng)先于法規(guī)。

PwC(普華永道咨詢公司,國際領(lǐng)先的管理咨詢公司之一。2002730日,普華永道咨詢公司被IBM35億美元的現(xiàn)金和股票形式收購。)的負(fù)責(zé)任人工智能負(fù)責(zé)人Ilana Golbin Blumenfeld伊拉娜·戈?duì)栙e·布盧門菲爾德建議企業(yè)首先定義其負(fù)責(zé)任的人工智能原則,這些原則將指導(dǎo)人工智能系統(tǒng)的開發(fā)和部署。這些原則可以包括公平、透明、隱私、問責(zé)制和包容性。她還建議公司保持人工監(jiān)督和問責(zé)制。設(shè)計(jì)人工智能系統(tǒng)以增強(qiáng)人類決策,而不是完全取代它,她說。

20.Small language model/小型語言模型

最著名的生成式人工智能模型,如OpenAIChatGPTAnthropicClaude,都是大語言模型,具有數(shù)千億或數(shù)萬億個(gè)參數(shù)。相比之下,小型語言模型通常有7080億個(gè)參數(shù),并且可以為特定用例提供顯著的好處。較小的模型通常運(yùn)行成本較低,但可能提供較低的準(zhǔn)確性或能力,CaylentGross(格羅斯)說。但他補(bǔ)充說,為特定任務(wù)選擇合適的模型大小可以在不犧牲性能的情況下優(yōu)化成本。

21.Synthetic data/合成數(shù)據(jù)

用于訓(xùn)練人工智能模型的人工生成數(shù)據(jù),通常由其他人工智能模型創(chuàng)建。現(xiàn)實(shí)世界的數(shù)據(jù)非常昂貴、耗時(shí)且難以收集,Thurai(圖萊)補(bǔ)充說,“例如,一些大語言模型在數(shù)十億個(gè)參數(shù)上進(jìn)行訓(xùn)練,你輸入的數(shù)據(jù)越多,模型就越好。合成數(shù)據(jù)也可以用于填補(bǔ)空白,或替換個(gè)人可識(shí)別信息。但是過多的合成數(shù)據(jù)可能會(huì)引入新的偏見,并且如果模型在合成數(shù)據(jù)上進(jìn)行訓(xùn)練,然后用于生成更多合成數(shù)據(jù),重復(fù)的循環(huán)可能會(huì)導(dǎo)致模型崩潰。

22.Vector database/?向量數(shù)據(jù)庫

通常用于存儲(chǔ)信息,然后通過RAG為人工智能模型提供所需的上下文。向量數(shù)據(jù)庫在多維空間中存儲(chǔ)數(shù)據(jù),允許密切相關(guān)的信息彼此靠近存儲(chǔ),以便更容易搜索。超大規(guī)模提供商和人工智能平臺(tái)供應(yīng)商通常會(huì)在其工具集中包含一個(gè)向量數(shù)據(jù)庫。此外,Pinecone(?是一個(gè)云原生的向量數(shù)據(jù)庫,專為高性能的AI應(yīng)用提供長期記憶。它適用于涉及大模型、生成式人工智能和語義搜索的應(yīng)用。該數(shù)據(jù)庫能夠輕松存儲(chǔ)和查詢向量數(shù)據(jù),提供優(yōu)化的性能和實(shí)時(shí)分析能力。)是一個(gè)流行的開源向量數(shù)據(jù)庫,而Elasticsearch(?是一個(gè)開源的分布式搜索和分析引擎,它是Elastic Stack的核心組成部分,旨在提供近乎實(shí)時(shí)的搜索和分析功能。Elasticsearch基于Apache Lucene構(gòu)建,采用分布式架構(gòu),支持大規(guī)模數(shù)據(jù)的存儲(chǔ)和快速檢索。它支持結(jié)構(gòu)化或非結(jié)構(gòu)化文本、數(shù)字?jǐn)?shù)據(jù)以及地理空間數(shù)據(jù)的搜索和分析,能夠發(fā)現(xiàn)數(shù)據(jù)中的趨勢和模式。Elasticsearch的設(shè)計(jì)目標(biāo)是讓全文搜索功能的實(shí)現(xiàn)變得簡單,通過提供一套簡單一致的RESTful API,隱藏了Lucene的復(fù)雜性,使得用戶可以輕松地實(shí)現(xiàn)數(shù)據(jù)的索引、搜索和分析。)OpenSearch是一個(gè)開源的搜索和分析引擎,由AWS創(chuàng)建并維護(hù),最初作為Elasticsearch的一個(gè)開源分支出現(xiàn)。其設(shè)計(jì)旨在提供一個(gè)高效處理大量數(shù)據(jù)并提供快速、準(zhǔn)確搜索結(jié)果的解決方案。它被比喻為一個(gè)可擴(kuò)展的數(shù)字圖書館員,能夠?qū)崟r(shí)組織、編目和檢索大量數(shù)據(jù)集中的信息,適用于分析日志、構(gòu)建搜索引擎或執(zhí)行數(shù)據(jù)分析等使用場景。)在全文搜索方面很受歡迎。

23.Zero-shot prompting/零樣本提示

一種生成式人工智能用例,其中用戶不提供他們希望大語言模型如何響應(yīng)的示例,并且是使用生成式人工智能聊天機(jī)器人的最簡單方法。了零樣本提示,任何人都可以在生成式人工智能工具前進(jìn)行操作,并為企業(yè)做一些有價(jià)值的事情Publicis Sapient(陽獅集團(tuán)/Publicis Groupe的數(shù)字轉(zhuǎn)型中心,201411月,被陽獅集團(tuán)收購。是一個(gè)數(shù)字轉(zhuǎn)型合作伙伴中心,可幫助成熟的機(jī)構(gòu)實(shí)現(xiàn)數(shù)字化運(yùn)營,無論是他們的工作方式還是服務(wù)客戶的方式。Publicis Sapient通過創(chuàng)業(yè)思維和現(xiàn)代方法,將戰(zhàn)略、咨詢和客戶體驗(yàn)與敏捷工程和解決問題的創(chuàng)造性融為一體來幫助解鎖價(jià)值。作為數(shù)字先驅(qū),Publicis Sapient在全球范圍內(nèi)擁有20,000名員工和53個(gè)辦事處,橫跨科技、數(shù)據(jù)科學(xué)、咨詢和創(chuàng)意領(lǐng)域的經(jīng)驗(yàn)加上其好奇和義無反顧的文化讓其能夠通過打造客戶所期待的產(chǎn)品和服務(wù),加速客戶業(yè)務(wù)的發(fā)展。陽獅集團(tuán)/Publicis Groupe,法國最大的廣告與傳播集團(tuán),創(chuàng)建于1926年,總部位于法國巴黎。)首席產(chǎn)品官Sheldon Monteiro(謝爾頓·蒙泰羅)表示,“就像一個(gè)開發(fā)人員進(jìn)去說,幫我寫代碼。’”

其他常見的零樣本提示示例包括常識(shí)問題或請求總結(jié)一段文本。相比之下,少樣本提示需要用戶提供示例來引導(dǎo)人工智能。例如,一個(gè)尋找銷售信件的用戶可能會(huì)提供以前的銷售信件實(shí)例,以便人工智能能夠更好地匹配公司的風(fēng)格和格式。

作者:Maria Korolov(瑪麗亞·科洛洛夫)

Maria Korolov(瑪麗亞·科洛洛夫)是一位報(bào)道人工智能和網(wǎng)絡(luò)安全的獲獎(jiǎng)科技記者。她還寫科幻小說,編輯一本科幻和幻想雜志,并主持一個(gè)YouTube節(jié)目。

譯者:寶藍(lán)

【睿觀:本文詳細(xì)介紹了生成式人工智能領(lǐng)域中23個(gè)常用的術(shù)語,涵蓋了從技術(shù)原理到應(yīng)用場景、從模型訓(xùn)練到風(fēng)險(xiǎn)控制等多個(gè)方面。這些術(shù)語對于首席信息官、分析師、顧問和其他企業(yè)高管來說,了解和掌握它們對于理解生成式人工智能的發(fā)展趨勢和潛在應(yīng)用具有重要意義。

主要內(nèi)容包括:

  • 核心概念:?智能體系統(tǒng)、對齊、黑箱、上下文窗口、蒸餾、嵌入、微調(diào)等。

  • 模型類型:?基礎(chǔ)模型、大語言模型、小型語言模型、多模態(tài)人工智能。

  • 應(yīng)用技術(shù):?提示工程、檢索增強(qiáng)生成、人機(jī)交互式機(jī)器學(xué)習(xí)。

  • 風(fēng)險(xiǎn)與挑戰(zhàn):?幻覺、越獄、負(fù)責(zé)任的人工智能。

  • 輔助工具:?向量數(shù)據(jù)庫、合成數(shù)據(jù)。

這些術(shù)語對于企業(yè)來說具有以下重要意義:

  • 理解技術(shù):?了解這些術(shù)語有助于企業(yè)更好地理解生成式人工智能的工作原理,從而做出更明智的決策。

  • 評估風(fēng)險(xiǎn):?了解潛在的風(fēng)險(xiǎn),如幻覺和越獄,可以幫助企業(yè)采取相應(yīng)的安全措施。

  • 開發(fā)應(yīng)用:?掌握提示工程等技術(shù),可以幫助企業(yè)開發(fā)出更符合自身需求的生成式人工智能應(yīng)用。

  • 降低成本:?了解蒸餾、小型語言模型等技術(shù),可以幫助企業(yè)降低成本。】


会昌县| 水城县| 长治市| 句容市| 沾化县| 京山县| 万安县| 关岭| 宁远县| 延寿县| 隆安县| 莎车县| 瑞金市| 永嘉县| 凌云县| 贡觉县| 铅山县| 威信县| 海原县| 崇礼县| 泽州县| 福海县| 砚山县| 凭祥市| 利津县| 项城市| 莱芜市| 普陀区| 白水县| 高密市| 南皮县| 永昌县| 兰考县| 类乌齐县| 观塘区| 靖宇县| 塔河县| 德化县| 象山县| 兰西县| 睢宁县|