精品亚洲在线久久久久,精品日韩二区三区,五十路熟女AV片

知乎：大型語言模型簡介

作者：福建CIO網(wǎng) 來源：Will Talk 發(fā)布時間：2023年09月07日點(diǎn)擊數(shù)：

一、什么是大語言模型

由于ChatGPT的火爆把大語言模型這個新名詞推到了大眾的視野里。那么，什么是大語言模型? 什么是GPT？

WIKI百科對大語言模型是這樣解釋的。

大語言模型 (英語：large language model，LLM) 是一種語言模型，由具有許多參數(shù)（通常數(shù)十億個權(quán)重或更多）的神經(jīng)網(wǎng)絡(luò)組成，使用自監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)對大量未標(biāo)記文本進(jìn)行訓(xùn)練。大型語言模型在 2018 年左右出現(xiàn)，并在各種任務(wù)中表現(xiàn)出色。盡管這個術(shù)語沒有正式的定義，但它通常指的是參數(shù)數(shù)量在數(shù)十億或更多數(shù)量級的深度學(xué)習(xí)模型。大型語言模型是通用的模型，在廣泛的任務(wù)中表現(xiàn)出色，而不是針對一項(xiàng)特定任務(wù)。

翻譯成大白話就是在2018年開始陸續(xù)出現(xiàn)的一種技術(shù)(后續(xù)會解釋為啥是2018年才開始陸續(xù)出現(xiàn))，這種技術(shù)的特征一個是大，一個是有通用性。

那什么是GPT呢？WIKI百科的解釋是：

GPT（Generative pre-trained transformers 生成式預(yù)訓(xùn)練轉(zhuǎn)換模型）是一種大語言模型, 是生成式人工智能的重要框架。第一個 GPT 于 2018 年由美國人工智能 (AI) 公司 OpenAI 推出。 GPT 模型是基于 transformer 架構(gòu)的人工神經(jīng)網(wǎng)絡(luò)，在未標(biāo)記文本的大型數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，能夠生成新穎的類人內(nèi)容。?

簡單理解GPT其實(shí)是一種大語言模型技術(shù)的實(shí)現(xiàn)方案，由美國的OpenAI公司推出，重點(diǎn)是這個技術(shù)可以自動生成內(nèi)容(看上去像人類生成的，而非人工智障生成的)。

現(xiàn)在大火的ChatGPT也就是基于GPT實(shí)現(xiàn)的一個落地應(yīng)用。

ChatGPT界面

這個應(yīng)用唯一的功能就是聊天，你輸入對話，它回答。

但就是這個聊天的功能的應(yīng)用，卻引爆了整個科技行業(yè)乃至人類社會。被譽(yù)為新一代的工業(yè)革命。

因?yàn)榱奶爝@個功能似乎“無所不能”。比方說：

1、問問題：某個主題的基本知識、某個問題的答案

2、提供建議：根據(jù)您的需求給出相關(guān)的建議和指導(dǎo)，如健康、財務(wù)、職業(yè)等

3、語言翻譯：將語言翻譯成另一種語言

4、生成文章：生成符合您需求的文本

5、解題：理解題目，并給出解題過程和結(jié)果

6、寫代碼: 理解需求，產(chǎn)生一段計算機(jī)代碼

...

所以說唯一限制我們使用場景的就是我們的想象力。

二、大語言模型背后的技術(shù)

大語言模型具有以下幾個特征：

1、大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集。大語言模型通常在大型文本數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,這些數(shù)據(jù)集的大小可達(dá)10萬億詞。

2、神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種人工智能技術(shù)，用于教計算機(jī)以受人腦啟發(fā)的方式處理數(shù)據(jù)。這是一種機(jī)器學(xué)習(xí)過程，稱為深度學(xué)習(xí)，它使用類似于人腦的分層結(jié)構(gòu)中的互連節(jié)點(diǎn)或神經(jīng)元。它可以創(chuàng)建自適應(yīng)系統(tǒng)，計算機(jī)使用該系統(tǒng)來從錯誤中進(jìn)行學(xué)習(xí)并不斷改進(jìn)。

3、涌現(xiàn)能力。涌現(xiàn)使模型可以自動生成具有語言上下文和邏輯關(guān)系的連貫文本，這些文本在預(yù)訓(xùn)練時并沒有直接指定，而是通過模型自身的學(xué)習(xí)和推理得到的。涌現(xiàn)究竟是如何出現(xiàn)的，目前并沒有確切的答案，更多的猜測是當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模后，由于模型學(xué)習(xí)到了足夠多的樣本案例，逐漸出現(xiàn)的。

4、泛化能力（即通用能力）。由于模型在大規(guī)模文本數(shù)據(jù)上進(jìn)行訓(xùn)練，它們具有較強(qiáng)的泛化能力，能夠處理各種不同的任務(wù)和場景，如文本摘要、文本生成、機(jī)器翻譯、問答等。

因此，要開發(fā)一個強(qiáng)大的大語言模型，首先要面對解決的是收集大量的自然語言語料進(jìn)行訓(xùn)練。據(jù)相關(guān)資料顯示GPT-3訓(xùn)練的語料量就高達(dá)45TB。注意這是文本類型的語料，想想我們一純文本的電子書才多少KB。并且語料的來源應(yīng)該是也多樣化的，可以從公共數(shù)據(jù)看到一些大模型語言語料庫的來源占比。從GPT-3的模型可以看到其中64%的訓(xùn)練數(shù)據(jù)來源于網(wǎng)頁，17%的訓(xùn)練數(shù)據(jù)來源于代碼，13%的電子書，5%來源于對話數(shù)據(jù)。

(GPT-3的模型的訓(xùn)練數(shù)據(jù)來源)

除了自然語言語料外，大語言模型還需要選定一個適合的基礎(chǔ)架構(gòu)。Transformer 架構(gòu)已成為開發(fā)各大語言模型架構(gòu)的事實(shí)標(biāo)準(zhǔn)。在2017年，Google發(fā)表了一篇論文《Attention Is All You Need》，里面提到了一了self-attention 機(jī)制，其中就提出了大名鼎鼎的架構(gòu)Transformer 。這也就不難理解為啥2018年后陸陸續(xù)續(xù)大語言模型出來了。如果對《Attention Is All You Need》這篇paper感興趣的可以讀一讀原文https://arxiv.org/pdf/1706.03762.pdf。后續(xù)將會出個專門的篇章講解。

簡單理解，Transformer可以類比成一個具有魔法的機(jī)器，這個機(jī)器的作用是，讀取一段話，預(yù)測這段話的下一個字出現(xiàn)的概率，然后選擇最有可能性的字輸出。再把這個字加上前面這段話作為新的對話輸入，預(yù)測下一個字，循環(huán)往復(fù)，直到預(yù)測出終止符為出現(xiàn)概率最大的字為止。這些輸出的字一個一個拼接起來，就成為了該機(jī)器的回答。

比如我們問:“你是誰？”，機(jī)器接受到這個輸入以后，預(yù)測到下一個字是"我"的概率是99%，所以輸出"我"。然后機(jī)器自動把"你是誰？我"再輸入到機(jī)器中，預(yù)測出下個字是"是"的概率是95%，那么會輸出"是"。一直循環(huán)往復(fù)，直到預(yù)測到下一個字是"END"這個終止符的概率最大時終止這個流程。

問: 你是誰?

答: 我是ChatGPT，一個由OpenAI開發(fā)的語言模型。我可以回答各種問題、提供信息和進(jìn)行對話。有什么我可以幫助你的嗎？

僅僅是對于下一個字的預(yù)測真的有那么神奇的能力，能讓機(jī)器的輸出的結(jié)果滿足我們的預(yù)期？體驗(yàn)過ChatGPT的人都會驚訝于該產(chǎn)品的體驗(yàn)，仿佛機(jī)器真的有該魔法能力一般，或者說擁有"智能"一般。

所以這個魔法能力來自哪里？答案是OpenAI的人也說不清。于是就有了這么一個詞"Grokking"，中文翻譯成涌現(xiàn)能力。

當(dāng)模型到達(dá)一定規(guī)模的時候，似乎涌現(xiàn)能力使模型可以自動生成具有語言上下文和邏輯關(guān)系的連貫文本，這些文本在預(yù)訓(xùn)練時并沒有直接指定，而是通過模型自身的學(xué)習(xí)和推理得到的。涌現(xiàn)究竟是如何出現(xiàn)的，目前并沒有確切的答案，更多的猜測是當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模后，由于模型學(xué)習(xí)到了足夠多的樣本案例，逐漸出現(xiàn)的。直白一點(diǎn)也就是說量變引起了質(zhì)變。

這個量變可以說是代表了人類一直以來對于人工智能探索的曲折?？梢宰匪莸?950年，圖靈提出的著名的"圖靈測試"，給出判斷機(jī)器是否有智能的方法。從20世紀(jì)50年代至今，經(jīng)過無數(shù)的前期鋪墊和技術(shù)的演進(jìn)，我們看到最近幾年AI能力的"涌現(xiàn)", 而ChaGPT不過是新的序章的高潮部分而已。

三、國內(nèi)百花齊放

目前國內(nèi)在大語言模型方面可謂是百花齊放。

2023.02.20 復(fù)旦大學(xué)開放大語言模型MOSS

2023.03.15 智普AI開放大語言模型ChatGLM

2023.03.16 百度文心一言發(fā)布

2023.04.07 阿里巴巴通義千問發(fā)布

2023.04.09開放360智腦的內(nèi)測

2023.04.10日日新亮相

2023.05.06科大訊飛發(fā)布星火大模型

...

可以看到國內(nèi)有能力的廠商都在爭先恐后，不遑多讓。

國內(nèi)也有針對中文通用的測評。中文通用大模型基準(zhǔn)（SuperCLUE），是針對中文可用的通用大模型的一個測評基準(zhǔn)。SuperCLUE從三個不同的維度評價模型的能力：基礎(chǔ)能力、專業(yè)能力和中文特性能力。

基礎(chǔ)能力:包括了常見的有代表性的模型能力，如語義理解、對話、邏輯推理、角色模擬、代碼、生成與創(chuàng)作等10項(xiàng)能力。

專業(yè)能力:包括了中學(xué)、大學(xué)與專業(yè)考試，涵蓋了從數(shù)學(xué)、物理、地理到社會科學(xué)等50多項(xiàng)能力。

中文特性能力:針對有中文特點(diǎn)的任務(wù)，包括了中文成語、詩歌、文學(xué)、字形等10項(xiàng)多種能力。

SuperCLUE測評

測評的項(xiàng)目地址：https://github.com/CLUEbenchmark/SuperCLUE。

與此同時國內(nèi)開源模型這塊也有類似ChatGLM-6B這樣可玩度非常高的模型，家用級顯卡就能跑模型。并且由此衍生出較多的開源項(xiàng)目

基于ChatGLM-6B開源項(xiàng)目

項(xiàng)目地址：https://github.com/THUDM/ChatGLM-6B

四、發(fā)展趨勢

1、多模態(tài)

多模態(tài)是指利用來自不同模態(tài)的輸入數(shù)據(jù)（例如視覺、音頻、文本等）來改進(jìn)學(xué)習(xí)和推理。例如，一個多模態(tài)模型可能會同時考慮圖片（視覺模態(tài)）和文本（文本模態(tài)）來進(jìn)行決策或預(yù)測。

VisualGLM-6B項(xiàng)目的多模態(tài)

OpenAI在發(fā)布GPT-4的時候，曾演示了只需要用手稿畫的設(shè)計圖就能讓GPT生成網(wǎng)站代碼的能力。雖然目前還沒開放相關(guān)入口。但是可以從國內(nèi)模型比如科大訊飛星火模型，可以輸入語言已經(jīng)部分開源模型，比如VisualGLM-6B窺探出一二。后續(xù)多模態(tài)必然會成為大語言模型發(fā)力的重點(diǎn)。

2、插件

OpenAI在ChatGPT中首次引入了插件的支持。插件是專門為語言模型設(shè)計的工具，它們的在安全的前提下可以幫助ChatGPT獲取最新的信息，運(yùn)行計算，或者使用第三方服務(wù)。

GPT-4插件市場

可以這樣想象，類GPT這樣的大模型是機(jī)器的大腦，插件就是機(jī)器的手腳，針對不同的場景，只要更換不同的插件就能擁有相關(guān)場景的能力，比如GPT不具備上網(wǎng)的能力，可以通過網(wǎng)絡(luò)插件來獲取上網(wǎng)的功能，比如GPT不能點(diǎn)外賣，可以通過相關(guān)插件獲取點(diǎn)外賣的功能。

插件的功能將賦予了大模型無限的想象力。后續(xù)我會對OpenAI的熱門插件進(jìn)行測評。有興趣可以繼續(xù)關(guān)注我的更新。

3、其他

除此之外針對大模型的出現(xiàn)也出現(xiàn)了一個新的職業(yè)Prompt工程師。

什么是Prompt？

Prompt在人工智能和計算機(jī)科學(xué)中通常指的是提供給模型或系統(tǒng)的輸入或指令，用于觸發(fā)或指導(dǎo)模型或系統(tǒng)的行為。在與聊天機(jī)器人或語言生成模型（例如GPT-3）的交互中，Prompt通常指的是用戶提供的輸入，這個輸入將指導(dǎo)模型生成響應(yīng)。Prompt的設(shè)計和選擇對模型生成的結(jié)果有很大影響。一個好的Prompt可以幫助模型更準(zhǔn)確地理解用戶的需求，生成更相關(guān)和有用的回答。相反，一個不明確或含糊的Prompt可能會導(dǎo)致模型生成不準(zhǔn)確或不相關(guān)的回答。

可以簡單理解就是怎么科學(xué)地和機(jī)器聊天。那你可能會問，聊天還需要專門的職業(yè)嗎？那你可小瞧Prompt了，這里面可是有很大的門道。有些有趣的項(xiàng)目可能會顛覆你對聊天的認(rèn)知，比如https://github.com/JushBJJ/Mr.-Ranedeer-AI-Tutor項(xiàng)目，該項(xiàng)目通過聊天的方式把GPT-4訓(xùn)練成一個AI導(dǎo)師。

畢竟大語言模型訓(xùn)練的是通用模型，對于一些垂直領(lǐng)域的專有知識了解可能存在不足。因此大部分大語言模型提供了finetune的能力。

finetune或稱為微調(diào)，是一種機(jī)器學(xué)習(xí)技術(shù)，特別是在深度學(xué)習(xí)中使用較多。在這個過程中，一個已經(jīng)在大量數(shù)據(jù)上預(yù)訓(xùn)練過的模型被進(jìn)一步訓(xùn)練（微調(diào)），通常是在更小、特定任務(wù)相關(guān)的數(shù)據(jù)集上。這種方法的背后思想是：模型在大規(guī)模預(yù)訓(xùn)練階段已經(jīng)學(xué)到了大量有用的知識（例如語言模型學(xué)到的詞匯、語法和部分語義信息），然后在微調(diào)階段，這些知識被細(xì)化和適應(yīng)，以優(yōu)化模型在特定任務(wù)上的表現(xiàn)。

finetune的能力是大模型落地各行各業(yè)的基礎(chǔ)。隨著國產(chǎn)大模型技術(shù)越趨于成熟，將會有越來越多的專有領(lǐng)域模型借著finetune的能力落地到各個行業(yè)。

本文只是對大模型做了一個簡單的介紹，后續(xù)將會繼續(xù)更新該系列。

上一篇：睿觀：CIO如何識別大型語言模型（LLM）的…

下一篇：英偉達(dá)如何成為一家價值萬億美元的公司？

av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线