
一、什么是大語言模型
由于ChatGPT的火爆把大語言模型這個新名詞推到了大眾的視野里。那么,什么是大語言模型? 什么是GPT?
WIKI百科對大語言模型是這樣解釋的。
大語言模型 (英語:large language model,LLM) 是一種語言模型,由具有許多參數(shù)(通常數(shù)十億個權(quán)重或更多)的神經(jīng)網(wǎng)絡(luò)組成,使用自監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)對大量未標(biāo)記文本進(jìn)行訓(xùn)練。大型語言模型在 2018 年左右出現(xiàn),并在各種任務(wù)中表現(xiàn)出色。盡管這個術(shù)語沒有正式的定義,但它通常指的是參數(shù)數(shù)量在數(shù)十億或更多數(shù)量級的深度學(xué)習(xí)模型。大型語言模型是通用的模型,在廣泛的任務(wù)中表現(xiàn)出色,而不是針對一項(xiàng)特定任務(wù)。
翻譯成大白話就是在2018年開始陸續(xù)出現(xiàn)的一種技術(shù)(后續(xù)會解釋為啥是2018年才開始陸續(xù)出現(xiàn)),這種技術(shù)的特征一個是大,一個是有通用性。
那什么是GPT呢?WIKI百科的解釋是:
GPT(Generative pre-trained transformers 生成式預(yù)訓(xùn)練轉(zhuǎn)換模型)是一種大語言模型, 是生成式人工智能的重要框架。 第一個 GPT 于 2018 年由美國人工智能 (AI) 公司 OpenAI 推出。 GPT 模型是基于 transformer 架構(gòu)的人工神經(jīng)網(wǎng)絡(luò),在未標(biāo)記文本的大型數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,能夠生成新穎的類人內(nèi)容。?
簡單理解GPT其實(shí)是一種大語言模型技術(shù)的實(shí)現(xiàn)方案,由美國的OpenAI公司推出,重點(diǎn)是這個技術(shù)可以自動生成內(nèi)容(看上去像人類生成的,而非人工智障生成的)。
現(xiàn)在大火的ChatGPT也就是基于GPT實(shí)現(xiàn)的一個落地應(yīng)用。

ChatGPT界面
這個應(yīng)用唯一的功能就是聊天,你輸入對話,它回答。
但就是這個聊天的功能的應(yīng)用,卻引爆了整個科技行業(yè)乃至人類社會。被譽(yù)為新一代的工業(yè)革命。
因?yàn)榱奶爝@個功能似乎“無所不能”。比方說:
1、問問題:某個主題的基本知識、某個問題的答案
2、提供建議:根據(jù)您的需求給出相關(guān)的建議和指導(dǎo),如健康、財務(wù)、職業(yè)等
3、語言翻譯:將語言翻譯成另一種語言
4、生成文章:生成符合您需求的文本
5、解題:理解題目,并給出解題過程和結(jié)果
6、寫代碼: 理解需求,產(chǎn)生一段計算機(jī)代碼
...
所以說唯一限制我們使用場景的就是我們的想象力。
二、大語言模型背后的技術(shù)
大語言模型具有以下幾個特征:
1、大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集。大語言模型通常在大型文本數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,這些數(shù)據(jù)集的大小可達(dá)10萬億詞。
2、神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種人工智能技術(shù),用于教計算機(jī)以受人腦啟發(fā)的方式處理數(shù)據(jù)。這是一種機(jī)器學(xué)習(xí)過程,稱為深度學(xué)習(xí),它使用類似于人腦的分層結(jié)構(gòu)中的互連節(jié)點(diǎn)或神經(jīng)元。它可以創(chuàng)建自適應(yīng)系統(tǒng),計算機(jī)使用該系統(tǒng)來從錯誤中進(jìn)行學(xué)習(xí)并不斷改進(jìn)。
3、涌現(xiàn)能力。涌現(xiàn)使模型可以自動生成具有語言上下文和邏輯關(guān)系的連貫文本,這些文本在預(yù)訓(xùn)練時并沒有直接指定,而是通過模型自身的學(xué)習(xí)和推理得到的。涌現(xiàn)究竟是如何出現(xiàn)的,目前并沒有確切的答案,更多的猜測是當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模后,由于模型學(xué)習(xí)到了足夠多的樣本案例,逐漸出現(xiàn)的。
4、泛化能力(即通用能力)。由于模型在大規(guī)模文本數(shù)據(jù)上進(jìn)行訓(xùn)練,它們具有較強(qiáng)的泛化能力,能夠處理各種不同的任務(wù)和場景,如文本摘要、文本生成、機(jī)器翻譯、問答等。
因此,要開發(fā)一個強(qiáng)大的大語言模型,首先要面對解決的是收集大量的自然語言語料進(jìn)行訓(xùn)練。據(jù)相關(guān)資料顯示GPT-3訓(xùn)練的語料量就高達(dá)45TB。注意這是文本類型的語料,想想我們一純文本的電子書才多少KB。并且語料的來源應(yīng)該是也多樣化的,可以從公共數(shù)據(jù)看到一些大模型語言語料庫的來源占比。從GPT-3的模型可以看到其中64%的訓(xùn)練數(shù)據(jù)來源于網(wǎng)頁,17%的訓(xùn)練數(shù)據(jù)來源于代碼,13%的電子書,5%來源于對話數(shù)據(jù)。

(GPT-3的模型的訓(xùn)練數(shù)據(jù)來源)
除了自然語言語料外,大語言模型還需要選定一個適合的基礎(chǔ)架構(gòu)。Transformer 架構(gòu)已成為開發(fā)各大語言模型架構(gòu)的事實(shí)標(biāo)準(zhǔn)。在2017年,Google發(fā)表了一篇論文《Attention Is All You Need》,里面提到了一了self-attention 機(jī)制,其中就提出了大名鼎鼎的架構(gòu)Transformer 。這也就不難理解為啥2018年后陸陸續(xù)續(xù)大語言模型出來了。如果對《Attention Is All You Need》這篇paper感興趣的可以讀一讀原文https://arxiv.org/pdf/1706.03762.pdf。后續(xù)將會出個專門的篇章講解。
簡單理解,Transformer可以類比成一個具有魔法的機(jī)器,這個機(jī)器的作用是,讀取一段話,預(yù)測這段話的下一個字出現(xiàn)的概率,然后選擇最有可能性的字輸出。再把這個字加上前面這段話作為新的對話輸入,預(yù)測下一個字,循環(huán)往復(fù),直到預(yù)測出終止符為出現(xiàn)概率最大的字為止。這些輸出的字一個一個拼接起來,就成為了該機(jī)器的回答。
比如我們問:“你是誰?”,機(jī)器接受到這個輸入以后,預(yù)測到下一個字是"我"的概率是99%,所以輸出"我"。然后機(jī)器自動把"你是誰?我"再輸入到機(jī)器中,預(yù)測出下個字是"是"的概率是95%,那么會輸出"是"。一直循環(huán)往復(fù),直到預(yù)測到下一個字是"END"這個終止符的概率最大時終止這個流程。
問: 你是誰?
答: 我是ChatGPT,一個由OpenAI開發(fā)的語言模型。我可以回答各種問題、提供信息和進(jìn)行對話。有什么我可以幫助你的嗎?
僅僅是對于下一個字的預(yù)測真的有那么神奇的能力,能讓機(jī)器的輸出的結(jié)果滿足我們的預(yù)期?體驗(yàn)過ChatGPT的人都會驚訝于該產(chǎn)品的體驗(yàn),仿佛機(jī)器真的有該魔法能力一般,或者說擁有"智能"一般。
所以這個魔法能力來自哪里?答案是OpenAI的人也說不清。于是就有了這么一個詞"Grokking",中文翻譯成涌現(xiàn)能力。
當(dāng)模型到達(dá)一定規(guī)模的時候,似乎涌現(xiàn)能力使模型可以自動生成具有語言上下文和邏輯關(guān)系的連貫文本,這些文本在預(yù)訓(xùn)練時并沒有直接指定,而是通過模型自身的學(xué)習(xí)和推理得到的。涌現(xiàn)究竟是如何出現(xiàn)的,目前并沒有確切的答案,更多的猜測是當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模后,由于模型學(xué)習(xí)到了足夠多的樣本案例,逐漸出現(xiàn)的。直白一點(diǎn)也就是說量變引起了質(zhì)變。
這個量變可以說是代表了人類一直以來對于人工智能探索的曲折??梢宰匪莸?950年,圖靈提出的著名的"圖靈測試",給出判斷機(jī)器是否有智能的方法。從20世紀(jì)50年代至今,經(jīng)過無數(shù)的前期鋪墊和技術(shù)的演進(jìn),我們看到最近幾年AI能力的"涌現(xiàn)", 而ChaGPT不過是新的序章的高潮部分而已。
三、國內(nèi)百花齊放
目前國內(nèi)在大語言模型方面可謂是百花齊放。
2023.02.20 復(fù)旦大學(xué)開放大語言模型MOSS
2023.03.15 智普AI開放大語言模型ChatGLM
2023.03.16 百度文心一言發(fā)布
2023.04.07 阿里巴巴通義千問發(fā)布
2023.04.09開放360智腦的內(nèi)測
2023.04.10日日新亮相
2023.05.06科大訊飛發(fā)布星火大模型
...
可以看到國內(nèi)有能力的廠商都在爭先恐后,不遑多讓。
國內(nèi)也有針對中文通用的測評。中文通用大模型基準(zhǔn)(SuperCLUE),是針對中文可用的通用大模型的一個測評基準(zhǔn)。SuperCLUE從三個不同的維度評價模型的能力:基礎(chǔ)能力、專業(yè)能力和中文特性能力。
基礎(chǔ)能力:包括了常見的有代表性的模型能力,如語義理解、對話、邏輯推理、角色模擬、代碼、生成與創(chuàng)作等10項(xiàng)能力。
專業(yè)能力:包括了中學(xué)、大學(xué)與專業(yè)考試,涵蓋了從數(shù)學(xué)、物理、地理到社會科學(xué)等50多項(xiàng)能力。
中文特性能力:針對有中文特點(diǎn)的任務(wù),包括了中文成語、詩歌、文學(xué)、字形等10項(xiàng)多種能力。

SuperCLUE測評
測評的項(xiàng)目地址:https://github.com/CLUEbenchmark/SuperCLUE。
與此同時國內(nèi)開源模型這塊也有類似ChatGLM-6B這樣可玩度非常高的模型,家用級顯卡就能跑模型。并且由此衍生出較多的開源項(xiàng)目

基于ChatGLM-6B開源項(xiàng)目
項(xiàng)目地址:https://github.com/THUDM/ChatGLM-6B
四、發(fā)展趨勢
1、多模態(tài)
多模態(tài)是指利用來自不同模態(tài)的輸入數(shù)據(jù)(例如視覺、音頻、文本等)來改進(jìn)學(xué)習(xí)和推理。例如,一個多模態(tài)模型可能會同時考慮圖片(視覺模態(tài))和文本(文本模態(tài))來進(jìn)行決策或預(yù)測。

VisualGLM-6B項(xiàng)目的多模態(tài)
OpenAI在發(fā)布GPT-4的時候,曾演示了只需要用手稿畫的設(shè)計圖就能讓GPT生成網(wǎng)站代碼的能力。雖然目前還沒開放相關(guān)入口。但是可以從國內(nèi)模型比如科大訊飛星火模型,可以輸入語言已經(jīng)部分開源模型,比如VisualGLM-6B窺探出一二。后續(xù)多模態(tài)必然會成為大語言模型發(fā)力的重點(diǎn)。
2、插件
OpenAI在ChatGPT中首次引入了插件的支持。插件是專門為語言模型設(shè)計的工具,它們的在安全的前提下可以幫助ChatGPT獲取最新的信息,運(yùn)行計算,或者使用第三方服務(wù)。

GPT-4插件市場
可以這樣想象,類GPT這樣的大模型是機(jī)器的大腦,插件就是機(jī)器的手腳,針對不同的場景,只要更換不同的插件就能擁有相關(guān)場景的能力,比如GPT不具備上網(wǎng)的能力,可以通過網(wǎng)絡(luò)插件來獲取上網(wǎng)的功能,比如GPT不能點(diǎn)外賣,可以通過相關(guān)插件獲取點(diǎn)外賣的功能。
插件的功能將賦予了大模型無限的想象力。后續(xù)我會對OpenAI的熱門插件進(jìn)行測評。有興趣可以繼續(xù)關(guān)注我的更新。
3、其他
除此之外針對大模型的出現(xiàn)也出現(xiàn)了一個新的職業(yè)Prompt工程師。
什么是Prompt?
Prompt在人工智能和計算機(jī)科學(xué)中通常指的是提供給模型或系統(tǒng)的輸入或指令,用于觸發(fā)或指導(dǎo)模型或系統(tǒng)的行為。在與聊天機(jī)器人或語言生成模型(例如GPT-3)的交互中,Prompt通常指的是用戶提供的輸入,這個輸入將指導(dǎo)模型生成響應(yīng)。Prompt的設(shè)計和選擇對模型生成的結(jié)果有很大影響。一個好的Prompt可以幫助模型更準(zhǔn)確地理解用戶的需求,生成更相關(guān)和有用的回答。相反,一個不明確或含糊的Prompt可能會導(dǎo)致模型生成不準(zhǔn)確或不相關(guān)的回答。
可以簡單理解就是怎么科學(xué)地和機(jī)器聊天。那你可能會問,聊天還需要專門的職業(yè)嗎?那你可小瞧Prompt了,這里面可是有很大的門道。有些有趣的項(xiàng)目可能會顛覆你對聊天的認(rèn)知, 比如https://github.com/JushBJJ/Mr.-Ranedeer-AI-Tutor項(xiàng)目,該項(xiàng)目通過聊天的方式把GPT-4訓(xùn)練成一個AI導(dǎo)師。
畢竟大語言模型訓(xùn)練的是通用模型,對于一些垂直領(lǐng)域的專有知識了解可能存在不足。因此大部分大語言模型提供了finetune的能力。
finetune或稱為微調(diào),是一種機(jī)器學(xué)習(xí)技術(shù),特別是在深度學(xué)習(xí)中使用較多。在這個過程中,一個已經(jīng)在大量數(shù)據(jù)上預(yù)訓(xùn)練過的模型被進(jìn)一步訓(xùn)練(微調(diào)),通常是在更小、特定任務(wù)相關(guān)的數(shù)據(jù)集上。這種方法的背后思想是:模型在大規(guī)模預(yù)訓(xùn)練階段已經(jīng)學(xué)到了大量有用的知識(例如語言模型學(xué)到的詞匯、語法和部分語義信息),然后在微調(diào)階段,這些知識被細(xì)化和適應(yīng),以優(yōu)化模型在特定任務(wù)上的表現(xiàn)。
finetune的能力是大模型落地各行各業(yè)的基礎(chǔ)。隨著國產(chǎn)大模型技術(shù)越趨于成熟,將會有越來越多的專有領(lǐng)域模型借著finetune的能力落地到各個行業(yè)。
本文只是對大模型做了一個簡單的介紹,后續(xù)將會繼續(xù)更新該系列。