日韩99不卡在线,人妻福利视频导航

為什么開(kāi)源生成式人工智能模型仍然落后于GPT-4

作者：CIOCDO 來(lái)源：zdnet.com 發(fā)布時(shí)間：2024年02月05日點(diǎn)擊數(shù)：

研究人員發(fā)現(xiàn)，在醫(yī)學(xué)測(cè)試中，Llama 2（2023年7月19日，Meta AI已正式發(fā)布最新一代開(kāi)源大模型。訓(xùn)練所用的token翻了一倍至2萬(wàn)億，同時(shí)對(duì)于使用大模型最重要的上下文長(zhǎng)度限制，Llama 2也翻了一倍。Llama 2包含了70億、130億和700億參數(shù)的模型。Meta宣布將與微軟Azure進(jìn)行合作，向其全球開(kāi)發(fā)者提供基于Llama 2模型的云服務(wù)。同時(shí)Meta還將聯(lián)手高通，讓Llama 2能夠在高通芯片上運(yùn)行。）的表現(xiàn)并不比隨機(jī)瞎猜好多少，而GPT-4（OpenAI為聊天機(jī)器人ChatGPT發(fā)布的語(yǔ)言模型）能夠獲得及格分?jǐn)?shù)。

圖源：magicmine?/ Getty Images

生成式人工智能（AI）中最熱門的爭(zhēng)論之一是開(kāi)源與閉源：哪一個(gè)更有價(jià)值？

一方面，以迄今為止最負(fù)盛名的開(kāi)源模型Meta的Llama 2為首，不斷發(fā)展的貢獻(xiàn)者群體不斷產(chǎn)生大量開(kāi)源大型語(yǔ)言模型（LLM）。代表閉源LLM的則是兩個(gè)最成熟的商業(yè)程序，OpenAI的GPT-4和風(fēng)險(xiǎn)投資支持的初創(chuàng)公司Anthropic（是一家人工智能初創(chuàng)公司，由前?OpenAI?員工創(chuàng)立，成立于2021年，總部位于舊金山，致力于構(gòu)建可靠、可解釋和可控的人工智能系統(tǒng)）的語(yǔ)言模型，即Claude 2（Anthropic發(fā)布的全新的?Claude 2?大語(yǔ)言模型。相比前代版本，Claude 2?性能有所提升，支持上傳文件，且能夠?qū)崿F(xiàn)更長(zhǎng)文本的響應(yīng)，在編程、數(shù)學(xué)、推理等方面都有大幅提升。）

相互測(cè)試這些程序的一種方法是看看它們?cè)诨卮鹛囟I(lǐng)域的問(wèn)題時(shí)表現(xiàn)如何，例如醫(yī)學(xué)知識(shí)。

根據(jù)Pepperdine University（佩珀代因大學(xué)，簡(jiǎn)稱PPD，是一所美國(guó)加州一流的私立研究型大學(xué)，于1937年由基督教商人喬治·佩珀代因創(chuàng)辦，其位于加州馬里布的校園是全美最美麗的大學(xué)校園之一。）、University of California at Los Angeles（加利福尼亞大學(xué)洛杉磯分校，簡(jiǎn)稱：UCLA，是位于美國(guó)洛杉磯的公立研究型大學(xué)，是環(huán)太平洋大學(xué)聯(lián)盟和國(guó)際公立大學(xué)論壇成員，被譽(yù)為“公立常春藤”，入選英國(guó)政府“高潛力人才簽證計(jì)劃”。）和UC Riverside（加利福尼亞大學(xué)河濱分校，簡(jiǎn)稱UC Riverside或UCR，是一所公立綜合性研究型大學(xué)，美國(guó)大學(xué)協(xié)會(huì)AAU成員，被譽(yù)為公立常春藤，環(huán)太平洋大學(xué)聯(lián)盟和國(guó)際公立大學(xué)論壇成員。是世界上最具影響力的公立大學(xué)系統(tǒng)之一，加州大學(xué)系統(tǒng)中十所學(xué)校之一，也是該系統(tǒng)中發(fā)展最快的一所大學(xué)。該校非常重視科研，擁有加州大學(xué)傲人的學(xué)術(shù)傳統(tǒng)。）的科學(xué)家們最近發(fā)表的一項(xiàng)研究，在此基礎(chǔ)上，Llama 2在回答腎臟學(xué)領(lǐng)域的問(wèn)題方面表現(xiàn)不佳。該研究本周發(fā)表在著名的New England Journal of Medicine（《新英格蘭醫(yī)學(xué)雜志》，簡(jiǎn)稱NEJM。是由美國(guó)麻州醫(yī)學(xué)協(xié)會(huì)/Massachusetts Medical Society所出版的評(píng)審性質(zhì)醫(yī)學(xué)期刊/medical journal和綜合性醫(yī)學(xué)期刊，創(chuàng)刊于1812年。是全球影響因子最高的醫(yī)學(xué)學(xué)術(shù)期刊，影響因子大概為70。）出版的新子刊《NEJM AI/新英格蘭人工智能》上。

“與GPT-4和Claude2相比，開(kāi)源模型在總體正確答案和解釋質(zhì)量方面表現(xiàn)得不佳，”Pepperdine（佩珀代因大學(xué)）的Keck數(shù)據(jù)科學(xué)研究所的首席作者Sean Wu（肖恩·吳）和同事寫(xiě)道。

Scholars at Pepperdine University converted nephrology questions into prompts to feed into a bunch of large language models, including Llama 2 and GPT-4.

New England Journal of Medicine

他們寫(xiě)道：“GPT-4的表現(xiàn)異常出色，在大多數(shù)主題上都取得了類似人類的表現(xiàn)。”得分為73.3%的分?jǐn)?shù)，略低于75%的分?jǐn)?shù)，這一分?jǐn)?shù)是必須回答多項(xiàng)選擇題腎臟學(xué)問(wèn)題的人員的及格分?jǐn)?shù)。

他們寫(xiě)道：“大多數(shù)開(kāi)源LLM（大型語(yǔ)言模型）的總體得分與隨機(jī)回答問(wèn)題時(shí)的預(yù)期沒(méi)有區(qū)別?！?/span>Llama 2在包括Vicu?a（受?Meta LLaMA?和?Stanford Alpaca?項(xiàng)目的啟發(fā)，來(lái)自加州大學(xué)伯克利分校、CMU、斯坦福大學(xué)和加州大學(xué)圣地亞哥分校的成員，共同推出了一個(gè)?Vicuna-13B?開(kāi)源聊天機(jī)器人，由增強(qiáng)的數(shù)據(jù)集和易于使用、可擴(kuò)展的基礎(chǔ)設(shè)施支持。）和Falcon（阿聯(lián)酋的TII/技術(shù)創(chuàng)新研究所開(kāi)發(fā)的「Falcon」獵鷹是一款開(kāi)源語(yǔ)言模型，目前該模型已經(jīng)發(fā)布了三個(gè)版本——1B、7B和40B，其中最大的版本，F(xiàn)alcon40B，擁有400億參數(shù)，是目前全球最強(qiáng)大的開(kāi)源語(yǔ)言模型之一。）在內(nèi)的5個(gè)開(kāi)源模型中表現(xiàn)最好。Llama 2程序僅略高于隨機(jī)猜測(cè)的水平(23.8%)，得分為30.6%。

這項(xiàng)研究是對(duì)人工智能中所謂的“zero-shot”（零次學(xué)習(xí)。是指在訓(xùn)練階段不存在與測(cè)試階段完全相同的類別，但是模型可以使用訓(xùn)練過(guò)的知識(shí)來(lái)推廣到測(cè)試集中的新類別上。）任務(wù)的測(cè)試，其中使用的語(yǔ)言模型沒(méi)有修改，也沒(méi)有正確答案和錯(cuò)誤答案的例子。零次學(xué)習(xí)是一種測(cè)試“上下文學(xué)習(xí)”的方法，上下文學(xué)習(xí)是語(yǔ)言模型獲取訓(xùn)練數(shù)據(jù)中沒(méi)有的新能力。

在測(cè)試中，模型——Llama 2和其他4個(gè)開(kāi)源程序，以及兩個(gè)商業(yè)程序——分別收到了NephSAP/Nephrology Self-Assessment Program（腎病自我評(píng)估計(jì)劃，為醫(yī)生提供了一個(gè)學(xué)習(xí)平臺(tái)，科學(xué)家，高級(jí)執(zhí)業(yè)醫(yī)師，護(hù)士，藥劑師，和其他衛(wèi)生專業(yè)人員的工作和培訓(xùn)領(lǐng)域的腎臟更新和刷新他們的臨床知識(shí)，診斷和治療技能。）的858個(gè)腎臟科領(lǐng)域問(wèn)題，NephSAP是American Society of Nephrology（美國(guó)腎臟病學(xué)會(huì)，成立于1966年，是世界上最大的致力于腎臟疾病研究的專業(yè)學(xué)會(huì)，在全球132個(gè)國(guó)家/地區(qū)擁有21240余名成員。ASN愿景是預(yù)防、治療和治愈腎臟疾病。）的一份出版物，用于該領(lǐng)域的醫(yī)生自學(xué)。

作者必須進(jìn)行重要的數(shù)據(jù)準(zhǔn)備，以將NephSAP（腎病自我評(píng)估計(jì)劃）的純文本文件轉(zhuǎn)換為可以輸入到語(yǔ)言模型中的提示。每個(gè)提示中都包含了自然語(yǔ)言中的問(wèn)題和多項(xiàng)選擇題的答案。該數(shù)據(jù)集已發(fā)布，供其他人在HuggingFace（起初是一家總部位于紐約的聊天機(jī)器人初創(chuàng)服務(wù)商，本來(lái)打算創(chuàng)業(yè)做聊天機(jī)器人，然后在github上開(kāi)源了一個(gè)Transformers庫(kù)，雖然聊天機(jī)器人業(yè)務(wù)沒(méi)搞起來(lái)，但是他們的這個(gè)庫(kù)在機(jī)器學(xué)習(xí)社區(qū)迅速大火起來(lái)。目前已經(jīng)共享了超100,000個(gè)預(yù)訓(xùn)練模型，10,000個(gè)數(shù)據(jù)集，變成了機(jī)器學(xué)習(xí)界的github。）上使用。

由于GPT-4和Llama 2等在許多情況下都會(huì)產(chǎn)生冗長(zhǎng)的文本輸出作為答案，作者還必須開(kāi)發(fā)自動(dòng)技術(shù)來(lái)解析每個(gè)模型的答案，然后比較模型的答案自動(dòng)得分的結(jié)果。

與GPT-4相比，開(kāi)源模型表現(xiàn)不佳有很多潛在的原因，但作者懷疑一個(gè)重要的原因是Anthropic和OpenAI在其程序培訓(xùn)中加入了專有醫(yī)療數(shù)據(jù)。

他們寫(xiě)道：“GPT-4和Claude 2不僅接受了公開(kāi)數(shù)據(jù)的培訓(xùn)，還接受了第三方數(shù)據(jù)的培訓(xùn)?！?/span>

“在醫(yī)學(xué)領(lǐng)域培訓(xùn)LLM（大型語(yǔ)言模型）的高質(zhì)量數(shù)據(jù)通常存在于經(jīng)過(guò)整理和同行評(píng)審的非公共材料中，如教科書(shū)、已發(fā)表的文章和經(jīng)過(guò)整理的數(shù)據(jù)集?！盬u（吳）和其團(tuán)隊(duì)指出，“在不否定特定LLM計(jì)算能力重要性的情況下，訪問(wèn)目前不在公共領(lǐng)域的醫(yī)學(xué)訓(xùn)練數(shù)據(jù)材料的能力可能仍然是決定未來(lái)特定LLM性能是否會(huì)提高的關(guān)鍵因素。”

顯然，隨著GPT-4的得分比人類及格分?jǐn)?shù)低兩分，所有語(yǔ)言模型都有很大的改進(jìn)空間，而不僅僅是開(kāi)源。

令開(kāi)源人群感到高興的是，各界目前正在努力提高訓(xùn)練數(shù)據(jù)的勝算。

其中一項(xiàng)努力是廣泛開(kāi)展所謂的聯(lián)合訓(xùn)練，即在私有數(shù)據(jù)上本地訓(xùn)練語(yǔ)言模型，然后將訓(xùn)練結(jié)果貢獻(xiàn)給公共云中的綜合努力。

這種方法可以成為彌合醫(yī)學(xué)領(lǐng)域機(jī)密數(shù)據(jù)源和加強(qiáng)開(kāi)源基礎(chǔ)模型的集體努力之間的分歧。這一領(lǐng)域的一項(xiàng)突出努力是ML Commons（是一個(gè)將全球企業(yè)、組織、學(xué)界聯(lián)合起來(lái)的非營(yíng)利組織，期望通過(guò)將各界資料匯集、創(chuàng)建可以用于AI數(shù)據(jù)訓(xùn)練的公共數(shù)據(jù)庫(kù)，以加速整個(gè)機(jī)器學(xué)習(xí)產(chǎn)業(yè)的發(fā)展。旨在幫助AI與機(jī)器學(xué)習(xí)模型的進(jìn)一步發(fā)展，通過(guò)提供數(shù)據(jù)數(shù)據(jù)庫(kù)、模型、準(zhǔn)則與指標(biāo)的方式，幫助計(jì)算機(jī)視覺(jué)、自然語(yǔ)言過(guò)程、語(yǔ)音識(shí)別等機(jī)器學(xué)習(xí)應(yīng)用，借由數(shù)據(jù)的集成增加應(yīng)用場(chǎng)景，并凝聚共同的力量來(lái)加速開(kāi)發(fā)過(guò)程。前身是MLPerf。MLPerf是一間成立于2018年的產(chǎn)業(yè)基準(zhǔn)組織，集結(jié)了英特爾、NVIDIA、Facebook AI、Google、亞馬遜、阿里巴巴和百度、微軟、哈佛大學(xué)、斯坦福大學(xué)等產(chǎn)、學(xué)機(jī)構(gòu)的參與，制定了機(jī)器學(xué)習(xí)性能的通用標(biāo)準(zhǔn)測(cè)試工具，用于幫助加速開(kāi)發(fā)、創(chuàng)造更多樣的AI產(chǎn)品。）行業(yè)聯(lián)盟去年開(kāi)始的MedPerf（IHU Strasbourg、丹娜法伯癌癥研究所/Dana-Farber Cancer Institute、Intel?等多個(gè)機(jī)構(gòu)組成的研究團(tuán)隊(duì)聯(lián)合推出用于在醫(yī)療領(lǐng)域?qū)?AI?模型進(jìn)行基準(zhǔn)測(cè)試的開(kāi)放平臺(tái)。MedPerf?專注于通過(guò)將?AI?模型安全地分發(fā)到不同的機(jī)構(gòu)，例如醫(yī)療機(jī)構(gòu)，來(lái)實(shí)現(xiàn)?AI?模型的聯(lián)合評(píng)估。將模型引入數(shù)據(jù)的過(guò)程使每個(gè)設(shè)施能夠在高效且人工監(jiān)督的過(guò)程中評(píng)估和驗(yàn)證人工智能模型的性能，同時(shí)優(yōu)先考慮隱私。）努力。

一些商業(yè)模式也有可能被提煉成開(kāi)源程序，從上一代那里繼承特定的醫(yī)療能力。例如，谷歌DeepMind（位于英國(guó)倫敦，是由人工智能程序師兼神經(jīng)科學(xué)家Demis Hassabis等人聯(lián)合創(chuàng)立的Google旗下前沿人工智能企業(yè)。其將機(jī)器學(xué)習(xí)和系統(tǒng)神經(jīng)科學(xué)的最先進(jìn)技術(shù)結(jié)合起來(lái)，建立強(qiáng)大的通用學(xué)習(xí)算法。最初成果主要應(yīng)用于模擬、電子商務(wù)、游戲開(kāi)發(fā)等商業(yè)領(lǐng)域。）的MedPaLM是一個(gè)LLM（大型語(yǔ)言模型），它可以回答來(lái)自各種醫(yī)療數(shù)據(jù)集的問(wèn)題，甚至還包括谷歌發(fā)明的一種全新的代表消費(fèi)者在互聯(lián)網(wǎng)上提出的關(guān)于健康的問(wèn)題的。

即使沒(méi)有對(duì)程序進(jìn)行醫(yī)學(xué)知識(shí)方面的培訓(xùn)，也可以通過(guò)“檢索增強(qiáng)生成”來(lái)提高輸出，這是一種LLM（大型語(yǔ)言模型）在形成輸出時(shí)尋求外部輸入的方法，以放大神經(jīng)網(wǎng)絡(luò)本身的功能。

無(wú)論哪種方式表現(xiàn)更佳，但此時(shí)Llama2和其他模型的開(kāi)放性為多方提供了使程序改進(jìn)的機(jī)會(huì)，而不像GPT-4和Claude 2這樣的商業(yè)項(xiàng)目，它們的運(yùn)營(yíng)由其公司所有者自行決定。

作者：Tiernan Ray（蒂爾南·雷）

上一篇：可持續(xù)人工智能的4條路徑

下一篇：【CIOCDO案例】全球氣候控制供應(yīng)商蒙特（…

av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线