研究人員發(fā)現(xiàn),在醫(yī)學(xué)測試中,Llama 2(2023年7月19日,Meta AI已正式發(fā)布最新一代開源大模型。訓(xùn)練所用的token翻了一倍至2萬億,同時對于使用大模型最重要的上下文長度限制,Llama 2也翻了一倍。Llama 2包含了70億、130億和700億參數(shù)的模型。Meta宣布將與微軟Azure進行合作,向其全球開發(fā)者提供基于Llama 2模型的云服務(wù)。同時Meta還將聯(lián)手高通,讓Llama 2能夠在高通芯片上運行。)的表現(xiàn)并不比隨機瞎猜好多少,而GPT-4(OpenAI為聊天機器人ChatGPT發(fā)布的語言模型)能夠獲得及格分數(shù)。
圖源:magicmine?/ Getty Images
生成式人工智能(AI)中最熱門的爭論之一是開源與閉源:哪一個更有價值?
一方面,以迄今為止最負盛名的開源模型Meta的Llama 2為首,不斷發(fā)展的貢獻者群體不斷產(chǎn)生大量開源大型語言模型(LLM)。代表閉源LLM的則是兩個最成熟的商業(yè)程序,OpenAI的GPT-4和風(fēng)險投資支持的初創(chuàng)公司Anthropic(是一家人工智能初創(chuàng)公司,由前?OpenAI?員工創(chuàng)立,成立于2021年,總部位于舊金山,致力于構(gòu)建可靠、可解釋和可控的人工智能系統(tǒng))的語言模型,即Claude 2(Anthropic發(fā)布的全新的?Claude 2?大語言模型。相比前代版本,Claude 2?性能有所提升,支持上傳文件,且能夠?qū)崿F(xiàn)更長文本的響應(yīng),在編程、數(shù)學(xué)、推理等方面都有大幅提升。)
相互測試這些程序的一種方法是看看它們在回答特定領(lǐng)域的問題時表現(xiàn)如何,例如醫(yī)學(xué)知識。
根據(jù)Pepperdine University(佩珀代因大學(xué),簡稱PPD,是一所美國加州一流的私立研究型大學(xué),于1937年由基督教商人喬治·佩珀代因創(chuàng)辦,其位于加州馬里布的校園是全美最美麗的大學(xué)校園之一。)、University of California at Los Angeles(加利福尼亞大學(xué)洛杉磯分校,簡稱:UCLA,是位于美國洛杉磯的公立研究型大學(xué),是環(huán)太平洋大學(xué)聯(lián)盟和國際公立大學(xué)論壇成員,被譽為“公立常春藤”,入選英國政府“高潛力人才簽證計劃”。)和UC Riverside(加利福尼亞大學(xué)河濱分校,簡稱UC Riverside或UCR,是一所公立綜合性研究型大學(xué),美國大學(xué)協(xié)會AAU成員,被譽為公立常春藤,環(huán)太平洋大學(xué)聯(lián)盟和國際公立大學(xué)論壇成員。是世界上最具影響力的公立大學(xué)系統(tǒng)之一,加州大學(xué)系統(tǒng)中十所學(xué)校之一,也是該系統(tǒng)中發(fā)展最快的一所大學(xué)。該校非常重視科研,擁有加州大學(xué)傲人的學(xué)術(shù)傳統(tǒng)。)的科學(xué)家們最近發(fā)表的一項研究,在此基礎(chǔ)上,Llama 2在回答腎臟學(xué)領(lǐng)域的問題方面表現(xiàn)不佳。該研究本周發(fā)表在著名的New England Journal of Medicine(《新英格蘭醫(yī)學(xué)雜志》,簡稱NEJM。是由美國麻州醫(yī)學(xué)協(xié)會/Massachusetts Medical Society所出版的評審性質(zhì)醫(yī)學(xué)期刊/medical journal和綜合性醫(yī)學(xué)期刊,創(chuàng)刊于1812年。是全球影響因子最高的醫(yī)學(xué)學(xué)術(shù)期刊,影響因子大概為70。)出版的新子刊《NEJM AI/新英格蘭人工智能》上。
“與GPT-4和Claude2相比,開源模型在總體正確答案和解釋質(zhì)量方面表現(xiàn)得不佳,”Pepperdine(佩珀代因大學(xué))的Keck數(shù)據(jù)科學(xué)研究所的首席作者Sean Wu(肖恩·吳)和同事寫道。

Scholars at Pepperdine University converted nephrology questions into prompts to feed into a bunch of large language models, including Llama 2 and GPT-4.
New England Journal of Medicine
他們寫道:“GPT-4的表現(xiàn)異常出色,在大多數(shù)主題上都取得了類似人類的表現(xiàn)。”得分為73.3%的分數(shù),略低于75%的分數(shù),這一分數(shù)是必須回答多項選擇題腎臟學(xué)問題的人員的及格分數(shù)。
他們寫道:“大多數(shù)開源LLM(大型語言模型)的總體得分與隨機回答問題時的預(yù)期沒有區(qū)別?!?/span>Llama 2在包括Vicu?a(受?Meta LLaMA?和?Stanford Alpaca?項目的啟發(fā),來自加州大學(xué)伯克利分校、CMU、斯坦福大學(xué)和加州大學(xué)圣地亞哥分校的成員,共同推出了一個?Vicuna-13B?開源聊天機器人,由增強的數(shù)據(jù)集和易于使用、可擴展的基礎(chǔ)設(shè)施支持。)和Falcon(阿聯(lián)酋的TII/技術(shù)創(chuàng)新研究所開發(fā)的「Falcon」獵鷹是一款開源語言模型,目前該模型已經(jīng)發(fā)布了三個版本——1B、7B和40B,其中最大的版本,F(xiàn)alcon40B,擁有400億參數(shù),是目前全球最強大的開源語言模型之一。)在內(nèi)的5個開源模型中表現(xiàn)最好。Llama 2程序僅略高于隨機猜測的水平(23.8%),得分為30.6%。
這項研究是對人工智能中所謂的“zero-shot”(零次學(xué)習(xí)。是指在訓(xùn)練階段不存在與測試階段完全相同的類別,但是模型可以使用訓(xùn)練過的知識來推廣到測試集中的新類別上。)任務(wù)的測試,其中使用的語言模型沒有修改,也沒有正確答案和錯誤答案的例子。零次學(xué)習(xí)是一種測試“上下文學(xué)習(xí)”的方法,上下文學(xué)習(xí)是語言模型獲取訓(xùn)練數(shù)據(jù)中沒有的新能力。
在測試中,模型——Llama 2和其他4個開源程序,以及兩個商業(yè)程序——分別收到了NephSAP/Nephrology Self-Assessment Program(腎病自我評估計劃,為醫(yī)生提供了一個學(xué)習(xí)平臺,科學(xué)家,高級執(zhí)業(yè)醫(yī)師,護士,藥劑師,和其他衛(wèi)生專業(yè)人員的工作和培訓(xùn)領(lǐng)域的腎臟更新和刷新他們的臨床知識,診斷和治療技能。)的858個腎臟科領(lǐng)域問題,NephSAP是American Society of Nephrology(美國腎臟病學(xué)會,成立于1966年,是世界上最大的致力于腎臟疾病研究的專業(yè)學(xué)會,在全球132個國家/地區(qū)擁有21240余名成員。ASN愿景是預(yù)防、治療和治愈腎臟疾病。)的一份出版物,用于該領(lǐng)域的醫(yī)生自學(xué)。
作者必須進行重要的數(shù)據(jù)準備,以將NephSAP(腎病自我評估計劃)的純文本文件轉(zhuǎn)換為可以輸入到語言模型中的提示。每個提示中都包含了自然語言中的問題和多項選擇題的答案。該數(shù)據(jù)集已發(fā)布,供其他人在HuggingFace(起初是一家總部位于紐約的聊天機器人初創(chuàng)服務(wù)商,本來打算創(chuàng)業(yè)做聊天機器人,然后在github上開源了一個Transformers庫,雖然聊天機器人業(yè)務(wù)沒搞起來,但是他們的這個庫在機器學(xué)習(xí)社區(qū)迅速大火起來。目前已經(jīng)共享了超100,000個預(yù)訓(xùn)練模型,10,000個數(shù)據(jù)集,變成了機器學(xué)習(xí)界的github。)上使用。
由于GPT-4和Llama 2等在許多情況下都會產(chǎn)生冗長的文本輸出作為答案,作者還必須開發(fā)自動技術(shù)來解析每個模型的答案,然后比較模型的答案自動得分的結(jié)果。
與GPT-4相比,開源模型表現(xiàn)不佳有很多潛在的原因,但作者懷疑一個重要的原因是Anthropic和OpenAI在其程序培訓(xùn)中加入了專有醫(yī)療數(shù)據(jù)。
他們寫道:“GPT-4和Claude 2不僅接受了公開數(shù)據(jù)的培訓(xùn),還接受了第三方數(shù)據(jù)的培訓(xùn)。”
“在醫(yī)學(xué)領(lǐng)域培訓(xùn)LLM(大型語言模型)的高質(zhì)量數(shù)據(jù)通常存在于經(jīng)過整理和同行評審的非公共材料中,如教科書、已發(fā)表的文章和經(jīng)過整理的數(shù)據(jù)集?!盬u(吳)和其團隊指出,“在不否定特定LLM計算能力重要性的情況下,訪問目前不在公共領(lǐng)域的醫(yī)學(xué)訓(xùn)練數(shù)據(jù)材料的能力可能仍然是決定未來特定LLM性能是否會提高的關(guān)鍵因素。”
顯然,隨著GPT-4的得分比人類及格分數(shù)低兩分,所有語言模型都有很大的改進空間,而不僅僅是開源。
令開源人群感到高興的是,各界目前正在努力提高訓(xùn)練數(shù)據(jù)的勝算。
其中一項努力是廣泛開展所謂的聯(lián)合訓(xùn)練,即在私有數(shù)據(jù)上本地訓(xùn)練語言模型,然后將訓(xùn)練結(jié)果貢獻給公共云中的綜合努力。
這種方法可以成為彌合醫(yī)學(xué)領(lǐng)域機密數(shù)據(jù)源和加強開源基礎(chǔ)模型的集體努力之間的分歧。這一領(lǐng)域的一項突出努力是ML Commons(是一個將全球企業(yè)、組織、學(xué)界聯(lián)合起來的非營利組織,期望通過將各界資料匯集、創(chuàng)建可以用于AI數(shù)據(jù)訓(xùn)練的公共數(shù)據(jù)庫,以加速整個機器學(xué)習(xí)產(chǎn)業(yè)的發(fā)展。旨在幫助AI與機器學(xué)習(xí)模型的進一步發(fā)展,通過提供數(shù)據(jù)數(shù)據(jù)庫、模型、準則與指標的方式,幫助計算機視覺、自然語言過程、語音識別等機器學(xué)習(xí)應(yīng)用,借由數(shù)據(jù)的集成增加應(yīng)用場景,并凝聚共同的力量來加速開發(fā)過程。前身是MLPerf。MLPerf是一間成立于2018年的產(chǎn)業(yè)基準組織,集結(jié)了英特爾、NVIDIA、Facebook AI、Google、亞馬遜、阿里巴巴和百度、微軟、哈佛大學(xué)、斯坦福大學(xué)等產(chǎn)、學(xué)機構(gòu)的參與,制定了機器學(xué)習(xí)性能的通用標準測試工具,用于幫助加速開發(fā)、創(chuàng)造更多樣的AI產(chǎn)品。)行業(yè)聯(lián)盟去年開始的MedPerf(IHU Strasbourg、丹娜法伯癌癥研究所/Dana-Farber Cancer Institute、Intel?等多個機構(gòu)組成的研究團隊聯(lián)合推出用于在醫(yī)療領(lǐng)域?qū)?AI?模型進行基準測試的開放平臺。MedPerf?專注于通過將?AI?模型安全地分發(fā)到不同的機構(gòu),例如醫(yī)療機構(gòu),來實現(xiàn)?AI?模型的聯(lián)合評估。將模型引入數(shù)據(jù)的過程使每個設(shè)施能夠在高效且人工監(jiān)督的過程中評估和驗證人工智能模型的性能,同時優(yōu)先考慮隱私。)努力。
一些商業(yè)模式也有可能被提煉成開源程序,從上一代那里繼承特定的醫(yī)療能力。例如,谷歌DeepMind(位于英國倫敦,是由人工智能程序師兼神經(jīng)科學(xué)家Demis Hassabis等人聯(lián)合創(chuàng)立的Google旗下前沿人工智能企業(yè)。其將機器學(xué)習(xí)和系統(tǒng)神經(jīng)科學(xué)的最先進技術(shù)結(jié)合起來,建立強大的通用學(xué)習(xí)算法。最初成果主要應(yīng)用于模擬、電子商務(wù)、游戲開發(fā)等商業(yè)領(lǐng)域。)的MedPaLM是一個LLM(大型語言模型),它可以回答來自各種醫(yī)療數(shù)據(jù)集的問題,甚至還包括谷歌發(fā)明的一種全新的代表消費者在互聯(lián)網(wǎng)上提出的關(guān)于健康的問題的。
即使沒有對程序進行醫(yī)學(xué)知識方面的培訓(xùn),也可以通過“檢索增強生成”來提高輸出,這是一種LLM(大型語言模型)在形成輸出時尋求外部輸入的方法,以放大神經(jīng)網(wǎng)絡(luò)本身的功能。
無論哪種方式表現(xiàn)更佳,但此時Llama2和其他模型的開放性為多方提供了使程序改進的機會,而不像GPT-4和Claude 2這樣的商業(yè)項目,它們的運營由其公司所有者自行決定。
作者:Tiernan Ray(蒂爾南·雷)