4月18日,Meta重磅推出Llama 3,稱其為“迄今能力最強的開源大模型”,Llama3的登場又一次影響著AI大模型的競爭格局,引爆AI圈。
同日,Meta CEO 扎克伯格與知名科技播客主持人Dwarkesh Patel的專訪也同步發(fā)出,在這個長達80分鐘的訪談里,主要圍繞Llama3、通用人工智能(AGI)、能源問題、AI安全問題、開源的風險以及意義進行了探討。
扎克伯格稱,AI已成為Meta的核心,Meta AI現(xiàn)在是目前可免費使用的最智能的人工智能助手,即將推出的Llama 3的大型版本將擁有超過4000億參數(shù)。 在AI模型的訓練和發(fā)展方面,小扎提到Llama 3的出現(xiàn)證實了大規(guī)模數(shù)據(jù)和計算資源對于AI模型的重要性,未來,訓練大型AI模型可能面臨資本和能源限制等挑戰(zhàn),強調(diào)AI的出現(xiàn)不是試圖取代人類而是為了賦予人們更強大的工具完成更有挑戰(zhàn)性的任務,以下為訪談要點:
最小參數(shù)的Llama3 80億和最大參數(shù)的上一代Llama2 700億模型性能是同一量級,而最強大的4050億參數(shù)版本還在路上。
Llama 3的出現(xiàn)證實了大規(guī)模數(shù)據(jù)和計算資源對于AI模型的重要性,AI正在從一個"問答"工具,轉(zhuǎn)變?yōu)橐粋€更廣義的"推理"系統(tǒng),它需要理解問題的上下文,融合多方面知識并運用邏輯推理得出結(jié)論。
多模態(tài)是Meta重點關(guān)注的領域,特別關(guān)注的一個模態(tài)是情感理解,如果能夠在這方面取得突破,使人工智能能夠真正理解并表達情感,那么人與機器之間的互動將會變得前所未有的自然和深入。
AI確實會改變?nèi)祟惖墓ぷ鞣绞?,有望顯著提高程序員的工作效率,但AI的出現(xiàn)不是試圖取代人類,而是希望通過這些工具,賦予人們更強大的能力,讓他們能夠完成更多以前難以想象的工作。
AI將像電腦的出現(xiàn)一樣,從根本上改變?nèi)祟惖纳?,帶來許多以前不可能的新應用,推理將深刻改變幾乎所有的產(chǎn)品形態(tài)。
在AI發(fā)展遇到GPU瓶頸時,或資金不足問題前,會首先遇到能源問題,如果人類能夠解決能源的問題,完全有可能建造出比現(xiàn)在規(guī)模更大的算力集群。
我認為未來會出現(xiàn)META AI通用助理產(chǎn)品,每個企業(yè)都希望有一個代表他們利益的AI,AI將推進科學、醫(yī)療保健和各種領域的進步,最終會影響產(chǎn)品和經(jīng)濟的方方面面。
我認為未來如果人工智能過度集中化,其潛在風險可能不亞于它的廣泛傳播,如果一個機構(gòu)擁有比其他所有人更強大的人工智能,這是否也是一件壞事?
我認為訓練的發(fā)展有多種可能性,其中商品化確實是其中之一。商品化意味著隨著市場上選擇的增多,訓練的成本將大大降低,變得更加親民。
關(guān)于存在性風險的問題確實值得我們深入關(guān)注,目前我們更關(guān)注的是內(nèi)容風險,即模型可能被用于制造暴力、欺詐或其他傷害他人的行為。
開源正成為一種全新的、強大的構(gòu)筑大模型的方式。雖然具體的產(chǎn)品會隨著時間的推移不斷發(fā)展、出現(xiàn)和消失,但它們對人類社會的貢獻卻是持久的。
Meta可能很快就會在自研芯片上訓練大模型,但Llama-4可能還無法做到。
以下是訪談全文:
Llama?3頂配版仍在訓練
Dwarkesh Patel:?Mark,歡迎來到這個播客。
Mark Zuckerberg:謝謝你邀請我。我是您播客的忠實粉絲。
Dwarkesh Patel:非常感謝你的贊美。讓我們先聊聊這次采訪發(fā)布時也會同步發(fā)布的產(chǎn)品。能跟我講講關(guān)于Meta AI和相關(guān)模型的最新進展嗎?有哪些令人興奮的地方?
Mark Zuckerberg:我想大多數(shù)人會關(guān)注到的是Meta AI的新版本。我們正在做的最重要的事情是升級模型。我們發(fā)布了Llama-3。我們以開源的方式提供給開發(fā)者社區(qū),同時它也將為Meta AI提供支持。關(guān)于Llama-3有很多值得討論的地方,但我認為最重要的一點是,我們現(xiàn)在認為Meta AI是人們可免費獲得的最智能的AI助手,我們還整合了Google和Bing以獲取實時知識。
我們將讓它在我們的應用中更加突出,在Facebook和Messenger的頂部,你可以直接使用搜索框來提出問題。我們還增加了一些我認為非???、人們會喜歡的創(chuàng)作功能。我覺得動畫是個很好的例子,你基本上可以拿任何圖像,讓它動起來。
人們會覺得非常驚艷的一點是,它現(xiàn)在可以如此快速地生成高質(zhì)量的圖像,實際上是在你輸入的同時實時生成和更新的。你輸入你的查詢,它就會去適配,比如"給我看一張牛站在有山脈背景的田野里,吃著夏威夷果,喝著啤酒的圖片",它會實時更新圖像,這非??幔蚁肴藗儠芟矚g的。我覺得這將是大多數(shù)人在現(xiàn)實世界中能感受到的。我們正在推出它,雖然不是所有地方,但我們從少數(shù)幾個國家開始,未來幾周和幾個月會擴大范圍。我認為這將是一件很了不起的事情,我真的很興奮能把它交到人們手中。這是Meta AI的一大進步。
但如果你想深入了解一下,Llama-3顯然是技術(shù)上最有趣的。我們正在訓練三個版本:我們實際上訓練了三個版本,分別是80億、700億和4050億的密集模型,其中4050億的模型仍在訓練中,所以我們今天并未發(fā)布。但我對80億和700億的表現(xiàn)非常興奮,按照它們的規(guī)模來看是領先的。我們會發(fā)布一篇博客文章,附上所有的基準測試結(jié)果,人們可以自己去看看,它顯然是開源的,所以大家有機會去試用它。
我們有一個新版本的路線圖,將帶來多模態(tài)性、更多的多語言性以及更大的上下文窗口。希望在今年晚些時候,我們能推出4050億參數(shù)的版本。就目前的訓練情況來看,它在MMLU上已經(jīng)達到了85分左右,我們預計它在許多基準測試中都會有領先的成績。我對這一切都非常興奮。700億的版本也非常棒。我們今天發(fā)布它。在MMLU上大約是82分,在數(shù)學和推理方面有領先的成績。我覺得把它交到人們手里會非???。
Dwarkesh Patel:有意思,這是我第一次聽說MMLU作為一個基準。這太令人印象深刻了。
Mark Zuckerberg:80億參數(shù)的版本幾乎與我們發(fā)布的最大版本的Llama-2一樣強大。所以最小的Llama-3基本上與最大的Llama-2一樣強大。
Dwarkesh Patel:在我們深入討論這些模型之前,我想回到過去。我猜想你們是在2022年開始采購這些H100的,或者你可以告訴我具體是什么時候。當時股價受到重創(chuàng)。人們問這些資本支出是怎么回事。人們不買賬元宇宙。我想你花費資本支出來購買這些H100。你當時是如何知道要買H100的?你怎么知道你需要GPU?
Mark Zuckerberg:我想是因為我們當時在開發(fā)Reels。我們總是希望有足夠的算力來構(gòu)建一些我們還看不到的未來的東西。我們在開發(fā)Reels時遇到了這樣的情況,我們需要更多的GPU來訓練模型。這是我們服務的一個重大進化。我們不僅僅是對你關(guān)注的人或主頁的內(nèi)容進行排序,我們開始大力推薦我們所謂的非關(guān)聯(lián)內(nèi)容,也就是來自你沒有關(guān)注的人或主頁的內(nèi)容。
我們可能向你展示的內(nèi)容候選庫從數(shù)千個量級擴大到數(shù)百萬個量級。它需要一個完全不同的基礎設施。我們開始著手進行這項工作,但在基礎設施方面受到限制,無法以我們想要的速度趕上TikTok的進度。我基本上是這樣看的,我想:"嘿,我們必須確保不再陷入這種境地。所以讓我們訂購足夠的GPU來完成Reels、內(nèi)容排名和信息流方面需要做的事情。但讓我們再加倍。"再次強調(diào),我們的普遍原則是,總會有一些我們還看不到的未來的事物。
通往AGI之路
Dwarkesh Patel:你知道那會是AI嗎?
Mark Zuckerberg:我們認為那將是與訓練大型模型有關(guān)的事情。當時我認為可能與內(nèi)容有關(guān)。這只是經(jīng)營公司的一種模式匹配,總會有另一個需要應對的方向,當時我深陷于試圖讓Reels和其他內(nèi)容的推薦系統(tǒng)運作良好。這對Instagram和Facebook來說是一個巨大的突破,能夠向人們展示來自他們甚至沒有關(guān)注的人的有趣內(nèi)容。
但事后看來,這個決定非常正確,這決定源于我們的落后。這并不是因為"哦,我想得太多了"。事實上,大多數(shù)時候,我們之所以做出一些后來看起來不錯的決定,是因為我們之前搞砸了一些事情,只是不想重復犯錯而已。
Dwarkesh Patel:?這完全是題外話,但我想趁現(xiàn)在問一下。我們一會兒再回到AI的話題。2006年你沒有以10億美元的價格出售,但我想你心里肯定有一個你愿意出售的價格,對吧?你有沒有心里盤算過,"我認為Facebook當時的實際估值是多少,而他們給的價格并不合理"?如果他們出價5萬億美元,你當然會賣。那么你當時是如何權(quán)衡這個選擇的?
Mark Zuckerberg:?我覺得有些事情只是個人層面的。我不知道當時我是否有足夠的精明去做那樣的分析。我周圍的人都在為10億美元找各種論據(jù),比如"我們需要創(chuàng)造這么多收入,我們需要做到這么大。這顯然是很多年以后的事了。"這遠遠超出了我們當時的規(guī)模。我當時并沒有真正具備參與那種辯論所需的金融專業(yè)知識。
內(nèi)心深處,我相信我們正在做的事情。我做了一些分析,"如果我不做這個,我會做什么?嗯,我真的喜歡創(chuàng)造東西,我喜歡幫助人們溝通。我喜歡了解人與人之間正在發(fā)生的事情和互動。所以我想,如果我賣掉這家公司,我可能會再建一家類似的公司,而我還挺喜歡現(xiàn)在這家的。那又何必呢?"我認為人們做出的很多最大的賭注往往只是基于信念和價值觀。其實要做前瞻性的分析往往是非常困難的。
Mark Zuckerberg:?我不知道時間表具體如何。我覺得這些事情都會隨著時間逐步推進。
Dwarkesh Patel:?但最終情況下:Llama-10。
Mark Zuckerberg:?我覺得這個問題包含了很多內(nèi)容。我不確定我們是在取代人,還是更多地在給人們提供工具來做更多的事情。
Dwarkesh Patel:?有了Llama-10之后,這棟大樓里的程序員會變得生產(chǎn)力提高10倍嗎?
Mark Zuckerberg:?我希望不止10倍。我不認為人類有一個單一的智力閾值,因為人們有不同的技能。我認為在某個時刻,AI可能會在大多數(shù)事情上超過人類,這取決于模型的強大程度。
但我認為這是循序漸進的,我不認為AGI只是一件事。你基本上是在添加不同的能力。多模態(tài)是我們現(xiàn)在關(guān)注的一個關(guān)鍵點,最初是照片、圖像和文本,但最終會延伸到視頻。因為我們非常關(guān)注元宇宙,所以3D類型的東西也很重要。我非常關(guān)注的一種模態(tài),我沒有看到業(yè)內(nèi)有很多其他人關(guān)注,那就是情感理解。人類大腦有如此多的部分只是專門用來理解人、理解表情和情緒的。我認為這本身就是一種完整的模態(tài),使人工智能能夠真正理解并表達情感,那么人與機器之間的互動將會變得前所未有的自然和深入。
所以除了在推理和記憶方面有很大的改進外,還有許多不同的能力是你希望訓練模型去關(guān)注的,而記憶本身就是一個完整的事情。我認為未來我們不會主要把東西塞進一個查詢上下文窗口來提出更復雜的問題。會有不同的存儲器存儲或不同的定制模型,它們會更加個性化。這些都只是不同的能力。顯然還有把它們做大做小。我們兩者都關(guān)注。如果你運行的是像Meta AI這樣的東西,那是非?;诜掌鞯?。我們也希望它能在智能眼鏡上運行,而智能眼鏡中沒有太多空間。所以你希望有一個非常高效的東西來實現(xiàn)這一點。
Dwarkesh Patel:?如果你在工業(yè)規(guī)模上使用智能進行價值數(shù)百億美元,甚至最終價值數(shù)千億美元的推理,那么用例是什么?是模擬嗎?是元宇宙中的人工智能嗎?我們將把數(shù)據(jù)中心用于什么?
Mark Zuckerberg:?我們的賭注是它基本上會改變所有的產(chǎn)品。我認為將會有一種Meta AI通用助手產(chǎn)品。我認為它將從一個更像聊天機器人的東西,你問一個問題,它會制定一個答案,轉(zhuǎn)變?yōu)槟憬o它更復雜的任務,然后它會離開并完成這些任務。因此,這需要大量的推理,也需要大量的計算和其他方式。
然后我認為,與其他人的其他智能體互動將是我們所做的一大部分,無論是針對企業(yè)還是創(chuàng)作者。我對此的一個重要理論是,不會只有一個你與之交互的單一AI,每個企業(yè)都會想要一個代表他們利益的AI。他們不會想主要通過一個會銷售競爭對手產(chǎn)品的AI與你互動。
我認為創(chuàng)作者將是一個很大的群體。我們的平臺上大約有2億名創(chuàng)作者。他們基本上都有這樣的模式,他們想吸引他們的社區(qū),但他們受到時間的限制。他們的社區(qū)通常想吸引他們,但他們不知道自己受到白天時間的限制。如果你能創(chuàng)造出一種東西,讓創(chuàng)作者基本上可以擁有AI,按照他們想要的方式訓練它,并讓他們的社區(qū)參與進來,我認為這也會非常強大,所有這些事情都會有大量的參與。
這些只是消費者使用案例。我和妻子經(jīng)營我們的基金會,陳-扎克伯格倡議。我們在科學方面做了很多工作,顯然有很多AI工作將推進科學、醫(yī)療保健和所有這些事情。因此,它最終會影響產(chǎn)品和經(jīng)濟的基本上每個領域。
Dwarkesh Patel:?你提到AI可以為你做一些多步驟的事情。這是一個更大的模型嗎?例如,對于Llama-4,是否仍然會有一個700億參數(shù)的版本,但你只需要在正確的數(shù)據(jù)上訓練它,它就會非常強大?進展是什么樣的?是縱向擴展嗎?還是像你說的那樣,同樣大小但不同的數(shù)據(jù)庫?
Mark Zuckerberg:?我不知道我們是否知道這個問題的答案。我認為一個似乎是一種模式的東西是,你有Llama模型,然后你在它周圍構(gòu)建某種其他特定于應用程序的代碼。其中一些是針對用例的微調(diào),但有些是,例如,Meta AI應該如何使用Google或Bing等工具來引入實時知識的邏輯。這不是基礎Llama模型的一部分。對于Llama-2,我們有一些這樣的東西,它更多的是手工設計的。我們對Llama-3的部分目標是將更多這樣的東西納入模型本身。對于Llama-3,當我們開始進入更多這些類似于agent的行為時,我認為其中一些將是更多手工設計的。我們對Llama-4的目標將是將更多這樣的東西納入模型。
在每一步中,你都會感覺到在地平線上什么是可能的。你開始擺弄它,在它周圍做一些hack。我認為這有助于你磨練你的直覺,知道你想嘗試在下一個版本的模型中訓練什么。這使得它更加通用,因為顯然對于任何你手動編碼的東西,你可以解鎖一些用例,但它本質(zhì)上是脆弱的和非通用的。
Dwarkesh Patel:?當你說"納入模型本身"時,你是指在模型本身想要的東西上訓練它嗎?你說的"納入模型本身"是什么意思?
Mark Zuckerberg:?對于Llama-2,工具的使用非常具體,而Llama-3在工具使用方面要好得多。我們不必手動編寫所有的東西來讓它使用Google并進行搜索。它可以直接做到這一點。類似地,對于編碼和運行代碼以及許多類似的東西也是如此。一旦你獲得了這種能力,你就可以瞥見我們接下來可以開始做什么。我們不一定要等到Llama-4出現(xiàn)才開始構(gòu)建這些功能,所以我們可以開始在它周圍做一些hack。你做了大量的手工編碼,至少在過渡期內(nèi),這會使產(chǎn)品變得更好。然后這有助于為我們想要在下一個版本模型中構(gòu)建的東西指明方向。
Dwarkesh Patel:?你最期待Llama-3的哪個社區(qū)微調(diào)?也許不是對你最有用的那個,而是你最享受玩的那個。他們在古代對它進行了微調(diào),你就會和維吉爾交談之類的。你對什么感興趣?
Mark Zuckerberg:?我認為這類東西的本質(zhì)是你會感到驚訝。任何我認為有價值的具體事物,我們可能都在構(gòu)建。我認為你會得到蒸餾版本。我認為你會得到較小的版本。有一點是,我認為80億還不夠小,無法滿足大量用例。隨著時間的推移,我很樂意得到一個10-20億參數(shù)的模型,甚至是一個5億參數(shù)的模型,看看你能用它做什么。
如果有80億個參數(shù),我們幾乎和最大的Llama-2模型一樣強大,那么有10億個參數(shù),你應該能做一些有趣的事情,而且速度更快。在將其提供給最強大的模型以完善提示應該是什么之前,它非常適合于分類,或者人們在理解用戶查詢意圖方面所做的許多基本事情。我認為這可能是社區(qū)可以幫助填補的一個空白。我們也在考慮自己開始蒸餾其中一些東西,但現(xiàn)在GPU都被用來訓練4050億的模型了。
Dwarkesh Patel:?你有所有這些GPU,我想你說過到今年年底會有35萬個。
Mark Zuckerberg:?那是整個系列。我們建造了兩個,我想是2.2萬或2.4萬的集群,這是我們用來訓練大型模型的單個集群,顯然是在我們所做的很多事情中。我們很多東西都用于訓練Reels模型、Facebook新聞源和Instagram信息流。推理對我們來說是一件大事,因為我們?yōu)榇罅咳颂峁┓铡?紤]到我們所服務的社區(qū)的龐大規(guī)模,我們所需的推理計算與訓練之比可能比大多數(shù)從事這些工作的其他公司要高得多。
Dwarkesh Patel:?在他們事先與我分享的材料中,有一點很有趣,你在訓練時使用的數(shù)據(jù)比僅用于訓練的計算最優(yōu)數(shù)據(jù)還要多。推理對你們來說是一個大問題,對社區(qū)也是如此,在里面放入數(shù)萬億個token是有意義的。
Mark Zuckerberg:?盡管有了700億參數(shù)的模型,有一件有趣的事情是,我們認為它會更加飽和。我們用大約15萬億個token對它進行了訓練。我想我們一開始的預測是它會更多地漸近,但即使在最后它仍在學習。我們可能本可以給它更多的token,它就會變得更好一些。
在某種程度上,你在經(jīng)營一家公司,你需要做這些元推理問題。我是想把我們的GPU花在進一步訓練700億模型上?我們是想繼續(xù)下去,以便開始測試Llama-4的假設?我們需要做出這個決定,我認為我們在這個版本的700億中取得了合理的平衡。未來還會有其他的700億,多模態(tài)的那個,會在接下來的一段時間內(nèi)推出。但令人著迷的是,在這一點上,架構(gòu)可以接受如此多的數(shù)據(jù)。
能源瓶頸制約發(fā)展
Dwarkesh Patel:?這真的很有趣。這對未來的模型意味著什么?你提到Llama-3的80億比Llama-2的700億還要好。
Mark Zuckerberg:?不,不,它幾乎一樣好。我不想夸大其詞。它在同一數(shù)量級上。
Dwarkesh Patel:?這是否意味著Llama-4的700億將與Llama-3的4050億一樣好?未來看起來如何?
Mark Zuckerberg:?這是一個很棒的問題,對吧?我想沒有人知道。在這個世界上,計劃指數(shù)曲線是最棘手的事情之一。它會持續(xù)多久?我認為我們很可能會繼續(xù)下去。我認為值得投資數(shù)百億或超過1000億美元來構(gòu)建基礎設施,并假設如果它繼續(xù)發(fā)展,你將獲得一些真正驚人的東西,這將創(chuàng)造出驚人的產(chǎn)品。我不認為業(yè)界有任何人真的可以肯定地告訴你它肯定會以那種速度繼續(xù)擴展。一般來說,在歷史上,你在某些時候會遇到瓶頸。現(xiàn)在有如此多的能量投入到這個領域,也許那些瓶頸會很快被打破。我認為這是一個有趣的問題。
Dwarkesh Patel:?在沒有這些瓶頸的世界里會是什么樣子?假設進展只是以這種速度繼續(xù)下去,這似乎是可能的。從更廣的角度看,忘記Llamas...
Mark Zuckerberg:?嗯,會有不同的瓶頸。在過去幾年里,我認為有這個GPU生產(chǎn)的問題。即使是有錢購買GPU的公司也不一定能得到他們想要的那么多,因為有所有這些供應限制?,F(xiàn)在我認為這種情況正在減少。所以你看到一群公司現(xiàn)在正在考慮投入大量資金來建設這些東西。我認為這將持續(xù)一段時間。有一個資本問題。在什么時候投入資本就不值得了?
我實際上認為在我們遇到這個問題之前,你將遇到能源限制。我不認為有人已經(jīng)建造了千兆瓦級的單一訓練集群。你遇到的這些東西最終會在世界上變得更慢。獲得能源許可是一項受到嚴格管制的政府職能。你從軟件開始,軟件在某種程度上受到監(jiān)管,我認為它比許多技術(shù)界人士認為的要受到更多監(jiān)管。顯然,如果你正在創(chuàng)辦一家小公司,也許你會感覺到這一點。我們與世界各地的不同政府和監(jiān)管機構(gòu)互動,我們有很多規(guī)則需要遵守并確保我們做得很好。毫無疑問,能源是受到嚴格管制的。
如果你在談論建設大型新電廠或大型擴建,然后建設穿越其他私人或公共土地的輸電線路,那只是一件受到嚴格管制的事情。你說的是多年的準備時間。如果我們想建立一些大型設施,為其供電是一個非常長期的項目。我認為人們會這樣做,但我不認為這是一件可以像達到一定的人工智能水平、籌集一大筆資金并投入進去,然后模型就會......你確實會在過程中遇到不同的瓶頸。
Dwarkesh Patel:?你提到Meta即使研發(fā)預算或資本支出預算是現(xiàn)在的10倍,也無法負擔得起的事情嗎?有沒有這樣的事情,也許是與人工智能相關(guān)的項目,也許不是,即使像Meta這樣的公司也沒有資源?有沒有你腦海中閃過的事情,但以現(xiàn)在的Meta,你甚至無法為此發(fā)行股票或債券?它的規(guī)模比你的預算大10倍?
Mark Zuckerberg:?我認為能源是一個方面。我認為如果我們能獲得能源,我們可能會建造比目前更大的集群。
Dwarkesh Patel:?這在極限情況下從根本上受到資金的限制嗎?如果你有1萬億美元......
Mark Zuckerberg:?我認為是時間問題。這取決于指數(shù)曲線走多遠?,F(xiàn)在許多數(shù)據(jù)中心的規(guī)模在50兆瓦或100兆瓦左右,或者一個大的數(shù)據(jù)中心可能是150兆瓦。拿一個整個數(shù)據(jù)中心,裝滿你需要做訓練的所有東西,你建造你能建造的最大的集群。我認為有一群公司正在做這樣的事情。
但是當你開始建造一個300兆瓦、500兆瓦或1吉瓦的數(shù)據(jù)中心時,還沒有人建造過1吉瓦的數(shù)據(jù)中心。我認為這將發(fā)生。這只是時間問題,但不會是明年的事。其中一些事情需要幾年的時間來建設。只是為了說明這一點,我認為一個千兆瓦的數(shù)據(jù)中心相當于一個有意義的核電站,只用于訓練一個模型。
Dwarkesh Patel:?亞馬遜沒有這樣做嗎?他們有950兆瓦的。
Mark Zuckerberg:?我不確切知道他們做了什么。你得問他們。
Dwarkesh Patel:?但它不一定要在同一個地方,對吧?如果分布式訓練有效,它可以是分布式的。
Mark Zuckerberg:?嗯,我認為這是一個大問題,它將如何工作。未來似乎很有可能,我們所說的這些大型模型的訓練實際上更接近于推理生成合成數(shù)據(jù),然后再將其輸入模型。我不知道這個比例會是多少,但我認為合成數(shù)據(jù)的生成比今天的訓練更像是推理。顯然,如果你這樣做是為了訓練一個模型,它就是更廣泛的訓練過程的一部分。所以這是一個懸而未決的問題,這個平衡以及它將如何發(fā)展。
Dwarkesh Patel:?這是否也可能適用于Llama-3,也許從Llama-4開始?就像你把它放出來,如果有人有大量的計算能力,那么他們就可以使用你放出的模型讓這些東西變得任意智能。假設有一些隨機的國家,比如科威特或阿聯(lián)酋,它們有大量的計算能力,它們實際上可以只使用Llama-4來制造更智能的東西。
Mark Zuckerberg:?我確實認為會有這樣的動態(tài),但我也認為模型架構(gòu)有一個根本的限制。我認為像我們用Llama-3架構(gòu)訓練的700億模型可以變得更好,它可以繼續(xù)發(fā)展。正如我所說,我們覺得如果我們繼續(xù)給它更多的數(shù)據(jù)或再次輪換高價值的token,它就會繼續(xù)變得更好。我們已經(jīng)看到世界各地的一群不同的公司基本上采用Llama-2 700億模型架構(gòu),然后構(gòu)建一個新的模型。但是當你對Llama-3 700億或Llama-3 4050億進行代際改進時,今天還沒有任何類似的開源模型。我認為這是一個巨大的階躍。人們能夠在此基礎上建立的東西,我認為不能無限地從那里發(fā)展。在你達到下一個階躍之前,可以對其進行一些優(yōu)化。
AI未來會發(fā)展到哪一步?
Dwarkesh Patel:?讓我們從具體的模型甚至你需要獲得能源審批的多年準備時間稍微放大一點。大局來看,未來幾十年人工智能會發(fā)生什么?它感覺像是另一種技術(shù),比如元宇宙或社交,還是感覺像是人類歷史進程中一個根本不同的東西?
Mark Zuckerberg:?我認為它將是非常根本性的。我認為它將更像是計算機本身的創(chuàng)造。你將獲得所有這些新的應用,就像你獲得網(wǎng)絡或移動電話時一樣。人們基本上重新思考了所有這些體驗,因為以前不可能的很多事情都變得可能了。所以我認為這將會發(fā)生,但我認為這是一個低得多的創(chuàng)新層次。我的感覺是,它將更像是人們從沒有電腦到有電腦。
在宇宙尺度上,這顯然會在幾十年的時間內(nèi)迅速發(fā)生。有一些人擔心它真的會失控,并在一夜之間從有點智能變成極其智能。我只是認為有所有這些物理限制使得這不太可能發(fā)生。我只是不認為這會發(fā)生。我想我們會有時間適應一點。但它確實會改變我們的工作方式,并為人們提供所有這些創(chuàng)造性的工具來做不同的事情。我認為它將真正使人們能夠做更多他們想做的事情。
Dwarkesh Patel:?所以也許不是在一夜之間,但從宇宙尺度來看,我們能以這種方式思考這些里程碑嗎?人類進化了,然后人工智能出現(xiàn)了,然后他們?nèi)チ算y河系。也許需要幾十年,也許需要一個世紀,但這就是現(xiàn)在正在歷史上發(fā)生的宏偉藍圖嗎?
Mark Zuckerberg:?抱歉,從什么意義上說?
Dwarkesh Patel:?從這個意義上說,還有其他技術(shù),如計算機,甚至是火,但人工智能本身的發(fā)展與人類進化一樣重要。
Mark Zuckerberg:?我認為這很棘手。人類歷史就是人們基本上認為人性的某些方面在不同方面真的很獨特,然后接受這不是真的這一事實,但人性實際上仍然非常特別。我們認為地球是宇宙的中心,但事實并非如此,但人類仍然非常棒,非常獨特,對吧?
我認為人們傾向于有的另一種偏見是認為智能在某種程度上與生命有根本的聯(lián)系。它實際上并不清楚是否如此。我不知道我們是否有足夠清晰的意識或生命的定義來充分審視這一點。有所有這些科幻小說關(guān)于創(chuàng)造智能,它開始呈現(xiàn)出所有這些類人的行為和類似的東西。目前所有這些東西的化身感覺它正朝著一個方向發(fā)展,在這個方向上,智能可以與意識、能動性和類似的東西相當分離,我認為這只是使它成為一個超級有價值的工具。
Mark Zuckerberg:?顯然,隨著時間的推移,很難預測這些東西會朝哪個方向發(fā)展,這就是為什么我認為任何人都不應該教條地計劃如何開發(fā)它或計劃做什么。你要隨著每次發(fā)布來看待它。我們顯然非常支持開源,但我還沒有承諾要發(fā)布我們所做的每一件事。我基本上非常傾向于認為,開源對社區(qū)有好處,也對我們有好處,因為我們將從創(chuàng)新中受益。然而,如果在某個時刻,這個東西的能力發(fā)生了一些質(zhì)的變化,而且我們覺得開源它是不負責任的,那么我們就不會開源。這一切都很難預測。
開源的風險平衡
Dwarkesh Patel:?如果你在訓練Llama-5或Llama-4時看到了什么具體的質(zhì)變,會讓你覺得"你知道嗎,我不確定是否要開源它"?
Mark Zuckerberg:?抽象地回答這個問題有點困難,因為任何產(chǎn)品都可能表現(xiàn)出負面行為,只要你能減輕這些行為,就沒問題。社交媒體有不好的東西,我們努力去緩解。Llama-2也有不好的地方,我們花了很多時間努力確保它不會幫助人們實施暴力行為或類似的事情。這并不意味著它是一種自主的或智能體,這只是意味著它學到了很多關(guān)于世界的知識,它可以回答一些我們認為讓它回答是沒有幫助的問題。我認為問題不在于它會表現(xiàn)出什么行為,而在于它表現(xiàn)出這些行為后,我們不能緩解什么。
我認為有太多方式可以讓事物變得好或壞,以至于很難事先列舉出所有這些方式。看看我們在社交媒體中不得不應對的情況和各種傷害。我們基本上已經(jīng)總結(jié)出大約18或19類人們會做的有害事情,我們基本上已經(jīng)建立了人工智能系統(tǒng)來識別這些事情是什么,并盡可能確保這些事情不會在我們的網(wǎng)絡上發(fā)生。隨著時間的推移,我認為你也能把它分解成一個更詳細的分類。我認為這是我們花時間研究的事情,因為我們想確保我們理解這一點。
Dwarkesh Patel:?在我看來,這是個好主意。如果在未來,人工智能系統(tǒng)沒有廣泛部署,每個人都無法訪問它們,我會感到失望。同時,我想更好地理解緩解措施。如果緩解措施是微調(diào),關(guān)于開放權(quán)重的問題是,你可以移除微調(diào),而微調(diào)通常是在這些能力之上的表面功能。如果它就像在Slack上與生物學研究人員交談......我認為模型離這還很遠?,F(xiàn)在,它們就像Google搜索。但是如果我能向它們展示我的培養(yǎng)皿,它們能解釋為什么我的天花樣本沒有生長以及需要改變什么,你如何緩解這個問題?因為有人可以直接微調(diào)進去,對吧?
Mark Zuckerberg:?這是真的。我認為,大多數(shù)人會選擇直接使用現(xiàn)成的模型,但也有一些心懷不軌的人可能會試圖利用這些模型進行不良行為,另一方面,我在哲學上如此支持開源的原因之一是,我認為未來如果人工智能過度集中化,其潛在風險可能不亞于它的廣泛傳播。許多人都在思考:“如果我們能夠做到這些,那么這些技術(shù)在社會上的廣泛應用是否會成為壞事?”同時,另一個值得思考的問題是,如果一個機構(gòu)擁有比其他所有人更強大的人工智能,這是否也是一件壞事?
我想到一個安全類比,許多不同的事物中存在如此多的安全漏洞。如果你能回到一兩年前,假設你只是多了一兩年關(guān)于安全漏洞的知識。你幾乎可以侵入任何系統(tǒng)。這不是人工智能。所以相信一個非常智能的人工智能可能能夠識別一些漏洞,基本上就像一個人類可以回到一兩年前并破壞所有這些系統(tǒng),這并非完全是天方夜譚。
那么我們作為一個社會是如何應對這種情況的呢?一個重要部分是開源軟件,它使得當軟件得到改進時,它不會只局限于一個公司的產(chǎn)品,而是可以廣泛部署到許多不同的系統(tǒng)中,無論是銀行、醫(yī)院還是政府的東西。隨著軟件變得更加強大,這是因為更多的人可以看到它,更多的人可以敲打它,關(guān)于這些東西如何工作有一些標準。世界可以一起很快升級。
我認為,在一個人工智能被非常廣泛部署的世界里,它已經(jīng)隨著時間的推移逐步得到強化,所有不同的系統(tǒng)都會以某種方式受到制約。在我看來,這從根本上比這種情況更集中要健康得多。所以各方面都有風險,但我認為這是一種我沒聽到人們談論得那么多的風險。有人工智能系統(tǒng)做壞事的風險。但我整夜擔心的是,一個不值得信賴的行為者擁有超級強大的人工智能,無論是敵對的政府、不值得信賴的公司還是其他什么。我認為這可能是一個大得多的風險。
Dwarkesh Patel:?因為他們有一種別人都沒有的武器?
Mark Zuckerberg:?或者只是制造大量混亂。我的直覺是,由于經(jīng)濟、安全和其他原因,這些東西最終變得非常重要和有價值。如果你不信任的人或?qū)κ值玫搅烁鼜姶蟮臇|西,那么我認為這可能是一個問題。也許緩解這種情況的最佳方式是擁有良好的開源人工智能,使其成為標準,并在許多方面成為領導者。它只是確保這是一個更加公平和均衡的競爭環(huán)境。
Dwarkesh Patel:?這在我看來似乎是合理的。如果這成為現(xiàn)實,那將是我更喜歡的未來。我想從機制上理解,世界上存在開源人工智能系統(tǒng)這一事實如何防止有人用他們的人工智能系統(tǒng)制造混亂?以某人帶著生物武器的具體例子來說,是不是我們會在世界其他地方做一堆研發(fā)來快速找出疫苗?發(fā)生了什么?
Mark Zuckerberg:?如果你以我提到的安全問題為例,我認為擁有較弱人工智能的人試圖侵入一個由較強人工智能保護的系統(tǒng),成功的可能性會更小。就軟件安全而言。
Dwarkesh Patel:?我們怎么知道世界上的一切都是這樣的?如果生物武器不是這樣呢?
Mark Zuckerberg:?我的意思是,我不知道世界上的一切都是這樣的。生物武器是最擔心這類事情的人關(guān)注的領域之一,我認為這很有道理。有一些緩解措施。你可以嘗試不把某些知識訓練到模型中。有不同的做法,但在某種程度上,如果你遇到一個非常糟糕的行為者,而且你沒有其他人工智能來平衡他們并了解威脅是什么,那可能就是一種風險。這是我們需要注意的事情之一。
Dwarkesh Patel:?在部署這些系統(tǒng)時,你能看到什么情況嗎?比如你在訓練Llama-4,它欺騙了你,因為它認為你沒有注意到什么,然后你就想"哇,這是怎么回事?"這在Llama-4這樣的系統(tǒng)中可能不太可能,但你能想象有什么類似的情況會讓你真正擔心欺騙性,以及數(shù)十億個這樣的副本在野外傳播嗎?
Mark Zuckerberg:?我的意思是,現(xiàn)在我們看到很多幻覺。更多的是這樣。我認為這是一個有趣的問題,你如何區(qū)分幻覺和欺騙。有很多風險和需要考慮的事情。至少在經(jīng)營我們公司時,我努力在這些長期的理論風險與我實際認為當今存在的相當真實的風險之間取得平衡。所以當你談到欺騙時,我最擔心的形式是人們利用這個來制造錯誤信息,然后通過我們的網(wǎng)絡或其他網(wǎng)絡來傳播。我們對抗這種有害內(nèi)容的方式是建立比對抗性更智能的人工智能系統(tǒng)。
這也是我對此理論的一部分。如果你看看人們通過社交網(wǎng)絡做或試圖做的各種傷害,有一些并不是非常具有對抗性的。例如,仇恨言論在人們沒有在種族主義方面變得更好這個意義上并不是超級對抗性的。在這一點上,我認為人工智能總體上變得越來越復雜,其速度比人們在這些問題上要快得多。我們兩方面都有問題。人們做壞事,無論是試圖煽動暴力還是其他什么,但我們也有很多誤報,基本上是我們不應該審查的東西。我認為這可以理解地讓很多人感到惱火。所以我認為隨著時間的推移,擁有一個在這方面越來越精確的人工智能將是好事。
在這些情況下,我仍然考慮讓我們的人工智能系統(tǒng)以比他們更快的速度變得更加復雜的能力。這是一場軍備競賽,但我認為我們至少目前正在贏得這場軍備競賽。這是我花時間思考的很多東西。
是的,無論是Llama-4還是Llama-6,我們都需要思考我們觀察到的行為
Dwarkesh Patel:你把它開源的部分原因是,還有很多其他人也在研究這個。
Mark Zuckerberg:所以,是的,我們想看看其他人在觀察什么,我們在觀察什么,我們可以改善什么。然后我們會評估是否可以將其開源。但我認為在可預見的未來,我對我們能夠做到這一點持樂觀態(tài)度。在短期內(nèi),我不想忽視人們今天試圖使用這些模型的實際壞事,即使它們不是存在的,但它們就像我們熟悉的和運行我們的服務的相當嚴重的日常危害。實際上,我認為這也是我們必須花費大量時間的事情。
我發(fā)現(xiàn)合成數(shù)據(jù)的事情真的很奇怪,我實際上感興趣的是為什么你不像當前的模型那樣思考,為什么一遍又一遍地進行合成數(shù)據(jù)可能會有漸近線是有道理的。如果他們變得更聰明,并采用我在論文或博客文章中提到的那種技術(shù),這些技術(shù)將在發(fā)布當天被廣泛應用,它將引領正確的思維鏈條。為什么這不會形成一個循環(huán)呢?
當然,這不會在一夜之間發(fā)生,而是需要經(jīng)過數(shù)月甚至數(shù)年的訓練。可能會使用更智能的模型,它會變得更聰明,產(chǎn)生更好的輸出,然后再變得更聰明,如此循環(huán)。我認為這是在模型架構(gòu)的參數(shù)范圍內(nèi)可以實現(xiàn)的。
在某種程度上,我并不確定,我認為就像今天的80億參數(shù)模型一樣,我并不認為你能夠像最先進的數(shù)千億參數(shù)模型那樣好,這些模型將新的研究融入到架構(gòu)本身中。但這些模型也會是開源的,但我認為這取決于我們剛才討論的所有問題。
我們希望情況會是這樣。然而,在每個階段,就像你在開發(fā)軟件時,你可以用軟件做很多事情,但在某種程度上,你會受到運行它的芯片的限制,所以總是會有不同的物理限制。模型的大小會受到你可以獲得和用于推理的能量的限制。所以我同時非常樂觀地認為這些東西會繼續(xù)快速改進。
我比有些人更謹慎,我只是認為失控的情況不太可能發(fā)生。我認為保持選擇的開放是有意義的。我們面臨的未知事物太多了。有一種情況是,保持權(quán)力平衡真的很重要。就像有一場智力爆炸,他們喜歡贏得勝利。很多事情似乎都是可能的。就像保持你的選擇開放一樣,考慮所有的選擇似乎是合理的。
Dwarkesh Patel:?Meta作為一家大公司。你可以兩者兼顧。至于開源的其他危險,我認為你提出了一些真正合理的觀點,關(guān)于力量平衡的問題、以及我們可以通過更好的對齊技術(shù)或其他方式消除的危害。我希望Meta有某種框架。其他實驗室有這樣的框架,他們會說"如果我們看到這個具體的事情,那就不能開源,甚至可能不能部署。"只是把它寫下來,這樣公司就做好了準備,人們對此有所期待等等。
Mark Zuckerberg:?關(guān)于存在性風險方面,這是一個很好的觀點?,F(xiàn)在我們更關(guān)注我們今天看到的風險類型,更多的是這些內(nèi)容風險,我們不希望模型做一些幫助人們實施暴力、欺詐或以不同方式傷害人們的事情。談論存在性風險可能在智力上更有趣,但我實際上認為,需要更多精力來緩解的真正危害是,有人拿著模型做一些傷害他人的事情。在實踐中,對于當前的模型,我猜測下一代模型,甚至再下一代模型,這些都是我們今天看到的更普通的危害,比如人們互相欺詐之類的。我只是不想低估這一點。我認為我們有責任確保在這方面做好工作。
Dwarkesh Patel:?Meta是一家大公司。你可以兩者兼顧。
Mark Zuckerberg:?沒錯。
對元宇宙的看法
Dwarkesh Patel:?讓我們來談談其他事情。元宇宙。你最想去人類歷史上的哪個時期?從公元前10萬年到現(xiàn)在,你只是想看看那時候是什么樣子?
Mark Zuckerberg:?一定要是過去嗎?
Dwarkesh Patel:?是的一定是過去。
Mark Zuckerberg:?我對美國歷史和古典歷史非常感興趣。我對科學史也很感興趣。我實際上認為看到并試圖了解更多關(guān)于一些重大進展是如何發(fā)生的會很有趣。關(guān)于這些東西,我們所擁有的只是一些有限的知識。我不確定元宇宙是否能讓你做到這一點,因為對于我們沒有記錄的事情要回到過去是很難的。我實際上不確定回到過去是否會是一件重要的事情。我認為這對歷史課之類的東西會很酷,但這可能不是我對元宇宙整體最興奮的用例。
主要的事情就是能夠與人感覺在一起,無論你在哪里。我認為那將是致命的。在我們進行的關(guān)于人工智能的對話中,很多內(nèi)容都是關(guān)于所有這些背后的物理限制。
我認為技術(shù)的一個教訓是,你要盡可能地將事物從物理約束領域轉(zhuǎn)移到軟件中,因為軟件的構(gòu)建和發(fā)展要容易得多。你可以讓它更加民主化,因為不是每個人都會有數(shù)據(jù)中心,但很多人可以編寫代碼并修改開源代碼。元宇宙版本的目標是實現(xiàn)真實的數(shù)字化存在。這將是一個絕對巨大的差異,所以人們不會覺得他們必須為很多事情在一起?,F(xiàn)在我認為,在一起可能會有一些更好的東西。這些事情不是非黑即白的。不會像是"好了,現(xiàn)在你不需要再這樣做了。"但總的來說,我認為這對于社交、與人聯(lián)系、工作、工業(yè)的某些部分、醫(yī)學以及許多其他事情來說都將是非常強大的。
Dwarkesh Patel:?我想回到你在談話開始時說的一件事。你沒有以10億美元的價格出售公司。關(guān)于元宇宙,你知道你要做這件事,即使市場因此而猛烈抨擊你。我很好奇。這種優(yōu)勢的來源是什么?你說"哦,價值觀,我有這種直覺",但每個人都這么說。如果你要說一些你特有的東西,你會如何表達?你為什么如此確信元宇宙?
Mark Zuckerberg:?我認為這些是不同的問題。是什么驅(qū)動著我?我們已經(jīng)談了很多主題。我只是真的喜歡創(chuàng)造東西,我特別喜歡圍繞人們?nèi)绾谓涣饕约袄斫馊藗內(nèi)绾伪磉_自己和工作來創(chuàng)造事物。我上大學時學的是計算機科學和心理學,我認為業(yè)內(nèi)很多其他人學的是計算機科學。所以對我來說,這兩件事的交集一直很重要。
這也是一種非常深層的驅(qū)動力。我不知道如何解釋,但我從內(nèi)心感到,如果我不創(chuàng)造新事物,我就是在做錯事。即使在我們?yōu)橥顿Y1000億美元在人工智能上或在元宇宙投入巨額資金制定商業(yè)案例時,,我們有計劃,我認為這些計劃非常明確,如果我們的東西有效,那將是一項很好的投資。但你不能從一開始就知道,而且,人們有各種各樣的爭論,無論是與顧問還是不同的人。
Dwarkesh Patel:?好吧,你怎么能,你怎么有足夠的信心去做這件事?你不可能從一開始就確定無疑。人們有各種爭論,與顧問或不同的人討論。你怎么有足夠的信心去做這件事?
Mark Zuckerberg:?我停止嘗試創(chuàng)造新事物的那一天,我就完了,我會去別的地方創(chuàng)造新事物。我從根本上無法經(jīng)營一些東西或者在我自己的生活中,不去嘗試創(chuàng)造我認為有趣的新事物。對我來說,我們是否要嘗試創(chuàng)造下一個東西,這甚至不是一個問題。我就是無法不這樣做,我不知道。
我在生活的方方面面都是這樣的。我們的家人在考艾島建造了這個牧場,我參與設計了所有這些建筑。我們開始養(yǎng)牛,我就想"好吧,我想養(yǎng)出世界上最好的牛,那么我們?nèi)绾卧O計這個牧場,以便我們能夠弄清楚并建造我們需要嘗試做的所有東西。我不知道,這就是我。
Dwarkesh Patel:?我不確定,但我實際上對另一件事很好奇。19歲的你讀了很多古代和古典作品,包括高中和大學期間。你從中學到了什么重要的一課?不僅僅是你發(fā)現(xiàn)的有趣的東西,而且像……到你19歲的時候,你消耗的Token并不多。其中很多都是關(guān)于經(jīng)典的。顯然,這在某種程度上很重要。
Mark Zuckerberg:?你消耗的token并不多......這是個好問題。這是我認為非常有趣的事情之一。奧古斯都成為皇帝,他試圖建立和平。當時沒有真正的和平概念。人們對和平的理解是敵人不可避免地攻擊你之間的暫時時期。所以你可以得到短暫的休息。他有這樣一種觀點,即將經(jīng)濟從雇傭兵和軍事主義的東西轉(zhuǎn)變?yōu)閷嶋H上的正和游戲。這在當時是一個非常新穎的想法。
這是一件非常根本的事情:?人們當時可以想象的作為理性工作方式的界限。這既適用于元宇宙,也適用于人工智能的東西。許多投資者和其他人無法理解我們?yōu)槭裁匆_源。就像是"我不明白,它是開源的。這一定只是你讓事物成為專有的臨時時期,對吧?"我認為這是技術(shù)中一個非常深刻的東西,它實際上創(chuàng)造了很多贏家。
我不想過度強調(diào)這個類比,但我確實認為,很多時候,有一些構(gòu)建事物的模式是人們通常無法理解的。他們無法理解這對人們來說怎么會是一件有價值的事情,或者它怎么會是一種合理的世界狀態(tài)。我認為,比人們想象的更合理的事情還有很多。
Dwarkesh Patel:?這非常有趣。我能告訴你我在想什么嗎?關(guān)于你可能從中得到的東西?這可能完全不對,但我認為關(guān)鍵是其中一些人有很重要的角色,他們在帝國中的年齡有多小。例如,凱撒·奧古斯都,在他19歲的時候,已經(jīng)是羅馬政治中最重要的人物之一。他正在領導戰(zhàn)斗,組建第二次三頭統(tǒng)治。我想知道19歲的你是否在想"我能做到這一點,因為凱撒·奧古斯都做到了。"
Mark Zuckerberg:?這是一個有趣的例子,無論是在很多歷史還是美國歷史中都是如此。我最喜歡的一句話是畢加索的這句話,所有的孩子都是藝術(shù)家,挑戰(zhàn)在于隨著年齡的增長保持藝術(shù)家的身份。當你年輕的時候,有瘋狂的想法更容易。在你的生活中,以及對于你的公司或你建立的任何東西,都存在著所有這些與創(chuàng)新者困境的類比。你在軌跡上處于較早的位置,所以更容易轉(zhuǎn)向并接受新的想法,而不會破壞對不同事物的其他承諾。我認為這是經(jīng)營公司的一個有趣的部分。你如何保持動態(tài)?
開源價值100億美元的模型
Dwarkesh Patel:?讓我們回到投資者和開源的話題。100億美元的模型,假設它是完全安全的。你已經(jīng)做了這些評估,與本例不同的是,評估者也可以微調(diào)模型,希望在未來的模型中也是如此。你會開源這個100億美元的模型嗎?
Mark Zuckerberg:?只要它對我們有幫助,那就會。
Dwarkesh Patel:?但會有幫助嗎?100億美元的研發(fā),現(xiàn)在它是開源的。
Mark Zuckerberg:?這也是一個我們需要隨著時間的推移進行評估的問題。我們有很長的開源軟件歷史,但我們不傾向于開源我們的產(chǎn)品,我們不會拿Instagram的代碼來開源。
我們采用了很多底層基礎設施,并將其開源。我們歷史上最大的一次可能是我們的Open Compute項目,我們采用了我們所有服務器、網(wǎng)絡交換機和數(shù)據(jù)中心的設計,并將其開源,最終它被證明非常有幫助。雖然很多人可以設計服務器,但業(yè)界現(xiàn)在都采用了我們的設計標準,這意味著供應鏈基本上都是圍繞我們的設計建立的。因此,產(chǎn)量上升,對每個人來說都更便宜,為我們節(jié)省了數(shù)十億美元,這太棒了。
因此,開源可能對我們有幫助的方式有多種。一種是如果人們想出了如何更便宜地運行模型。隨著時間的推移,我們將在所有這些東西上花費數(shù)百億美元甚至更多。因此,如果我們能提高10%的效率,我們就能節(jié)省數(shù)十億或數(shù)百億美元。這本身可能就值得很多。尤其是如果還有其他有競爭力的模型,我們的東西并不是在贈送某種瘋狂的優(yōu)勢。
Dwarkesh Patel:?那么你的觀點是訓練將被商品化嗎?
Mark Zuckerberg:?我認為這可能有很多種發(fā)展方式,這是其中之一。因此,"商品化"意味著它將變得非常便宜,因為有很多選擇。這可能發(fā)展的另一個方向是質(zhì)的改進。你提到了微調(diào)?,F(xiàn)在,你可以用微調(diào)其他主要模型做的事情非常有限。有一些選擇,但通常不適用于最大的模型。有能力做到這一點,不同的特定應用程序的事情或特定用例的事情,或者將它們構(gòu)建到特定的工具鏈中。我認為這不僅會實現(xiàn)更高效的開發(fā),還可能實現(xiàn)質(zhì)的不同。
這里有一個類比。我認為移動生態(tài)系統(tǒng)普遍存在的一個問題是,你有這兩家把關(guān)公司,蘋果和谷歌,它們可以告訴你允許構(gòu)建什么。有一個經(jīng)濟版本,就像我們構(gòu)建一些東西,然后他們就拿走你一大筆錢。但還有一個質(zhì)的版本,這實際上更讓我不高興。
有很多次,我們推出或想推出一些功能,而蘋果就說"不,你不能推出。"這很糟糕,對吧,所以問題是,我們是否為人工智能建立了這樣一個世界?你將得到少數(shù)幾家運行這些封閉模型的公司,它們將控制API,因此能夠告訴你可以構(gòu)建什么?
對我們來說,我可以說為了確保我們不處于那個位置,自己去構(gòu)建一個模型是值得的。我不希望任何其他公司告訴我們可以構(gòu)建什么。從開源的角度來看,我認為很多開發(fā)人員也不希望那些公司告訴他們可以構(gòu)建什么。
所以問題是,圍繞這一點構(gòu)建的生態(tài)系統(tǒng)是什么?有哪些有趣的新事物?這在多大程度上改善了我們的產(chǎn)品?我知道有很多情況下,如果這最終成為我們的數(shù)據(jù)庫或緩存系統(tǒng)或架構(gòu),我們將從社區(qū)獲得寶貴的貢獻,這將使我們的產(chǎn)品更好。然后,我們所進行的特定應用程序的工作仍然具有如此大的差異性,以至于它實際上并不重要,對嗎?
也許該模型最終更像是產(chǎn)品本身,在這種情況下,我認為是否開源就成了一個更為復雜的經(jīng)濟計算,因為這樣做在很大程度上就是將自己商品化。但從我目前所看到的情況來看,我們似乎還沒有達到那個水平。
Dwarkesh Patel:?你是否期望從向云提供商許可你的模型中獲得可觀的收入?所以他們必須支付費用才能實際提供該模型。
Mark Zuckerberg:?我們希望有這樣的安排,但我不知道它會有多重要。這基本上是我們對Llama的許可,在很多方面,它是一個非常寬松的開源許可,只是我們對最大的公司使用它有一個限制。這就是我們設置這個限制的原因。我們不是試圖阻止他們使用它。我們只是希望他們來與我們交談,如果他們打算基本上拿走我們構(gòu)建的東西,轉(zhuǎn)售它并從中賺錢。如果你是像Microsoft Azure或Amazon這樣的公司,如果你打算轉(zhuǎn)售該模型,那么我們應該在其中分一杯羹。所以在你去做之前,先來和我們談談。事情就是這樣發(fā)展的。
所以對于Llama-2,我們與基本上所有這些主要云公司都有交易,Llama-2作為托管服務在所有這些云上都可用。我假設,隨著我們發(fā)布越來越大的模型,這將成為一件更大的事情。這不是我們正在做的主要事情,但我認為,如果這些公司要銷售我們的模型,我們應該以某種方式分享其中的好處,這是有道理的。
Dwarkesh Patel:?關(guān)于開源的其他危險,我認為你提出了一些真正合理的觀點,關(guān)于力量平衡的問題,以及我們可以通過更好的對齊技術(shù)或其他方式消除的危害。我希望Meta有某種框架。其他實驗室有這樣的框架,他們會說"如果我們看到這個具體的事情,那就不能開源,甚至可能不能部署。"只是把它寫下來,這樣公司就做好了準備,人們對此有所期待等等。
Mark Zuckerberg:?關(guān)于存在性風險方面,這是一個很好的觀點?,F(xiàn)在我們更關(guān)注我們今天看到的風險類型,更多的是這些內(nèi)容風險。我們不希望模型做一些幫助人們實施暴力、欺詐或以不同方式傷害人們的事情。雖然談論存在性風險可能在智力上更有趣,但我實際上認為,需要更多精力來緩解的真正危害是,有人拿著模型做一些傷害他人的事情。在實踐中,對于當前的模型,我猜測下一代模型,甚至再下一代模型,這些都是我們今天看到的更普通的危害,比如人們互相欺詐之類的。我只是不想低估這一點。我認為我們有責任確保在這方面做好工作。
Dwarkesh Patel:?就開源而言,我感到好奇的是,你認為PyTorch、React、Open Compute等開源項目對世界的影響,是否有可能超越Meta在社交媒體方面的影響?我曾與這些服務的用戶交流過,他們認為這種可能性是存在的,畢竟互聯(lián)網(wǎng)的大部分運行都依賴于這些開源項目。
Mark Zuckerberg:?我們的消費產(chǎn)品確實在全球范圍內(nèi)擁有龐大的用戶基礎,幾乎覆蓋了全世界一半的人口。然而,我認為開源正成為一種全新的、強大的構(gòu)建方式。它可能會像貝爾實驗室一樣,最初他們研發(fā)晶體管是為了實現(xiàn)長途通話,這一目標確實實現(xiàn)了,并為他們帶來了可觀的利潤。但5到10年后,當人們回顧他們最引以為傲的發(fā)明時,可能會提到其他更有深遠影響的技術(shù)。
我堅信,我們構(gòu)建的許多項目,如Reality Labs、某些AI項目以及一些開源項目,將對人類的進步產(chǎn)生持久而深遠的影響。雖然具體的產(chǎn)品會隨著時間的推移不斷發(fā)展、出現(xiàn)和消失,但它們對人類社會的貢獻卻是持久的。這也是我們作為技術(shù)從業(yè)者能夠共同參與的、令人振奮的部分。
自研芯片上訓練模型
Dwarkesh Patel:?關(guān)于你們的Llama模型,它何時會在你們自己的定制芯片上進行訓練?
Mark Zuckerberg:?很快,我們正在努力推動這一進程,但Llama-4可能不是首個在定制芯片上進行訓練的模型。我們采取的方法是,自研定制芯片先處理我們的排名和推薦類型的推理任務,比如Reels、新聞源廣告等。這一旦我們能夠?qū)⑦@些任務轉(zhuǎn)移到我們自己的芯片上,我們就能將更昂貴的英偉達GPU用于訓練更復雜的模型。
在不久的將來,我們有希望自己擁自己的芯片,我們可以首先用它來訓練一些比較簡單的東西,然后最終訓練這些非常大的模型。同時,我要說這個項目進展得很順利,我們正在有條不紊地推進,我們有一個長期的路線圖。
如果小扎成為Google+的CEO
Dwarkesh Patel:?最后一個問題。這完全是題外話,如果你被任命為Google+的CEO,你能讓它成功嗎?
Mark Zuckerberg:Google+?哦。好吧,我不知道。我不知道,這是一個非常困難的反事實。
Dwarkesh Patel:?好的,那真正的最后一個問題是:當Gemini推出時,辦公室里有人說過 "Carthago delenda est"(迦太基必須被摧毀)嗎?
Mark Zuckerberg:?不,我想我們現(xiàn)在更溫和了。這是個好問題。問題是Google+沒有CEO。它只是公司內(nèi)部的一個部門。你之前問過什么是最稀缺的商品,但你問的是美元方面的問題。我實際上認為,對于大多數(shù)這種規(guī)模的公司來說,最稀缺的是專注。
當你是一家初創(chuàng)公司時,也許你在資金方面更受限制。你只專注于一個想法,你可能沒有所有的資源。在某個時候,你會跨越一個門檻,進入你所做事情的本質(zhì)。你正在構(gòu)建多個東西,你在它們之間創(chuàng)造了更多價值,但你在能夠投入其中的精力上變得更加受限。
總有一些情況,組織中會隨機發(fā)生一些很棒的事情,而我甚至都不知道。那些都很棒。但我認為一般來說,組織的能力在很大程度上受到CEO和管理團隊能夠監(jiān)督和管理的內(nèi)容的限制。這對我們來說一直是一個重點。正如本?霍洛維茨所說,我們應該把主要的事情放在首位,并盡量專注于你的關(guān)鍵優(yōu)先事項。
Dwarkesh Patel:?非常好,非常感謝。馬克,你做得太棒了。