av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线

你好,歡迎您來到福建信息主管(CIO)網(wǎng)! 設(shè)為首頁|加入收藏|會員中心
您現(xiàn)在的位置:>> 新聞資訊 >>
“中國版Sora”再落一子,火山引擎如何贏戰(zhàn)中國AI大模型下半場?
作者:福建CIO網(wǎng) 來源:鈦媒體 發(fā)布時間:2024年09月26日 點擊數(shù):


截至今年9月,豆包大模型的日均Tokens使用量已經(jīng)超過1.3萬億,4個月時間里Tokens整體增長超過10倍,經(jīng)過字節(jié)跳動內(nèi)部50+真實業(yè)務(wù)場景實踐驗證,30+行業(yè)外部企業(yè)深度共創(chuàng)。


作者|林志佳

編輯|胡潤峰

本文首發(fā)于鈦媒體APP


AI視頻模型賽道近期已成為生成式AI領(lǐng)域新風(fēng)口,最新發(fā)布的是“字節(jié)版Sora”。


9月24日,預(yù)告已久的2024火山引擎AI創(chuàng)新巡展深圳站上,字節(jié)跳動首款A(yù)I視頻模型——豆包·視頻生成模型正式登場。


豆包·視頻生成模型基于全新DiT擴散模型架構(gòu),能夠精準(zhǔn)理解復(fù)雜prompt(提示詞),實現(xiàn)多個主體運動的復(fù)雜交互,保持多鏡頭切換內(nèi)容的一致性,且具備高保真高美感的影視級生成水準(zhǔn),從而用于電商營銷、城市文旅、動畫教育、微短劇等多個場景中。


那么,不僅“紙上談兵”,而且還要“真練”,那么我們下面看看“字節(jié)版Sora”效果如何。


圖片


首先是一段“童話王國”視頻,花團錦簇在小房子周圍,門窗和燈光清晰可見,橋上和房子背后的動物動作栩栩如生。


圖片


第二段是羊群奔跑的狀態(tài),腿部和奔跑狀態(tài)都如同真實場景一般,后面的黑羊穿過烏云跑向前方。


圖片

圖片


最后一組是呈現(xiàn)多尺寸高清視頻,以及展現(xiàn)AI生成“口紅”廣告的品牌營銷,基于豆包·視頻生成模型,鮮紅色的口紅能讓更多人有了下單購買的欲望。


而且,豆包大模型時隔不到半年還實現(xiàn)6款模型發(fā)布和能力升級,包括:豆包·視頻生成模型、豆包·同聲傳譯模型、豆包·音樂模型;以及升級的豆包通用模型pro、豆包·語音合成模型、豆包·文生圖模型。


很顯然,火山引擎正加速豆包大模型產(chǎn)品和方案落地。


實際上,當(dāng)下大模型技術(shù)快速迭代,技術(shù)可用性大幅提升,已具備文本、語音、視覺的多種模態(tài)能力,并開始完成復(fù)雜指令。因此,生成式AI技術(shù)競賽已進入“下半場”,不僅要有能力,而且商業(yè)化也成為各家AI公司的“必爭之地”。


《生成式AI商業(yè)落地白皮書》顯示,當(dāng)前有53%的中國企業(yè)已開始有組織地進行生成式AI布局。這意味著,很多中國企業(yè)已意識到生成式AI技術(shù)對于自身發(fā)展的重要性,并將在其中投入資源和精力。


一個公開數(shù)據(jù)可以例證:今年上半年,國內(nèi)AI相關(guān)招投標(biāo)市場招標(biāo)總額已超過2023年全年規(guī)模,用于教育、醫(yī)療、交通等多個領(lǐng)域的數(shù)百個場景。


作為中國領(lǐng)先的云和智能解決方案企業(yè),火山引擎最新數(shù)據(jù)顯示,截至今年9月,豆包大模型的日均Tokens使用量已經(jīng)超過1.3萬億,4個月時間里Tokens整體增長超過10倍;同時,C端下載量超過1億次,擁有超過3000萬月活,經(jīng)過字節(jié)跳動內(nèi)部50+真實業(yè)務(wù)場景實踐驗證,30+行業(yè)外部企業(yè)深度共創(chuàng)。


“(今年)下半年是整個AI應(yīng)用的元年?!被鹕揭婵偛米T待表示,作為國內(nèi)第一個把模型成本做到每千token低于一厘錢的企業(yè),火山引擎的豆包大模型推動大量的創(chuàng)新應(yīng)用隨之不斷涌現(xiàn),模型調(diào)用量突飛猛進,大家共同努力讓應(yīng)用的生態(tài)更加繁榮。


如果說2023年還是“百模大戰(zhàn)”,大家卷技術(shù)、卷能力。而到了今年,以火山引擎為代表的“中國OpenAI”們,不僅在大模型層面要有強大“能力”,同時也需要實現(xiàn)對客戶的快速交付及商業(yè)落地,證明著生成式AI技術(shù)能夠?qū)ζ髽I(yè)產(chǎn)生更大的業(yè)務(wù)價值、產(chǎn)業(yè)價值。


三大豆包垂直模型首發(fā)

主力模型綜合提升超25%

圖片


2024年,全球生成式AI技術(shù)持續(xù)“狂飆”。


Crunchbase數(shù)據(jù)顯示,2024年上半年,全球AI風(fēng)投總投資規(guī)模達330億美元,比2023年同期增長177%。預(yù)計今年全年,全球AI投資規(guī)模將有望達到650億美元,在這其中,被投企業(yè)主要來自AI基礎(chǔ)設(shè)施和AI應(yīng)用領(lǐng)域。


年初至今,OpenAI發(fā)布的三款A(yù)I大模型產(chǎn)品,包括2月的AI視頻模型Sora、5月的實時通話模型GPT-4o、9月的推理最強模型o1-preview和o1-mini持續(xù)引發(fā)關(guān)注。


回到國內(nèi),“百模大戰(zhàn)”正轉(zhuǎn)向百款A(yù)I應(yīng)用和場景模型,并呈現(xiàn)新一輪“百家爭鳴”競爭態(tài)勢。字節(jié)跳動、阿里、騰訊、百度、螞蟻、智譜AI等企業(yè)紛紛發(fā)力,文小言、支小寶、秘塔AI搜索等多款A(yù)I智能體(Agent)應(yīng)用不斷落地。


截至目前,作為國內(nèi)使用量最大、應(yīng)用場景最豐富的大模型服務(wù)商之一,火山引擎已經(jīng)公布超過10款A(yù)I模型。同時,智源研究院旗下FlagEval大模型評測平臺此前發(fā)布的榜單顯示,在閉源大模型的“客觀評測”中,豆包大模型以綜合評分75.96分排名國產(chǎn)大模型第一。


如今,火山引擎再度發(fā)力。9月24日,火山引擎AI創(chuàng)新巡展深圳站上共發(fā)布和升級6款大模型產(chǎn)品:


  • 3款全新發(fā)布:豆包·視頻生成模型、豆包·同聲傳譯模型、豆包·音樂模型;


  • 3款模型能力重磅升級:豆包通用模型pro、豆包·語音合成模型、豆包·文生圖模型。


首先是非常受關(guān)注的豆包·視頻生成模型,堪稱“字節(jié)版Sora”。


全新豆包·視頻生成模型基于DiT架構(gòu),通過自研的高壓縮比、高還原性視頻隱狀態(tài)編碼和解碼模型,強力保證了擴散模型在隱狀態(tài)空間的高效編碼與運轉(zhuǎn)。而豆包·視頻生成模型基于深度優(yōu)化的Transformer結(jié)構(gòu),從而大幅提升視頻生成的泛化能力。


圖片


事實上,文生視頻作為新的AI視頻制作工具,當(dāng)前主要解決4個方面的問題:提高效率、降低成本、創(chuàng)意實現(xiàn)、版權(quán)合規(guī)。


全新豆包·視頻生成模型具備諸多卓越特性:精準(zhǔn)的語義理解能力可處理高難度 prompt(提示詞),達成時序性多拍動作與多主體復(fù)雜交互;切鏡方面,全新的擴散模型訓(xùn)練方法攻克了多鏡頭切換一致性難題,10秒就能講述一個起承轉(zhuǎn)合的故事且各鏡頭主體、風(fēng)格等保持一致,支持一致性多鏡頭生成;借助高效的DiT融合計算單元,它能呈現(xiàn)強大的動態(tài)與豐富的運鏡效果,其影視級的生成水準(zhǔn),細節(jié)逼真、美感十足,還支持多種風(fēng)格和比例,能快速生成優(yōu)質(zhì)的視頻片段,賦能電商影視創(chuàng)作、廣告?zhèn)髅?、短視頻等多個場景。


例如,電商營銷行業(yè),文生視頻可以把商品變成3D動態(tài)多角度展示視頻,匹配適合的營銷背景素材(中秋、春節(jié)、七夕等)并生成不同尺寸快速上架;動畫教育行業(yè),文生視頻可以降低動畫的制作成本,低門檻的實現(xiàn)童話故事的想象情景等超現(xiàn)實畫面。


圖片


這是一段香水廣告,透過豆包·視頻生成模型,可以展現(xiàn)水流淌到香水周圍的畫面,凸顯香水的高貴與典雅。


其次是直接對標(biāo)Suno的豆包·音樂模型——你的專屬“音樂創(chuàng)作大師”。


該音樂模型可以通過“海綿音樂”進行體驗,用戶只需通過簡單的描述或上傳一張圖片,就能輕松生成一首包含旋律、歌詞和演唱的1分鐘高品質(zhì)音樂作品,并支持民謠、流行、搖滾等10余種不同的風(fēng)格和情緒的隨心選,極大地簡化了音樂的創(chuàng)作過程,可應(yīng)用于音樂創(chuàng)作、音樂教育、娛樂產(chǎn)業(yè)、廣告營銷等應(yīng)用場景。目前,豆包·音樂模型已經(jīng)上線“海綿音樂”App和網(wǎng)頁平臺,而且也可以在“豆包”產(chǎn)品內(nèi)進行體驗。


下圖是我們利用一段情感類文字,幾秒鐘就生成了1分鐘左右的高品質(zhì)音樂,你可以聽一下效果。


圖片

? ?

? ? ??? ? ? ??

再次是全新的豆包·同聲傳譯模型。


該模型基于端到端同聲傳譯智能體CLASI,效果已接近專業(yè)人工水平的同聲傳譯。依托于豆包基座大模型和豆包大模型語音組的語音理解能力,具備實時翻譯、超低延時、自然高質(zhì)量、音色克隆等特點。同時,在辦公、法律、教育等場景中,豆包·同聲傳譯模型顯著超過了其他所有競品,并且在兩個語向上均達到78%以上的準(zhǔn)確性,接近甚至超越人類同傳水平,并具備了從外部獲取知識的能力,形成媲美人類水平的同聲傳譯系統(tǒng)。


最后是豆包通用模型pro、豆包·語音合成模型、豆包·文生圖模型實現(xiàn)能力升級。


其中,作為豆包主力模型,此次豆包通用模型Pro的最新模型在數(shù)學(xué)能力、專業(yè)知識方面有超過35%的提升,綜合能力超過25%的提升,其他包括指令遵循、代碼等能力也在持續(xù)提升,能夠面對復(fù)雜的企業(yè)生產(chǎn)場景。同時,Pro具有長文本能力,上下文窗口長度翻至兩倍,達到256K,約40萬漢字。


同時,豆包·文生圖模型全面升級到2.0,采用更高效的DiT架構(gòu),能顯著提升模型的推理效率和整體性能,在復(fù)雜圖文匹配、極速模型出圖、中國文化理解都有提升?;诟咝iT構(gòu)架,同等參數(shù)下推理消耗是flux的67%,模型最快做到3秒出圖同時,在內(nèi)部Elo數(shù)十萬輪評測第一名。據(jù)披露,自豆包文生圖模型在豆包App上線以來,人均下載圖片數(shù)量提升1倍,下載用戶人數(shù)提升45%。


比如,這張戴著棒球帽、墨鏡并喝著咖啡的卡通風(fēng)格插圖。


基于全新豆包·文生圖模型,可以實現(xiàn)復(fù)雜圖文匹配,精確呈現(xiàn)真實世界與想象世界的復(fù)雜場景,包括更符合物理世界規(guī)律現(xiàn)實場景,升級多數(shù)量、多屬性、大小、高矮、胖瘦和運動6類圖文生成難點的精準(zhǔn)匹配,并更好實現(xiàn)對中國古代繪畫藝術(shù)的理解和呈現(xiàn)。



此外,豆包·語音合成模型能力也全面升級,一句話聲音復(fù)刻后就能混音創(chuàng)作,支持超強混音功能,打破語音合成的音色數(shù)量限制,并能夠精準(zhǔn)捕捉不同聲音的韻律、音色、表達方式、語氣語調(diào)等特色,而且可以將數(shù)百種精品音色自由組合,無限D(zhuǎn)IY不同音色、情感、性別、年齡和風(fēng)格的聲音,創(chuàng)造出極具戲劇張力的語音效果,在連貫性、音質(zhì)、韻律、氣口等各方面表現(xiàn)堪比真人。


總結(jié)來看,截至目前,從文字到語音合成,從文生圖到視頻生成,豆包大模型都已全部覆蓋,不僅擁有更強模型能力,而且有更低價格、更易落地等特點,利用AI和云幫助企業(yè)和客戶能夠解決一系列實際問題。



譚待表示,任何數(shù)字化底座一定是云,包括現(xiàn)在AI也是數(shù)字化的一部分,基于AI的云設(shè)施可以給客戶傳遞更大價值。企業(yè)要做好大模型落地,面臨模型效果不好、成本太貴、落地太難三大關(guān)鍵挑戰(zhàn),因此,火山引擎既要有好的基礎(chǔ)大模型做支撐,解決復(fù)雜難題,也要有低成本的推理服務(wù)讓大模型被廣泛應(yīng)用,還要更多工具、平臺和應(yīng)用幫助企業(yè)做好場景落地。


加速商業(yè)落地

共創(chuàng)關(guān)鍵場景應(yīng)用

圖片


今年上半年,AI大模型“價格戰(zhàn)”又引爆了行業(yè)競爭。


截至目前,在各家大模型最強版本價格對比中豆包大模型比行業(yè)價格低98%以上。


以豆包為核心的國內(nèi)AI大模型將價格逼近“厘時代”。而這種極低的成本,使得大模型商業(yè)化應(yīng)用變得更加可行,不僅對大型企業(yè)有利,而且為中小企業(yè)提供了前所未有的機會。


從“參數(shù)戰(zhàn)”到“價格戰(zhàn)”,AI大模型領(lǐng)域正由技術(shù)之爭,轉(zhuǎn)變?yōu)樯虡I(yè)之爭。這不僅是成本與市場的博弈,也更加考驗企業(yè)的創(chuàng)新能力、應(yīng)用能力、運營和商業(yè)化能力。公開調(diào)研數(shù)據(jù)顯示,有37%的受訪企業(yè)認為,基于生成式AI技術(shù)可以給項目帶來超過10%的成本縮減。


對于中國超過5200萬中小微企業(yè)來說,盡快落地生成式AI技術(shù)至關(guān)重要。當(dāng)前AI時代,企業(yè)面臨諸多挑戰(zhàn),降本增效是生存關(guān)鍵,且需數(shù)字化、智能化轉(zhuǎn)型升級,不斷創(chuàng)新,以免錯失機遇。在科技快速發(fā)展的今天,未及時跟進的企業(yè)可能會在未來競爭中處劣勢。


作為國內(nèi)云與智能服務(wù)商,基于豆包大模型更強模型、更易落地、更低價格特點,火山引擎已經(jīng)宣布與30+行業(yè)外部企業(yè)深度共創(chuàng)豆包大模型商業(yè)落地,全面助力零售、游戲、汽車、教育、醫(yī)療、企業(yè)服務(wù)等領(lǐng)域,助力客戶提速增效。


以企業(yè)物流領(lǐng)域龍頭G7易流為例。



當(dāng)前隨著直播電商和外賣物流需求快速增長,國內(nèi)快遞包裹數(shù)量高達1150億件以上,因此,物流領(lǐng)域面臨預(yù)訂單和訂單的管理問題。然而,不同系統(tǒng)、平臺和通信渠道(如微信群)中的訂單單據(jù)格式千差萬別,這給物流行業(yè)的錄單工作帶來了極大的挑戰(zhàn)。傳統(tǒng)的人工錄單方式需要將原始的、非結(jié)構(gòu)化的信息轉(zhuǎn)化為格式化數(shù)據(jù),這一過程不僅工作量大、效率低下,而且容易出錯。


因此,G7易流利用豆包大模型的強大語言理解和文字抽取能力,聯(lián)合豆包大模型打造“智能接單”機器人,可迅速從微信群中提取關(guān)鍵信息如客戶名稱、貨物詳情、發(fā)車時間等,并將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)直接導(dǎo)入業(yè)務(wù)系統(tǒng),進一步顯著提高接單的效率和準(zhǔn)確性,使錄單工作變得異常便利。


其中,處理能力層面,大模型簡化了G7易流平臺數(shù)據(jù)處理流程,大幅縮短接單時間,產(chǎn)品日均處理量穩(wěn)定在300-400單之間,接單時間從原2小時減至30分鐘以內(nèi),效率提升高達75%,提升了整體業(yè)務(wù)效率。而且,通過精確的數(shù)據(jù)處理,顯著提高訂單的準(zhǔn)確性,進而提升客戶滿意度。


2024 ITValue Summit數(shù)字價值年會上,G7易流創(chuàng)始人、首席執(zhí)行官翟學(xué)魂提到,“如果我們能夠在窘迫的產(chǎn)業(yè)中,發(fā)現(xiàn)可以改變產(chǎn)業(yè)結(jié)構(gòu)的稀缺的數(shù)據(jù),并讓這些數(shù)據(jù)形成閉環(huán),產(chǎn)生飛輪效應(yīng),我們就有可能獲得‘一線生機’?!?/span>


G7易流首席科學(xué)家王守崑則認為,事實證明,結(jié)合大模型技術(shù),確實能夠提升我們平臺的接單效率。G7易流和火山引擎是一次成功的嘗試,也是技術(shù)與物流行業(yè)的創(chuàng)新結(jié)合,我們對未來更多更深入的合作充滿期待。


除了物流行業(yè),客服、銷售這一領(lǐng)域也是大模型能夠快速落地以及產(chǎn)生價值的重要場景。


專注智能客服10余年的曉多科技選擇與火山引擎合作,基于豆包大模型,曉多科技全面升級智能客服能力。結(jié)果顯示,在火山引擎提供的豆包大模型幫助下,曉多科技的“AI訓(xùn)練場”場景獲得了更高的并發(fā)保障,同時成本也優(yōu)化了50倍以上,實現(xiàn)了效率成本雙提升。通過使用豆包大模型能力強化的“AI訓(xùn)練場”,曉多科技不僅將客服培訓(xùn)周期縮短了50%以上,還通過更多元化的顧客模擬,訓(xùn)練出能力超越常規(guī)培訓(xùn)的客服團隊,推動銷售轉(zhuǎn)化率上升了3%-5%。


很顯然,豆包大模型以創(chuàng)新技術(shù)驅(qū)動的極致性價比,助力G7易流、曉多科技在業(yè)務(wù)當(dāng)中提質(zhì)增效,實現(xiàn)了效率成本雙升級,從而為火山引擎在物流、智能客服、零售等行業(yè)性整體落地和開拓商業(yè)模式打下了堅實的基礎(chǔ)。


譚待強調(diào),火山引擎的定位是云和AI服務(wù)提供商,在大模型的時代,他們的主要目標(biāo)是幫助企業(yè)降低成本、提高效率,并且促進企業(yè)的創(chuàng)新。在生成式AI的時代,找到產(chǎn)品市場匹配度(PMF)是至關(guān)重要的。這需要廠商不僅要對技術(shù)有深入的了解,還要對業(yè)務(wù)有透徹的認識,這樣才能確保技術(shù)能夠真正落地并發(fā)揮作用,進而構(gòu)建起火山引擎的AI生態(tài)系統(tǒng)。


大模型落地非一蹴而就

火山引擎與產(chǎn)業(yè)共創(chuàng)新AI時代

圖片


中國以大模型為核心的生成式AI競爭已進入“下半場”,商業(yè)落地成為關(guān)鍵,尤其AI已逐步給企業(yè)帶來直接的成本節(jié)約或效率提升??梢灶A(yù)見,“價格戰(zhàn)”的下半場將是“商業(yè)戰(zhàn)”、“生態(tài)戰(zhàn)”。


不過,當(dāng)前OpenAI的商業(yè)化之路不如預(yù)期,導(dǎo)致市場對AI產(chǎn)生了更多的質(zhì)疑。


據(jù)報道,2023年OpenAI年收入達到34億美元左右,但包括租用微軟服務(wù)器(40億美元)、招聘大量頂尖人才(15 億美元)在內(nèi),OpenAI運營成本卻可能高達85億美元,即OpenAI每年或虧損高達50億美元。而如其他商湯、云從在內(nèi)的AI軟件公司,也依然面臨持續(xù)虧損、盈利能力較弱等風(fēng)險。


而相對于OpenAI面臨的商業(yè)挑戰(zhàn),火山引擎依托字節(jié)跳動強大的算法、算力、數(shù)據(jù)和商業(yè)化經(jīng)驗?zāi)芰?,在豆包大模型層面擁有更清晰的研發(fā)路徑、商業(yè)化路徑,基于豐富的端到端、垂類、場景化豆包大模型,火山方舟等一系列解決方案,火山引擎將技術(shù)能力優(yōu)勢和行業(yè)落地相結(jié)合,不僅發(fā)力B端市場,而且在C端市場上也有更多的商業(yè)想象空間,持續(xù)釋放其價值潛力,正成為各行各業(yè)落地實踐的更優(yōu)選。


未來,生成式AI將開啟一個新的黃金時代,擁有巨大的市場潛力。


據(jù)研究機構(gòu)IDC預(yù)測,到2030年,AI將為全球經(jīng)濟貢獻19.9萬億美元,推動2030年全球GDP增長3.5%。這意味著,AI是全球經(jīng)濟增長的新引擎。


當(dāng)前,圍繞AI能力的新應(yīng)用和服務(wù)將不斷涌現(xiàn),在各個行業(yè)掀起智能化變革的浪潮。從金融、醫(yī)療、教育到制造、交通、能源等領(lǐng)域,AI技術(shù)都將找到廣闊的應(yīng)用空間,為傳統(tǒng)行業(yè)注入新的活力。


面對新一輪生成式AI革命,企業(yè)需要以開放、創(chuàng)新的心態(tài)擁抱變革。而從文生圖的DiT架構(gòu)升級,到語音模型的“All-in-One”,火山引擎將持續(xù)提供強大AI模型、云計算等技術(shù)優(yōu)勢和能力,有志于“用科技改變世界”,以更強模型、更低價格、更易落地方式助力企業(yè)成長,推動各行各業(yè)在AI變革中抓住先機,重塑現(xiàn)有的行業(yè)格局和價值鏈。


當(dāng)AI技術(shù)變得無處不在、無所不能時,它將像互聯(lián)網(wǎng)一樣,深度融入商業(yè)和社會的方方面面,就像今天的互聯(lián)網(wǎng)一樣滲透到每個角落,成為支撐一切活動的基礎(chǔ)設(shè)施,推動中國經(jīng)濟持續(xù)產(chǎn)生新動能。


(本文首發(fā)于鈦媒體App)


趙何娟對話火山引擎譚待:大模型的下一個戰(zhàn)場在哪?



價格戰(zhàn)之外,“大模型落地有三個核心關(guān)鍵挑戰(zhàn):更好的模型、更低的成本和更易落地的工具?!?/span>


鈦媒體注


如果站在未來的視角回望這場始于2023年的中國“百模大戰(zhàn)”,從上半場積蓄動能時的競相破局,到下半場的價格戰(zhàn)開打后的硝煙彌漫,在一片喧囂之中,大模型也迅速迭代到了從“玩具”到”工具”的關(guān)鍵時期。


2024年進程未半,中國大模型市場的競爭已經(jīng)驟然進入白熱化階段,大規(guī)模降價潮、免費潮來臨。在這個過程里,字節(jié)跳動的火山引擎豆包大模型率先打響了大規(guī)模降價99%的第一槍。之后阿里通義千問、百度文心一言等也都陸續(xù)推出了更低價格甚至免費模型服務(wù)。它們都希望這能更大地降低各大產(chǎn)業(yè)應(yīng)用的使用門檻,擴展應(yīng)用場景,加速中國在創(chuàng)新應(yīng)用上的優(yōu)勢落地。而這是否會如愿呢?


鈦媒體高端對話節(jié)目「何謂2024」-「何謂AGI」系列,特意請到了這次打響了中國大模型價格戰(zhàn)第一槍的火山引擎總裁:譚待。來共同探討:在中國大模型當(dāng)下格局以及全球AGI革命浪潮翻涌的大背景下,大模型競爭的下半場將會走向何方?以下是本期「何謂2024」完整版對話視頻,以及部分精華文字內(nèi)容摘編。歡迎參與更多討論。



大模型價格為何走向“厘時代”?

圖片


趙何娟:很高興今天能夠請到火山引擎的總裁譚待來到「何謂2024」的節(jié)目,火山引擎的大模型發(fā)布會,可以說引起了行業(yè)非常大的一個反響。其中最重要的一條就是開始卷價格戰(zhàn)了,大家可以看到最大的一個亮點,就是價格比同行能低到99%,為什么你們一開始選擇以最低價的方式來做市場的引爆?


譚待:我們發(fā)現(xiàn),企業(yè)在AI應(yīng)用創(chuàng)新上會面臨兩大挑戰(zhàn),一個就是模型的質(zhì)量,目前市場上主流的模型基本能達到“可用”的質(zhì)量水平;另一個就是以模型為首的創(chuàng)新成本。


目前AI還是一件很不確定的事情,失敗概率會比較高,如果用AI去做企業(yè)的創(chuàng)新通常90%會失敗?,F(xiàn)在很多企業(yè)去做一個AI驅(qū)動的創(chuàng)新項目,可能至少要100億Token起,而且用完之后可能才能知道是否可行,如果按以前的價格來說,可能需要將近100萬元成本,但是如果能降成1萬塊錢,企業(yè)的創(chuàng)新門檻就大幅下降。


ToC的商業(yè)模式是把用戶規(guī)模做大,通過別的方式來變現(xiàn),比如說廣告。但ToB的企業(yè)服務(wù)講究的是持續(xù)性,企業(yè)在乎的是能夠持續(xù)得到持續(xù)且質(zhì)量好,價格也穩(wěn)定的服務(wù)。因此即使一方面市場有需求,但另外一方面如果做不到,這個事也很難持續(xù)。所以實際上火山引擎是在整個模型的成本優(yōu)化上做了非常多的事情。


有的芯片內(nèi)存是瓶頸,有的芯片算力是瓶頸,把這兩類芯片組合在一起成本就能下降。因為規(guī)模非常大,調(diào)用量非常大,把不同的調(diào)用量混合在一起就可以降低成本。


再比如有的人是白天工作時候用,有的人是晚上娛樂的時候用,還有人是大家都睡著的時候用,但是有些科研,有些這種離線的任務(wù)也可以來用,我們把這些不同的對大模型的調(diào)用負載混合在一起,成本又可以降低很多。所以我們做了這么多優(yōu)化之后發(fā)現(xiàn)我們可以做到這個事,從技術(shù)上我們可以做到,同時市場也需要你做到,那就應(yīng)該這么來做。


還要提供很多應(yīng)用的工具,包括插件,還有低代碼的扣子平臺,它可以讓你不會寫代碼,也能夠去開發(fā)自己的Agent,還包括一些腳手架的工具等等。


總體來說,需要持續(xù)做好三件事:更好的模型、更低的價格和更易落地的方案。


趙何娟:國內(nèi)的云服務(wù)廠商中火山云因為入場是最晚的,因為入場晚,就意味著規(guī)模肯定不如先發(fā)者,比如說阿里云。為什么阿里云規(guī)模效應(yīng)更強,但它的價格做不到那么低?你們現(xiàn)在能把價格做到這么低,本質(zhì)上來說還是有利潤的,并不是在倒貼錢給客戶?


譚待:其實做云這個事情,最大的壁壘就是規(guī)模,規(guī)模大彈性就能好,彈性好成本也能低,也可以有資源,去讓更有更強的團隊去不斷優(yōu)化成本。


火山雖然對外做得比較晚,但是其實火山是字節(jié)的一部分,對內(nèi)自用部分的時間和規(guī)模是可以綜合進來的,當(dāng)時我加入字節(jié)的時候,就在討論說要不要進入云這個市場?戰(zhàn)略團隊就顧慮,我們做得比較晚,可能在規(guī)模上追有點難,但我說不應(yīng)該這么算。在技術(shù)上,我們可以把自有的規(guī)模和外部客戶的規(guī)模在安全可控的情況下做一定隔離,但是可以在資源上做混合的調(diào)度。所以這個時候去算規(guī)模,就不是去看純外部的規(guī)模,而是看整個所有的負載的規(guī)模。所以火山堅持技術(shù)上一定要內(nèi)外統(tǒng)一。所以可以認為不管是我們外部的客戶,比如說手機、汽車、零售、金融的客戶,還是內(nèi)部的,比如說抖音、頭條,其實都跑在火山引擎上。這樣綜合起來算,我們的服務(wù)器數(shù)其實就是中國第一,我們整體的服務(wù)器數(shù),也看到了友商公布的服務(wù)器數(shù)。整體通盤有這個規(guī)模,自然就有把云,包括后面比如說現(xiàn)在把AI推理做好的底氣,只需要技術(shù)上不斷去優(yōu)化,去把這個規(guī)模的優(yōu)勢做好。


倒貼這個事情,其實是不可持續(xù)的,如同前面說過的,ToC模式往往是“羊毛出在豬身上”,就是把用戶免費地拿過來之后,可以通過別的變現(xiàn)方式來做。ToB不是這樣的,售賣的是一個服務(wù),而這個服務(wù)它得不管是從品、性能、服務(wù)的質(zhì)量,還是說價格上,都得是一個穩(wěn)定的。特別是云,它是一個可持續(xù)的。因為可能客戶簽了個3年的合同,這中間是不能變的。所以要去定一個價格的時候,一定要是保證這個事情是有毛利的。當(dāng)然在這個階段的時候,最重要的是說我們其實想讓AI被更多的人能用起來,能有更多的創(chuàng)意,更多的創(chuàng)新出來,所以即使有利潤我們也不會把它定特別高。


趙何娟:當(dāng)初為什么字節(jié)要進入到云這個市場?畢竟字節(jié)是做ToC起家的,ToB業(yè)務(wù)邏輯完全不同。在當(dāng)時“后發(fā)”的情況下,你們是怎么說服張一鳴?我們雖然進入公開市場晚,但是綜合基礎(chǔ)不差,一定能做成這個市場的?


譚待:首先是看這個市場重不重要,大不大?任何數(shù)字化底座一定是云,包括現(xiàn)在AI也是數(shù)字化的一部分,底座也是帶來大量的云的消耗,這個市場是非常大的,中國未來的云市場會占全球17%-18%,,這個比例非常高了,而且現(xiàn)在保持著一個非常高速的增長。,有數(shù)據(jù)顯示,2025年后,全球整個云市場就要超過在線廣告的市場,所以這個空間是很大的。


而且云市場并不是一個贏者通吃的市場,馬太效應(yīng)不明顯,大企業(yè)一定會采取多云政策。一方面避免被一家“綁定”,無法拿到好價格,另一方面,每家云都有自己擅長的地方。如果只用一家的話,就沒辦法采各家之所長,也不利于企業(yè)的技術(shù)的創(chuàng)新。也就是說在空間很大的云市場,后來者也是有機會的。


這個市場值得做。但是怎樣才能做好?核心是戰(zhàn)略一定要有定力,因為ToB是一個很長的事情,跟客戶合作,可能有的客戶得需要一年、兩年才能真正去做得比較深。所以戰(zhàn)略一定要穩(wěn)定,要知道能創(chuàng)造的價值是什么,擅長是什么,不擅長什么,什么是自己做,什么是伙伴來做,給客戶傳遞的是什么價值。


AI,云服務(wù)市場的下一個驅(qū)動力

圖片


趙何娟:提到火山的戰(zhàn)略定力,哪些方向是火山比較明確的戰(zhàn)略方向?公有云應(yīng)該算一個吧?AI這個方向火山發(fā)聲比較早,是不是也算一個?


譚待:公有云肯定是火山的戰(zhàn)略方向之一,因為規(guī)模化是共有用發(fā)展的基礎(chǔ),前面也提到,這正好我們的優(yōu)勢,此外火山引擎確實花了很多精力去想什么是驅(qū)動云技術(shù)變化和發(fā)展的下一個關(guān)鍵因素。上一個關(guān)鍵因素是互聯(lián)網(wǎng),特別是移動互聯(lián)網(wǎng)下一個大的關(guān)鍵點是什么?在自動駕駛領(lǐng)域,其實已經(jīng)從以前的小的視模型、視覺模型或什么模型轉(zhuǎn)向Transformer,典型的就是以前可能是用那些小的算力卡,后面當(dāng)時開始用A100,生信也是一樣的,生信制藥想再把Alpha Fold出來,大家也在做這個事情,雖然那時候大模型,大家沒有看那么清楚,但是明顯已經(jīng)感到Transformer大量的應(yīng)用,AI會成為云的下一個驅(qū)動力。


所以在2022年的時候火山其實就在深度地做這個事情。第一要把供應(yīng)鏈做好,要把算力的基礎(chǔ)建好。第二算力規(guī)模變大之后,需要好的平臺配合調(diào)度。所以火山在整個GPU的調(diào)度、優(yōu)化上做了非常多的事情,比如算子的優(yōu)化,整個平臺的調(diào)度能力的提升,整個MFU提升。一個是要堅定不移地把規(guī)模優(yōu)勢發(fā)揮好,把模型成本和平臺穩(wěn)定性做好。第二則需要把握住大的技術(shù)變革。比較幸運的是火山在這些方面還是看得比較早,也非常準(zhǔn)確的。


趙何娟:我聽說在2022年的時候,國內(nèi)有很多大廠都準(zhǔn)備要放棄掉AI這個方向,或者說覺得看不到希望,而且把已經(jīng)采購的或者囤積的GPU的A100的卡可能直接都要準(zhǔn)備退還,據(jù)說退的這幾萬張卡都被字節(jié)給接了是嗎?



譚待:2022年的時候確實發(fā)生過這樣的事情,因為有些友商大量地去做退訂。但是那個時候我們很堅定不移地看好AI這個方向,認為AI是驅(qū)動云很重要的一塊。


當(dāng)然同時也需要結(jié)合自身情況做技術(shù)層面的判斷。因為剛好我本身技術(shù)出身,所以這個選擇可能需要結(jié)合技術(shù),也要結(jié)合商業(yè)來判斷。因為那時候大模型沒有發(fā)展起來,那個時候如果有誰說我已經(jīng)看到了大模型未來的爆發(fā)?他肯定是在騙人。但是我們可以看到的是,自動駕駛是很確定的事情,而且除此之外至少有一兩個行業(yè)已經(jīng)有很大的體量能夠支持大模型的發(fā)展。其實放到現(xiàn)在汽車行業(yè)在自動駕駛領(lǐng)域也投入非常大,并且在這個領(lǐng)域算力儲備也比較雄厚。只不過聚光燈可能更多的看到是大模型的公司,比如說2022年火山和毫末建立了一個駕駛領(lǐng)域最大的算力集群。所以這個領(lǐng)域相當(dāng)于是火山不僅從技術(shù)上有所判斷,而且從客戶的需求上也驗證了這一點。


既做裁判員又做運動員?

圖片


趙何娟:現(xiàn)在國內(nèi)的做大模型的企業(yè)和團隊非常多,包括像月暗、智譜、百川,在國內(nèi)來說相對來說有一些知名度的大模型,基本上還是在火山引擎上跑。作為一個行業(yè)底層服務(wù)的提供商來說,你會覺得國內(nèi)現(xiàn)在的“百模大戰(zhàn)”“千模大戰(zhàn)”優(yōu)勢在哪里?或者有一些什么問題?


譚待:首先我覺得這些公司和團隊其實做得都非常好,每家也有自己的特色,行業(yè)認知水平也在不斷提升。


當(dāng)然這個行業(yè)還需要讓更多人參與進來:第一模型要好,第二成本一定要低,把100萬的成本降低到1萬,那進入這個行業(yè)的人可能就不是多100倍,而是多1000倍了。可能10個項目里里面,雖然9個項目不一定能成功,但只要有1個項目成功了,可能前期的所有投入就都回來了。


火山做了很多插件平臺,做了方舟2.0,以及扣子這個低代碼的平臺,就是讓更多的人能夠更便捷地使用大模型。


所以通過這個平臺,通過好的模型,通過低的價格,把整個做創(chuàng)新的門檻一降再降,就能看到行業(yè)的繁榮。


趙何娟:你覺得做大模型的平臺,有必要什么應(yīng)用都自己去開發(fā)嗎?既做大模型的底層基座,又在上面去做各種各樣的專有模型,會不會給行業(yè)造成火山既做裁判員,又做運動員的感覺?


譚待:豆包這個模型,有一個對應(yīng)的同名的APP,就像OpenAI有個ChatGPT,因為平臺需要有一個對應(yīng)的一個產(chǎn)品,去讓用戶能很直觀地感受到這個模型的好和壞,模型本身是開放的,火山引擎也是開放的。


比如說字節(jié)內(nèi)部也會產(chǎn)生平臺的客戶,比如說抖音想用這個模型能力做些事情,抖音其實也就成為了火山的一個客戶。外部比如說快手也想用,道理也是一樣,對于火山來說,就是要保持一個開放性和中立性,只要是客戶,就提供同樣的優(yōu)質(zhì)的服務(wù)。


算力之外,大模型的增長動能在哪?

圖片


趙何娟:在2022年底ChatGPT發(fā)布,全行業(yè)爆火之后,據(jù)說2023年整個火山引擎的財務(wù)業(yè)績翻了好幾番。2023年現(xiàn)在的整個的業(yè)績規(guī)模和2024年現(xiàn)在半年過去的增長,讓你們的財務(wù)模型又已經(jīng)進入了新的平衡點。有沒有可能接下來的規(guī)劃中會更考慮利潤的提升?


譚待:我們覺得什么最重要?是有毛利的規(guī)模是最重要的,不是只看規(guī)模,也不是只看利潤。而是要看是帶毛利的規(guī)模。帶毛利的規(guī)模決定了可持續(xù)性。比如說要做語音,需要組建一個非常大的團隊,然而人力成本是非常高的,因為只有很強的團隊,才能把技術(shù)和產(chǎn)品做好,所以人力投入肯定是最大的開銷之一。只要看重和堅持帶毛利的規(guī)模,最終就可以做到平衡、盈利。


趙何娟:可以說現(xiàn)在火山引擎的算力儲備是非常充分的,可以說是前兩年的準(zhǔn)確的戰(zhàn)略判斷帶來的,那么算力用完了怎么辦?可能這兩年的財務(wù)增長和爆發(fā)都是基于之前的儲備帶來的。未來的持續(xù)性如何保證?會不會受到美國制裁的影響?


譚待:首先規(guī)模是正循環(huán)的,規(guī)模大,對未來就有預(yù)期,就有信心做更大的投資。更大的投資又能帶來更大的規(guī)模。所以如果之前的增長是基于我們判斷得早,以及我們內(nèi)外復(fù)用的規(guī)模優(yōu)勢。我們在這個領(lǐng)域就一直很會很有先機和優(yōu)勢。


第二其實現(xiàn)在算力在當(dāng)下的這個情況下,是一個異構(gòu)算力的系統(tǒng),因為可能每一個團隊有不同的芯片的選擇,而且不同的芯片有不同的擅長的地方,有的內(nèi)存很大,有的算力很強,有的兼容性很好,所以就對技術(shù)平臺本身要求很高,技術(shù)的打磨也是很重要的。


第三其實也在看和各家廠商,比如下游的芯片廠商如何合作。我不僅只是說在算力層面,讓大家一起能合作得更緊密。比如說我們最近和英偉達一起在中國發(fā)布了Omniverse,這樣企業(yè)可以在中國通過火山引擎來使用Omniverse,這個合作也很重要,第一就是未來物理世界和真實世界可以連接在一起,這樣可以用AI通過仿真或者其它方式,不僅改變虛擬世界、數(shù)字世界,也能去改變物理世界,所以一方面平臺做這個事情。另外一方面通過合作,其實雙方也加強了合作的深度和廣度,可能關(guān)系會更加緊密,也會在其它層面的合作上也會有更多的幫助。


趙何娟:從美國的芯片的出口的規(guī)則限制來說,可能中國企業(yè)過去還能正常購買A100或者H100這樣的芯片??赡軐磉@種高制程的芯片都是不允許被中國公司購買的,在這一點上來說,可能之前的護城河或者說壁壘,事因為規(guī)模在早期帶來的壁壘,但這種壁壘可能再經(jīng)過兩三年就被別人取代了。這種前提下,對于火山來說,是不是相關(guān)的壁壘就不存在了?


譚待:規(guī)模優(yōu)勢是始終存在的。所以不管說會不會涌現(xiàn)出更多的底層的供應(yīng)商,都會第一時間想到和字節(jié)、和火山來合作,所以這個優(yōu)勢是持續(xù)的,規(guī)模的好處就在這一點。所以我們這一次能把推理的成本做低,也是因為用了異構(gòu)的芯片,去把它們的特點都發(fā)揮出來,所以就能通過分布式推理來做這個事情。


趙何娟:所以從這個角度來說,開源大模型更好?還是閉源大模型更好?。


譚待:不管是開源還閉源,目的都是讓大家更多地來使用。


第一開源有開源的商業(yè)模式,閉源有閉源的商業(yè)模式,大家只是不同商業(yè)模式而已,開源有很多成功的公司,閉源也有很多成功的公司。所以第一就是你自己這家公司怎么來選擇,不能簡單說開源和閉源誰更好。


第二也要看企業(yè)的具體需求,企業(yè)選開源、選閉源,背后的需求是說,第一性能好不好?第二安不安全?當(dāng)然開源有安全的解決方法,閉源也有安全的解決方法。


第三就看成本,用開源就代表著底層的算力沒有辦法在云的池子里面來混合,如果云平臺沒做好,肯定還是用開源便宜一些。所以對企業(yè)來說,要決定自己的戰(zhàn)略路線是什么,用什么樣的商業(yè)模式來做這個事情?但整體上沒有必要去爭論這個事情?,F(xiàn)在豆包是閉源的,但我們將來肯定也會推出豆包某一些系列的開源的模型,我們肯定是這樣的一個邏輯。


大模型落地的應(yīng)用場景和挑戰(zhàn)

圖片


趙何娟:互聯(lián)網(wǎng)革命來自C端的爆發(fā),然后逐步延伸至B端,你覺得AI或者大模型的這波2.0的浪潮更可能在C端還是B端率先爆發(fā)?


譚待:我覺得可能會是在B端和C端同時開始爆發(fā)。


移動互聯(lián)網(wǎng)可能先是在C端也就是手機端爆發(fā),但如果我們看PC互聯(lián)網(wǎng),其實最開始也是工作場景和生活場景不分的。比如郵箱和搜索,用戶也是為了獲取知識而非娛樂。剛開始軟件誕生的時候,很多也是給B端使用。比如70年代時候的軟件巨頭其實都是做ToB的事情。所以我覺得一個技術(shù)的提升,是不一定先從C端爆發(fā),或者先從B端爆發(fā)的。


AI能夠提升生產(chǎn)力。所以AI在B端有很多天然場景。但實際上當(dāng)AI能帶來很多能力之后,C端用戶也就開始在日常生活中使用了。比如說ChatGPT其實有很多付費用戶,他們也是同時在工作場景和生活場景中使用。


趙何娟:豆包模型也有ToC和ToB的模型,你們在做這個模型,或者在推出相關(guān)模型應(yīng)用的時候,有什么樣的區(qū)別?


譚待:首先我們要有一個通用模型,這個通用模型應(yīng)該是最強的。


比如說豆包通用模型Pro就干這個事情的。豆包通用模型Pro就是可以同時解決C端和B端的需求。而且支持長文本128K可精調(diào)。尤其在B端使用的時候,需要讓模型做一定的優(yōu)化,所以能不能可精調(diào)是很重要的。


在此基礎(chǔ)上,再看哪些場景是很垂直,規(guī)模又很大,就可能會把它做一定的特化。比如說角色扮演,看起來可能是C端的使用場景,這個情況下就需要通過AI去和用戶在場景中進行交互娛樂,所以我們有一個專門的角色扮演模型。


所以整體核心就是最底層通用的強大,如果沒有把最強的底層大模型做出來,后續(xù)做專有模型大概率就不會做得好。


趙何娟:下半年你會認為有很多應(yīng)用出來,從應(yīng)用場景上來說會有哪些判斷?比如說哪些行業(yè)可能會跑得更快一些?


譚待:首先終端上肯定還能做出很多創(chuàng)新出來。比如手機、汽車、PC、IOT,這就是為什么我們這次搞兩個大聯(lián)盟,一個是手機的大模型聯(lián)盟,還有一個是汽車的大模型聯(lián)盟。還有一些場景,比如說C端的一些助手類的應(yīng)用,包括Agent,包括搜索。


在企業(yè)內(nèi)部,大模型對于企業(yè)就整個知識的管理,包括數(shù)據(jù)的分析肯定是有很大的輔助。比如說我們做Chat BI,以前CEO問一個問題,底下人不知道,馬上就找人去查,查完以后截個圖再反饋過來就很慢,CEO說我還想看看別的,就需要再走一次流程。其實這些數(shù)據(jù)BI里面都有。管理就是一個很大的效率題,我們有個理念叫數(shù)據(jù)飛輪,以前大家看數(shù)據(jù)中臺講的是說要積累多少數(shù)據(jù),但數(shù)據(jù)不用是沒有意義的,所以應(yīng)該看數(shù)據(jù)飛輪每天消耗了多少數(shù)據(jù),用了多少數(shù)據(jù),消費了多少數(shù)據(jù),就要想各種方法去把消費的便捷性和體驗做好,Chat BI就是這樣,以前信息傳遞靠口口相傳,現(xiàn)在是直接向Chat BI提問,這樣就把數(shù)據(jù)消費的實時性和便利性都提升了非常多。


比如說有個職業(yè)叫打字員,也是一個白領(lǐng),以后可能就再也沒有這個職業(yè)了,取而代之的可能是一個更智能的“打字員”,它能做擴寫,做很多其它的事情,但是我自己還是一個樂觀主義者,我認為人類最精髓的部分始終還是在人的這個地方,而且也許人可以跟AI共同進化,而不是說AI取代人。


趙何娟:2022年11月底推出ChatGPT的時候,12月初我們就組織了一個討論,那個時間段感覺行業(yè)里面對這件事情關(guān)注度和熱度還是非常高的,但是大眾領(lǐng)域還沒有那么關(guān)注,大眾領(lǐng)域一直到2023年,可能1月份、2月份才開始爆發(fā)性地關(guān)注ChatGPT。那個時間OpenAI推出的ChatGPT對你的沖擊有多大?


譚待:因為我一直在做云,所以當(dāng)時我最大的感受是太好了??磥硪郧跋氲煤軐?,比如說我們當(dāng)時內(nèi)部在討論說為什么OpenAI可以做出來ChatGPT,因為不是說中國做不出來,美國反而做出來,其實是OpenAI做出來,別人都沒做出來。


ChatGPT比我們想象來得更早。我們本來覺得可能還再晚一點點,比如我們再布局幾年,可能會有類似的模型出現(xiàn),而且也在推測比如生信領(lǐng)域會不會更快一些?但沒想到大語言模型是最快來的,我想知道下一個是什么,大模型的概念一直都有,但放在那個時間看到ChatGPT你沒想到能做到這么大。


趙何娟:有一個典型的應(yīng)用場景,我們鈦媒體自己現(xiàn)在也在做科股數(shù)據(jù)的大模型。我們也有自己的數(shù)據(jù)庫。我們就想著基于我們自己的自有的數(shù)據(jù)業(yè)務(wù)再做一些預(yù)訓(xùn)練的嘗試,而且能夠基于這個大模型還能開發(fā)我們自己的應(yīng)用產(chǎn)品。從場景上面來說可能還不是那么簡單的事情,這一點我不知道你是怎么來面對這種像我們這樣很具體的場景應(yīng)用的需求的?


譚待:我們認為大模型落地有三個核心關(guān)鍵挑戰(zhàn):更好的模型、更低的成本和更易落地的工具。其實剛好你這個例子就可以講講我們對以上這三個挑戰(zhàn)的理念:


首先有比較好的模型,比如說用豆包,可能都不一定要用精調(diào),做一些提示工程就好了。因為豆包的底座能力是很強的。這樣其實基礎(chǔ)功能就可以滿足了,但是要把這個應(yīng)用做好,其實還要做很多事情,比如說需要聯(lián)網(wǎng),因為財經(jīng)的數(shù)據(jù),是需要有很多實時的數(shù)據(jù)更新。所以我們方舟推出了聯(lián)網(wǎng)的平臺,而且它能拿到獨有的內(nèi)容,這樣你就可以更好地去獲得信息和內(nèi)容。


第二是知識庫的搭建,自己積累的知識庫是很重要的,可以去幫助這個模型在應(yīng)用的時候減少幻覺,提高精準(zhǔn)度。這個是很重要的,比如有些東西已經(jīng)在知識庫做好了,就從這個受限的知識庫里面出內(nèi)容,而且做到有一些東西讓它不要瞎說。


第三就是考慮到用戶的交互,用戶使用的時候可能只有文字的內(nèi)容是不夠的,還需要有一個視頻,所以我們還做了一個內(nèi)容插件,這樣一方面去讓大模型去回答問題,出數(shù)據(jù)報告的時候,還可以去把相應(yīng)的視頻內(nèi)容播放出來。


除此之外用戶在很多使用過程中有很多細碎的需求。這些細碎的需求可能需要做一個對應(yīng)的Agent,來去解決它,通過扣子平臺。比如說用戶需要了解和體育相關(guān)的公司的財經(jīng)知識,不需要寫代碼,只需要編輯或者是其他業(yè)務(wù)人員,用扣子平臺很快就能搭建一個這樣的一個小助手一個Agent。讓它和應(yīng)用放在一起,當(dāng)用戶來的時候,小助手就可以自動調(diào)出來回答用戶的問題。


最后,我們還配了一個叫算法BP團隊,就是算法服務(wù)團隊。因為他們有很多經(jīng)驗,他們其實就是火山AI相關(guān)的算法人員。有需求的客戶團隊所以可以和算法BP團隊的技術(shù)人員先對接一次,幫助把這套基于AI基于大模型來開發(fā)和應(yīng)用的流程建立起來。未來就可以不斷去更新它來運轉(zhuǎn)起來。這樣操作會讓整個服務(wù)更易落地,同時還能夠有一套配套的服務(wù)體系來幫助客戶完成既定目標(biāo)。


豆包大模型發(fā)布視頻生成模型,語義理解精準(zhǔn)、畫質(zhì)高保真


火山引擎總裁?譚待


截至到9月,豆包大模型的日均 tokens 使用量已經(jīng)超過1.3萬億,4個月的時間里 tokens 整體增長超過了10倍。在多模態(tài)方面,豆包·文生圖模型日均生成圖片5,000萬張,此外,豆包目前日均處理語音85萬小時。

譚待

火山引擎 總裁



9月24日

2024火山引擎 AI 創(chuàng)新巡展在深圳舉辦

帶來豆包大模型最新進展


豆包大模型家族迎來新成員

全新發(fā)布豆包·視頻生成模型

以及豆包·音樂模型豆包·同聲傳譯模型


豆包通用模型pro 和文生圖模型、

語音合成模型等垂類模型大幅升級

不斷增加的各類模態(tài)以及規(guī)模化的調(diào)用量

讓豆包大模型“更強模型、更低價格、更易落地”的優(yōu)勢持續(xù)凸顯


其中,主力模型“豆包通用模型pro”

最新版本在各維度上國內(nèi)領(lǐng)先

模型效果持續(xù)增強




圖片


火山引擎正式發(fā)布豆包·視頻生成模型

全面加速 AIGC 應(yīng)用創(chuàng)新


?先上大片!

?帶你感受豆包·視頻生成模型的高級質(zhì)感!


精準(zhǔn)的語義理解

多動作多主體交互


豆包·視頻生成模型能遵從復(fù)雜 prompt,解鎖時序性多拍動作指令與多個主體間的交互能力。


圖片

圖片


強大動態(tài)與酷炫運鏡

告別PPT動畫


可以讓視頻在主體的大動態(tài)與鏡頭中炫酷切換,擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語言能力,靈活控制視角,帶來真實世界的體驗。


圖片

圖片


一致性多鏡頭生成

10秒講一個完整故事


成功攻克多鏡頭切換時一致性的技術(shù)挑戰(zhàn),在一個 prompt 內(nèi)實現(xiàn)多個鏡頭切換,同時保持主體、風(fēng)格、氛圍的一致性。


圖片

圖片


高保真高美感

多風(fēng)格多比例


支持包括黑白、3D 動畫、2D 動畫、國畫等多種風(fēng)格,包含1:1、3:4、4:3、16:9、9:16、21:9 六個比例,適配于各種終端,以及電影、手機豎屏等不同畫幅。


圖片

圖片



圖片


強大畫面效果的背后,是字節(jié)跳動在視頻大模型技術(shù)研發(fā)的不斷投入。

圖片



圖片


視頻生成能力,為眾多企業(yè)場景帶來創(chuàng)新。例如在電商營銷場景,豆包·視頻生成模型不僅快速把商品變成 3D 動態(tài)多角度展示,還能配合中秋、七夕、春節(jié)等節(jié)點替換背景和風(fēng)格,生成不同尺寸快速上架;在動畫教育場景,豆包·視頻生成模型可以大幅降低動畫的制作成本,生動的呈現(xiàn)童話故事情節(jié)。


此外,還有城市文旅、音樂 MV、微電影、短劇等應(yīng)用場景,都可以通過豆包·視頻生成模型實現(xiàn)降本提效和創(chuàng)意合規(guī)。


圖片

電商營銷

圖片

動畫教育

圖片

城市文旅

圖片

微劇本(音樂 MV/微電影/短劇等)




圖片

圖片

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

“中國版Sora”再落一子,火山引擎如何贏戰(zhàn)中國AI大模型下半場?


圖片

?


豆包大模型家族成員更加豐富,模型能力持續(xù)升級,為大模型在多模態(tài)、多元化方面的落地應(yīng)用打下了良好的基礎(chǔ)?;鹕揭鎸⒗^續(xù)推進模型能力的不斷升級與迭代,探索模型能力在更多場合的應(yīng)用,持續(xù)為企業(yè)借助大模型實現(xiàn)云上智能化注入動力。


即夢AI接入豆包·視頻生成模型,打造更高質(zhì)量智能化創(chuàng)作體驗



圖片

9月24日,2024火山引擎 AI 創(chuàng)新巡展在深圳舉辦。巡展正式發(fā)布豆包·視頻生成模型等全新模型,豆包通用模型pro 及多個垂類模型也得到了大幅升級。


會上,即夢 AI 及剪映市場和運營負責(zé)人陳欣然從產(chǎn)品和用戶使用的角度,分享了 AIGC 時代即夢 AI 將如何基于豆包·視頻生成模型,幫助創(chuàng)作者解放創(chuàng)意,帶來效率提升。


即夢 AI 及剪映市場和運營負責(zé)人 陳欣然


陳欣然指出,目前即夢 AI 已經(jīng)接入了豆包·視頻生成模型,正在進行內(nèi)測的場景和效果打磨,未來將逐步開放給所有用戶,讓每個人都能夠體驗到 AI 創(chuàng)作的趣味性。


01.

?即夢AI等業(yè)務(wù)場景打磨+技術(shù)突破?

?豆包·視頻生成模型加速AIGC應(yīng)用創(chuàng)新?


陳欣然表示,AI 進行創(chuàng)作的過程,與傳統(tǒng)創(chuàng)作工具體驗存在很大區(qū)別。AI 創(chuàng)作是動態(tài)的過程,過程中由于生成式 AI 本身的隨機性,往往會帶給創(chuàng)作者驚喜和啟發(fā),在激發(fā)更多靈感的同時,拓展想象力的邊界,成為創(chuàng)作者和藝術(shù)家的智能伙伴。基于這一理念,即夢 AI、剪映、CapCut、醒圖等產(chǎn)品都基于豆包·視頻生成模型的能力,上線應(yīng)用了 AI 技術(shù)。


截至9月,豆包大模型日均 tokens 使用量已經(jīng)超過1.3萬億,相比5月首次發(fā)布時猛增十倍。豆包通用模型pro 最新版本綜合能力累計提升 25%,在各個維度都處于國內(nèi)領(lǐng)先。作為豆包大模型家族最新成員之一,豆包·視頻生成模型具有精準(zhǔn)語義理解、強大動態(tài)與炫酷運鏡、一致性多鏡頭生成、高保真多風(fēng)格等優(yōu)勢?;诰珳?zhǔn)的語義理解能力,能遵從復(fù)雜的用戶 prompt,解鎖時序性多拍動作指令與多個主體間的交互能?;擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語言能力,靈活控制視角;在一個 prompt 內(nèi)實現(xiàn)多個鏡頭切換,同時保持主體、風(fēng)格、氛圍的一致性;支持包括黑白、3D 動畫、2D 動畫、國畫等多種風(fēng)格和不同比例尺寸,適配于各種終端,以及電影、手機豎屏等不同畫幅。


眾多優(yōu)勢背后,是字節(jié)跳動對視頻?模型技術(shù)研發(fā)的不斷投?。通過?效的 DiT 融合計算單元、全新設(shè)計的擴散模型訓(xùn)練?法和深度優(yōu)化后的 Transformer 結(jié)構(gòu),讓?成視頻的動作更靈動,鏡頭更多樣,細節(jié)更豐滿。


02.

?即夢AI便捷、易用?

?提升創(chuàng)作效率、打造自由創(chuàng)作體驗?


豆包·視頻生成模型的進展,得益于抖音和剪映對視頻日積月累的理解,而反過來,模型也為視頻創(chuàng)作帶來了巨大提升。從產(chǎn)品及用戶應(yīng)用角度出發(fā),針對品牌宣傳與推廣、市場營銷等需求,即夢 AI 已經(jīng)形成并具體落地了部分 AIGC 能力,幫助實現(xiàn)業(yè)務(wù)創(chuàng)新及加速?,F(xiàn)場,陳欣然展示了即夢 AI 基于豆包·視頻生成模型制作的成果。


僅需錄制或上傳一段高清、時長3分鐘的正面視頻,即夢 AI 即可創(chuàng)造出用戶的“數(shù)字分身”。同時在豆包·聲音復(fù)刻模型幫助下,用戶僅需5秒語音輸入就能實現(xiàn)聲音的克隆,為數(shù)字人配上自然流暢、毫無違和的聲音。


內(nèi)容營銷創(chuàng)作神器可為電商商家用戶帶來高質(zhì)量的內(nèi)容素材。過去,商家可能需要花費幾個小時拆解帶貨視頻的鏡頭轉(zhuǎn)換、文案等,并花費大量時間進行剪輯。啟用即夢 AI 后,僅需填寫商品名、上傳素材或者粘貼商品頁鏈接,即可配合節(jié)日等熱點,一鍵生成多個不同風(fēng)格的帶貨視頻,全過程時間僅需幾分鐘,極大提升營銷素材制作效率。


此前,即夢 AI 聯(lián)動剪映共同舉辦了名為“未來影像計劃”的短片大賽,大量新時代 AIGC 創(chuàng)作者、藝術(shù)家云集于此,并涌現(xiàn)了海量奇思妙想。在此過程中,生成式 AI 極大降低了創(chuàng)作門檻。以往此類創(chuàng)意短片視頻往往需要5-10人團隊進行協(xié)作,且制作周期可能長達1-2個月,在即夢 AI 以及剪映的幫助下,大部分創(chuàng)作者可以獨立完成視頻的創(chuàng)作,制作時間也縮短至1-2周,能夠更為高效地呈現(xiàn)出自己的創(chuàng)意。

??

? ? ??? ? ? ??

即夢 AI 創(chuàng)作者和藝術(shù)家作品演示


陳欣然認為,創(chuàng)作不應(yīng)該受限于制作成本、風(fēng)格或者文化背景。豆包·視頻生成模型的推出,為創(chuàng)作者提供了探索全新未來世界的有力工具。即夢 AI 希望能夠成為創(chuàng)作者們最喜歡和信賴的生成式 AI 工具及內(nèi)容平臺,為所有人提供有趣的、快樂的、自由的創(chuàng)作體驗,以更廣闊的創(chuàng)作空間和靈感啟發(fā),幫助用戶打開連接現(xiàn)實世界和想象世界的大門。



火山引擎丟出視頻大模型「王炸」,云廠商從「價格戰(zhàn)」回歸「卷性能」

宛辰@極客公園??


圖片

更好的模型性能、更好用的模型服務(wù),才能在產(chǎn)品上打開更多場景。


作者 | 宛辰
編輯?| 鄭玄

自今年 2 月 Sora 面世以來,很多人都期待字節(jié)的動作。擁有抖音和剪映這兩個最強的視頻 App 在手,字節(jié)的視頻生成大模型,被寄予厚望。

這就來了。

9 月 24 日,字節(jié)跳動旗下火山引擎在深圳舉辦 AI 創(chuàng)新巡展,一舉發(fā)布了包括「豆包視頻生成大模型」「音樂生成大模型」在內(nèi)的多款模型。

在此之前,海內(nèi)外不少現(xiàn)象級的同類模型產(chǎn)品相繼發(fā)布,包括字節(jié)跳動相繼發(fā)布的即夢、海綿音樂,和剪映(含 CapCut)中的新功能。秘而不宣的海綿音樂 App 更是被視為最適合中文的音樂生成 App、國內(nèi)當(dāng)之無愧的「Suno」。

字節(jié)為什么選擇在多少有些「AI 產(chǎn)品看麻了」的 9 月,推出這幾款 AI App 背后的大模型引擎?

對此,火山引擎總裁譚待向極客公園表示,不是按照某個固定計劃精心設(shè)計什么節(jié)點發(fā)布,AI 模型進展日新月異,什么時候做好、適合對外就盡快發(fā)布。

這背后的邏輯是,火山引擎的定位是字節(jié)跳動的 ToB 云平臺,模型對企業(yè)的開放由火山引擎來做,但推出產(chǎn)品前,需要先在內(nèi)部使用,打磨到一定程度、做到企業(yè)級可用,才會向外推出。此前發(fā)布的豆包也是如此,先有字節(jié)內(nèi)部推出的產(chǎn)品豆包 App,再有今年 5 月由火山引擎推出企業(yè)級可用的豆包大模型。

他補充說:「不一定要搶第一,要推出成熟的產(chǎn)品,因為模型對未來 10 - 20 年影響長遠,做好積累后發(fā)先至也是好事。」

而火山引擎未來十年要駛向的遠方,并不是一個、兩個模型比如視頻生成模型的領(lǐng)先,而是「成為全球領(lǐng)先的云和 AI 服務(wù)商」。


01

抖音和剪映加持,

字節(jié)視頻生成大模型

更關(guān)注使用場景


視頻生成大模型,成為整場發(fā)布會最大的亮點。

譚待表示,「因為視頻特別難,我們一次性推出兩個,充分解決視頻里面的各種問題」。豆包家族新成員——豆包視頻生成-PixelDance、豆包視頻生成-Seaweed,正式面向企業(yè)市場開啟邀測。

從現(xiàn)場展示來看,豆包視頻模型可以根據(jù)文字和圖片的輸入,生成相應(yīng)的視頻。值得注意的是,字節(jié)跳動并沒有公布其模型生成視頻的最大時長,盡管后者被認為是體現(xiàn)技術(shù)能力的一大表現(xiàn)。

豆包視頻生成大模型,更強調(diào)其在實際應(yīng)用中、各種生活和商業(yè)場景所需的三個核心功能點。

首先是模型對復(fù)雜指令的理解遵循。以下圖的視頻為例,輸入「特寫?個??的面部,有些??,戴上了?副墨鏡;這時?個男?從畫?右側(cè)?進來抱住了她」。

?


? ? ? ? 視頻詳情 ? ? ? ? ? ? ??

在這個相對復(fù)雜的描述下,豆包模型生成的視頻呈現(xiàn)出了一個人情緒的變化、動作前后時間的變化,還出現(xiàn)了一個新的人物,這個新的人物跟原來的人物也有交互。換言之,豆包視頻大模型能夠根據(jù)指令實現(xiàn)時序性上有連續(xù)的動作指令,并且可以生成多個主體,并且讓多個主體間進行交互。

豆包視頻模型的第二個特點在于運鏡,?包視頻模型讓視頻在主體的?動態(tài)與鏡頭中進行切換,擁有變焦、環(huán)繞、平搖、縮放、?標(biāo)跟隨等多鏡頭語?的實現(xiàn)。

??

? ? ? ? 視頻詳情 ? ? ? ? ? ? ?

生成的視頻可以靈活控制視?,更接近真實世界的體驗|視頻來源:字節(jié)跳動

第三個特點則是?致性多鏡頭。在 AI 生成的視頻中,如何保證多鏡頭來回切時,不同主體在來回切換中的鏡頭是一致的,這也是當(dāng)前行業(yè)的共性難點。

以下視頻來源于 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 極客公園 ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?


? ? ? ? 視頻詳情 ? ? ? ? ? ? ?


豆包在一個 prompt 下生成的視頻,可以實現(xiàn)多個鏡頭切換,同時保持主體、?格、氛圍的?致性。|來源:字節(jié)跳動

在談及豆包視頻生成大模型的特點時,譚待表示,豆包視頻大模型背后有兩方面優(yōu)勢,一是技術(shù)突破和全棧能力等優(yōu)勢,在技術(shù)上,字節(jié)在這兩款視頻模型上做了大量技術(shù)創(chuàng)新,比如通過?效的 DiT 融合計算單元、全新設(shè)計的擴散模型訓(xùn)練?法和深度優(yōu)化后的 Transformer 結(jié)構(gòu),讓整個?成視頻的動作更靈動、鏡頭更多樣、細節(jié)更豐滿。

同時抖音、剪映對視頻的理解也是優(yōu)勢。「剪映對視頻的理解、對豆包視頻生成模型有幫助,指令遵循做得好也離不開語言模型,豆包是全體系模型,底層有基座模型有助于更好地理解指令?!?/span>

在深入到視頻場景的解決方案上,豆包視頻模型支持不同題材類型,?持包括??、3d 動畫、2d 動畫、國畫、?彩、?粉等多種?格,包含支持 1:1,3:4,4:3,16:9,9:16,21:9 等多個比例,對應(yīng)于電影、電視、電腦、手機等多個商業(yè)場景。

?包視頻?成模型通過整個模型能把商品快速 3D,而且動態(tài)多?度展?,還能配合不同的節(jié)日,比如中秋、七夕、春節(jié)等節(jié)點快速替換背景和?格,?成不同尺?的內(nèi)容發(fā)布到不同平臺上,最終適合整體營銷的戰(zhàn)略完成。

在更聚焦的場景上,豆包視頻模型也推出了更適配的解決方案,?如電商營銷場景,可以讓用戶根據(jù)商品生成大量的配合營銷節(jié)點的視頻素材,并且適配不同媒體平臺的不同尺?發(fā)布。

在視頻發(fā)布環(huán)節(jié),還有一個彩蛋,火山引擎帶來了內(nèi)部——剪映和即夢如何使用視頻?成模型的實踐案例。從抖音轉(zhuǎn)戰(zhàn)剪映 CapCut 的張楠(Kelly)通過數(shù)字分身 Kelly 的形式亮相。

在該數(shù)字人視頻中,Kelly 數(shù)字分身的動作像真人一樣自然,口型也可以與各國的不同語言完全適配。

這個案例也向外界展示了豆包視頻大模型在場景上帶來的新可能,比如自媒體、口播、營銷、帶貨、企業(yè)培訓(xùn)等,不必親自上陣進行拍攝,內(nèi)容制作成本也可以大幅降低。

據(jù)悉,豆包視頻模型不是期貨,最新模型會在國慶節(jié)后上線到火山引擎方舟平臺,即夢最新內(nèi)測版已經(jīng)使用了豆包視頻生成模型-Seawe。

至于定價問題,譚待表示還沒確定。他稱「視頻模型和語言模型應(yīng)用場景不同,定價邏輯也不同。要考慮新體驗 - 老體驗 - 遷移成本,最終能否廣泛應(yīng)用取決于是否比以前生產(chǎn)力 ROI 提升很多。」


02

從「卷」價格,

回到「卷」性能


與視頻大模型一同發(fā)布的,還有音樂大模型、同聲傳譯大模型,和豆包主力模型的新升級。就像豆包視頻模型的效果讓人眼前一亮,上述模型產(chǎn)品也均有亮眼的性能提升。

這一系列新升級也反應(yīng)了,火山引擎開始從「卷價格」到「卷性能」的轉(zhuǎn)變,后者將會成為其下一階段的戰(zhàn)略重點。會后接受采訪時,火山引擎總裁譚待重申了這一立場,他表示:「大模型的應(yīng)用成本已經(jīng)得到很好解決。大模型要從卷價格走向卷性能、卷更好的模型能力和服務(wù)」。

早在今年 5 月,火山引擎推出的豆包大模型把價格降至最低每千 token 低于一厘錢,引發(fā)了大模型廠商的價格戰(zhàn)。從那以來,模型廠商的整體模型調(diào)用量均出現(xiàn)了大幅提升。

據(jù)火山引擎披露,截至 9 月,豆包語言模型的日均 tokens 使用量超過 1.3 萬億,相比 5 月首次發(fā)布時增長超十倍,多模態(tài)數(shù)據(jù)處理量也分別達到每天 5000 萬張圖片和 85 萬小時語音。

盡管如此,模型性能掣肘成為了模型調(diào)用量進一步提升的瓶頸,同時也是機會。譚待舉例稱,業(yè)內(nèi)多家大模型目前最高僅支持 300K 甚至 100K 的 TPM(每分鐘 token 數(shù)),難以承載企業(yè)生產(chǎn)環(huán)境流量。例如某科研機構(gòu)的文獻翻譯場景,TPM 峰值為 360K,某汽車智能座艙的 TPM 峰值為 420K,某 AI 教育公司的 TPM 峰值更是達到 630K。為此,豆包大模型默認支持 800K 的初始 TPM,超行業(yè)平均水平,客戶還可根據(jù)需求靈活擴容。

此前 MiniMax 創(chuàng)始人閆俊杰向極客公園表示,從技術(shù)發(fā)展的角度看,模型推理成本 10 倍、百倍的降低是必然,只是時間問題,難的是通用模型的性能提升。

在看到從 ChatGPT 到 GPT-4,性能出現(xiàn)了大幅提升時,大模型領(lǐng)域也沿著 OpenAI 在模型預(yù)訓(xùn)練上做 Scaling Law,旨在用更多的數(shù)據(jù)、加更多的算力、提升模型參數(shù)量的做法來提升模型性能。隨著這一路徑的效率降低、優(yōu)質(zhì)數(shù)據(jù)耗盡的擔(dān)憂,通過這一方法提升性能的路徑陷入瓶頸。

現(xiàn)在,隨著 o1 的出現(xiàn),大模型在推理階段引入強化學(xué)習(xí)的路徑,帶來了進一步提升模型性能的明確路徑。

同時,隨著更多企業(yè)在 AI 應(yīng)用上的探索,也為模型性能的定向提升帶來了很多工程調(diào)優(yōu)手段。更好的模型性能、更好用的模型服務(wù),才能在產(chǎn)品上打開更多場景,而這也將成為包括火山引擎在內(nèi)的 AI 基礎(chǔ)設(shè)施服務(wù)商們下一階段的重點。

邯郸县| 凤冈县| 图片| 炉霍县| 宾川县| 平凉市| 徐水县| 祁连县| 铁力市| 洛川县| 洞口县| 扬州市| 宣汉县| 乌拉特中旗| 米易县| 大名县| 长春市| 彭泽县| 铜鼓县| 南川市| 襄樊市| 新巴尔虎左旗| 南靖县| 万荣县| 通城县| 双牌县| 肇庆市| 芮城县| 龙山县| 佛坪县| 西乌珠穆沁旗| 景泰县| 苍梧县| 凤冈县| 金塔县| 德江县| 青铜峡市| 建昌县| 八宿县| 遂川县| 无极县|