2025年3月,在東京巨蛋舉行的MLB(美國職業(yè)棒球大聯(lián)盟)開幕系列賽,不僅現(xiàn)場(chǎng)氣氛熱烈,線上直播也同樣火爆。其中,直播的精彩回放場(chǎng)景中使用的一項(xiàng)技術(shù),吸引了全球棒球迷的目光。這就是被稱為“自由視角影像”的最新影像技術(shù)。

這項(xiàng)技術(shù)在東京巨蛋已于2023年引進(jìn),對(duì)日本的粉絲來說已不陌生。其技術(shù)開發(fā)者正是佳能。我們?cè)L問了該公司位于神奈川縣川崎市的工作室,并與相關(guān)負(fù)責(zé)人進(jìn)行了交流。
一、MLB開幕戰(zhàn)上令世界驚艷的“自由視角影像”
3月MLB開幕系列賽洛杉磯道奇隊(duì)對(duì)陣芝加哥小熊隊(duì)的比賽中,大谷翔平選手的本壘打回放使用了自由視角影像。當(dāng)美國媒體“FOX Sports”在X(推特)上分享這一畫面后,立刻在社交媒體上引發(fā)熱議。通過自由視角影像,從大谷選手的球棒擊中球的瞬間開始,攝像機(jī)視角從投手后方緩慢移動(dòng)到大谷選手的側(cè)面,最終切換到從本壘板一側(cè)目送擊球的視角。 開幕戰(zhàn)中,小熊隊(duì)對(duì)陣巨人隊(duì)比賽里外野手的精彩防守回放也備受矚目。回放的自由視角影像從選手后方追隨其精彩動(dòng)作,并捕捉到了直播中未能拍到的選手振臂歡呼的姿勢(shì)。 實(shí)現(xiàn)這一自由視角影像技術(shù)的,是一種名為“立體影像技術(shù)”(Volumetric Video)的技術(shù)。東京巨蛋自2023年起已正式引進(jìn)佳能制造的立體影像系統(tǒng),目前被用于讀賣巨人隊(duì)的主場(chǎng)比賽。雖然在日本電視臺(tái)的直播中已司空見慣,但對(duì)美國的觀眾來說,這似乎顯得格外新穎。
二、從125臺(tái)攝像機(jī)捕捉的圖像,構(gòu)建立體影像
立體影像技術(shù),是通過大量的攝像機(jī)對(duì)一個(gè)空間進(jìn)行拍攝,并從二維的拍攝數(shù)據(jù)中創(chuàng)造出三維數(shù)據(jù)的技術(shù)。由于其獲取的是體積(=volume)信息,因此被稱為Volumetric。通過從所有方向進(jìn)行拍攝,可以將整個(gè)空間完整地記錄和存儲(chǔ)下來。之后,再貼上顏色和紋理并進(jìn)行渲染處理。對(duì)于人物等部分?jǐn)?shù)據(jù),會(huì)將其與背景分離后進(jìn)行處理。
雖然瞬間切換多臺(tái)攝像機(jī)影像的手法早已存在,但立體影像技術(shù)是將拍攝的整個(gè)空間進(jìn)行3D數(shù)據(jù)化,因此可以從任意喜歡的角度再現(xiàn)影像。除了前述的自由視角影像,它還能輸出3D模型等成果。 目前,東京巨蛋的上部馬道、后擋板下部等位置,共設(shè)置了125臺(tái)4K攝像機(jī)。這些攝像機(jī)是改造自“EOS C300 Mark II”,能以60fps進(jìn)行拍攝。該項(xiàng)目于2022年以87臺(tái)攝像機(jī)起步,之后逐年增加。
重要的是,這125臺(tái)攝像機(jī)必須精確同步。通過對(duì)攝像機(jī)的定制化改造,實(shí)現(xiàn)了低于1微秒精度的同步拍攝。對(duì)此,佳能影像事業(yè)本部IMG第三事業(yè)部IMG32事業(yè)推進(jìn)中心所長(zhǎng)藤井賢一先生解釋說:“同步拍攝是關(guān)鍵點(diǎn)。所有攝像機(jī)在低于微秒的精度下同步,實(shí)現(xiàn)同時(shí)快門。”
三、執(zhí)著于“3秒”的背后——橄欖球世界杯成為實(shí)用化的轉(zhuǎn)折點(diǎn)
佳能將生成立體影像的一系列處理過程,在短短3秒內(nèi)完成。 這份對(duì)“3秒”的執(zhí)著,是在該技術(shù)的開發(fā)過程中獲得的。回顧歷史,佳能于2016年開始研發(fā)立體影像技術(shù)?!拔覀冞^去以靜態(tài)圖像、單反相機(jī)為強(qiáng)項(xiàng),但我們懷著‘今后要向影像,而且是3D影像領(lǐng)域拓展’的想法開始了研發(fā),”藤井先生說。從此,想法逐漸豐滿:“我們希望讓人們能夠以自己喜歡的視角觀看影像,包括那些在傳統(tǒng)直播中看不到的場(chǎng)景?!?/span>
于是,公司集結(jié)了內(nèi)部的攝像機(jī)、硬件、圖像處理、網(wǎng)絡(luò)等領(lǐng)域的專家,組建了項(xiàng)目團(tuán)隊(duì)。初期聚焦于足球,反復(fù)進(jìn)行實(shí)驗(yàn)性拍攝。與藤井先生同屬IMG32事業(yè)推進(jìn)中心的部長(zhǎng)神谷泰次先生回顧道:“由于無法進(jìn)行實(shí)時(shí)處理,我們只能將拍攝的數(shù)據(jù)帶回實(shí)驗(yàn)室,花費(fèi)大量時(shí)間將其3D數(shù)據(jù)化?!?/span>
左為佳能影像事業(yè)本部IMG第三事業(yè)部IMG32事業(yè)推進(jìn)中心所長(zhǎng)藤井賢一先生,右為同部門部長(zhǎng)神谷泰次先生 圖片來源:CIO.com
轉(zhuǎn)折點(diǎn)是2019年的日本橄欖球世界杯。他們?cè)谌债a(chǎn)體育場(chǎng)設(shè)置了125臺(tái)攝像機(jī),拍攝了包括決賽在內(nèi)的6場(chǎng)比賽。當(dāng)時(shí),立體影像的文件是在賽后1小時(shí)才能提供,因此很遺憾未能在直播中使用。但是,在線上發(fā)布的自由視角影像引起了巨大反響。 如果在直播中能即時(shí)播出,或許會(huì)更受歡迎——團(tuán)隊(duì)的目標(biāo)是實(shí)現(xiàn)廣播可用的時(shí)間,即“3秒內(nèi)生成”。為此,他們從算法、硬件、軟件等多個(gè)方面進(jìn)行了改進(jìn)。
“其實(shí),技術(shù)上當(dāng)時(shí)已經(jīng)實(shí)現(xiàn)了‘3秒生成’。但是,選擇適合制作自由視角影像的有效比賽場(chǎng)景、以及制作出希望觀眾回看的攝像機(jī)角度的影像等環(huán)節(jié)耗費(fèi)了時(shí)間,所以才會(huì)在1小時(shí)后提交影像文件。為了達(dá)到廣播可用的標(biāo)準(zhǔn),我們必須在維持3秒生成的基礎(chǔ)上,實(shí)現(xiàn)更高畫質(zhì)、攝像機(jī)角度的即時(shí)制作,以及與直播工作流的聯(lián)動(dòng)?!鄙窆认壬敿?xì)解釋道。 如此開發(fā)出的當(dāng)前系統(tǒng),在邊緣端進(jìn)行3D模型的生成,并以3D模型化的影像數(shù)據(jù)為基礎(chǔ),進(jìn)行立體影像的生成處理。實(shí)現(xiàn)高速處理的關(guān)鍵在于其獨(dú)有的硬件技術(shù)。設(shè)置在攝像機(jī)附近的硬件會(huì)進(jìn)行預(yù)處理,然后再將數(shù)據(jù)發(fā)送至服務(wù)器,據(jù)說其中也進(jìn)行了一部分利用AI生成3D模型所需的圖像處理。這一點(diǎn),與在云端用大量服務(wù)器進(jìn)行處理的方法截然不同。 就這樣,他們最終實(shí)現(xiàn)了能在3秒內(nèi)生成廣播級(jí)立體影像?!傲Ⅲw影像技術(shù)其他公司也在做,但這一點(diǎn)是我們的強(qiáng)項(xiàng),”藤井先生自豪地說。
四、從娛樂到技術(shù)傳承,用途不斷擴(kuò)展,未來目標(biāo)是“一源多用”
由于在橄欖球世界杯上獲得好評(píng),體育領(lǐng)域的應(yīng)用案例不斷涌現(xiàn),例如NBA在2021-2022和2022-2023賽季都活用了立體影像技術(shù)。應(yīng)用也擴(kuò)展到了體育之外,比如“能樂”表演(日本的“能樂”(Noh)是一種非常古老的傳統(tǒng)戲劇形式,起源于14世紀(jì),至今仍在日本上演。它融合了舞蹈、戲劇、音樂和詩歌等多種藝術(shù)元素,以其獨(dú)特的美學(xué)和表演風(fēng)格而聞名),利用立體影像技術(shù)制作出了能立體展現(xiàn)演員動(dòng)作的影像。 佳能于2020年,在神奈川縣川崎市的事業(yè)所內(nèi),設(shè)立了立體影像技術(shù)的專用工作室??膳臄z范圍為8米x8米,周圍環(huán)繞著159臺(tái)專用攝像機(jī)。這里進(jìn)行了籃球等體育項(xiàng)目、音樂視頻和時(shí)裝秀等的拍攝。在新冠疫情期間,還誕生了新的活用方式,如身在日本的空手道大師向海外的道場(chǎng)直播“型”(套路)。以傳承護(hù)理或壽司師傅等匠人技藝為目的的拍攝也在增加。最新的案例是,為NHK的晨間劇《あんぱん》(紅豆面包)制作了片頭影像。 盡管感受到了應(yīng)用的廣泛擴(kuò)展,但挑戰(zhàn)依然存在。如何推廣這項(xiàng)目前認(rèn)知度尚不能說高的技術(shù),以及尚未看到能引爆市場(chǎng)的殺手級(jí)應(yīng)用。
藤井先生等人也指出了立體影像拍攝設(shè)備的課題。為實(shí)現(xiàn)高品質(zhì)影像,需要準(zhǔn)備大量高性能攝像機(jī)。為了在邊緣端進(jìn)行處理,也需要服務(wù)器等設(shè)備,還必須配置操作人員。在體育場(chǎng)館安裝和導(dǎo)入這樣的設(shè)備,既耗時(shí)又耗資。解決之道似乎仍在探索中。 在影像時(shí)代,以立體影像技術(shù)為首的邊緣計(jì)算領(lǐng)域的視頻處理,預(yù)計(jì)將持續(xù)增加。而在這個(gè)領(lǐng)域,AI的影響也不容忽視。 專注于邊緣IT基礎(chǔ)設(shè)施的IDC Japan株式會(huì)社數(shù)據(jù)與分析、企業(yè)基礎(chǔ)設(shè)施研究經(jīng)理下河邊雅行先生,指出了視覺語言模型(VLM)這一值得關(guān)注的技術(shù)。這是一種能同時(shí)處理圖像和文本的AI模型,將能以口語形式操作影像。“可以預(yù)見,VLM與立體影像技術(shù)的融合,將極大地簡(jiǎn)化操作員的操作,”他說道。
關(guān)于立體影像技術(shù)的認(rèn)知度和殺手級(jí)應(yīng)用,他表示:“除了橄欖球、棒球、籃球,它還能在各種體育項(xiàng)目中帶來卓越的觀看體驗(yàn)。使用立體影像技術(shù)的一方,持有‘想做什么’的視角和熱情,比思考‘能做什么’更重要。此外,建立一個(gè)能讓體育團(tuán)體以外的利益相關(guān)者也參與進(jìn)來的商業(yè)化機(jī)制也很有必要?!?另外,立體影像技術(shù)不僅限于體育和娛樂等現(xiàn)有案例,在數(shù)字孿生環(huán)境中的虛擬化身等商業(yè)領(lǐng)域,也完全有活用的可能性?!耙屃Ⅲw影像技術(shù)從‘錦上添花’(nice-to-have)變?yōu)椤豢苫蛉薄╩ust-have)的技術(shù),需要整個(gè)行業(yè)共同努力,”下河邊先生說。 佳能已將“一源多用”(One source, multiple uses)定為下一階段的目標(biāo)?!澳壳笆怯芍辈シ讲僮髯杂梢暯?,但如果用戶能自由操作,會(huì)不會(huì)更有趣呢?”藤井先生說。例如,在棒球比賽中只追隨二壘手,在娛樂表演中只看組合里的“推し”(偶像),這樣的欣賞方式將成為可能。為此,存在數(shù)據(jù)容量等技術(shù)課題,目前正與合作伙伴共同探索解決方法。
“我們希望實(shí)現(xiàn)一個(gè)觀眾能自由操作和觀看影像的世界。如果能提供前所未有的體驗(yàn),我們認(rèn)為那對(duì)我們來說也將是一個(gè)重要的里程碑,”藤井先生說。
【核心創(chuàng)新:佳能以3秒生成速度,推動(dòng)立體影像進(jìn)入直播時(shí)代】日本相機(jī)與影像巨頭佳能(Canon)正通過其“立體影像技術(shù)”(Volumetric Video),在全球范圍內(nèi)開拓全新的沉浸式視覺體驗(yàn)。該技術(shù)的核心是通過在場(chǎng)館內(nèi)部署上百臺(tái)(如東京巨蛋的125臺(tái))經(jīng)過精密同步(低于1微秒誤差)的4K攝像機(jī),從各個(gè)角度捕捉整個(gè)三維空間,并將其完整地3D數(shù)據(jù)化。由此生成的“自由視角影像”,允許從任意虛擬攝像機(jī)角度進(jìn)行觀看,在MLB(美國職業(yè)棒球大聯(lián)盟)等頂級(jí)體育賽事中,因其能提供傳統(tǒng)直播無法呈現(xiàn)的、如電影特效般的精彩回放而備受矚目。佳能最核心的競(jìng)爭(zhēng)優(yōu)勢(shì)在于,憑借其強(qiáng)大的邊緣計(jì)算硬件和AI圖像處理算法,能夠?qū)⑦@一復(fù)雜的數(shù)據(jù)處理過程壓縮在短短3秒內(nèi)完成,從而首次實(shí)現(xiàn)了將立體影像技術(shù)無縫融入瞬息萬變的體育賽事直播中。
【多元應(yīng)用:從體育娛樂到文化技能的“體驗(yàn)數(shù)字化”】在2019年橄欖球世界杯上取得巨大成功后,佳能的立體影像技術(shù)迅速從體育轉(zhuǎn)播,擴(kuò)展到更廣泛的應(yīng)用領(lǐng)域,其本質(zhì)是實(shí)現(xiàn)“體驗(yàn)的數(shù)字化”。在娛樂領(lǐng)域,它被用于拍攝音樂視頻和時(shí)裝秀;在文化與技能傳承方面,它被用來三維地記錄和展示珍貴的非物質(zhì)文化遺產(chǎn),如日本的“能樂”表演,以及空手道大師的套路、乃至壽司師傅的精湛技藝,為遠(yuǎn)程教學(xué)和數(shù)字存檔提供了前所未有的可能性。為此,佳能專門在川崎設(shè)立了大型立體影像工作室,進(jìn)一步探索其在不同場(chǎng)景下的商業(yè)潛力,旨在將各種轉(zhuǎn)瞬即逝的“瞬間”,封裝成一個(gè)可以從任意角度反復(fù)體驗(yàn)的“數(shù)字琥珀”。
【未來展望:邁向觀眾主動(dòng)操控的“一源多用”新紀(jì)元】盡管目前面臨著市場(chǎng)認(rèn)知度不足和部署成本高昂等挑戰(zhàn),但佳能的未來愿景是實(shí)現(xiàn)“一源多用”(One Source, Multiple Uses)。其最終目標(biāo)是,通過與視覺語言模型(VLM)等AI技術(shù)的深度融合,將視角的控制權(quán)從直播導(dǎo)播,交還給每一位觀眾。屆時(shí),觀眾將不再是被動(dòng)地接收固定的電視畫面,而是可以成為自己觀賽體驗(yàn)的“導(dǎo)演”,能夠自由選擇全程跟隨自己喜愛的特定球員或偶像的視角。這一從“觀看”到“參與”的體驗(yàn)升級(jí),雖然仍需克服數(shù)據(jù)容量等技術(shù)難題,但它預(yù)示著一個(gè)全新的、高度個(gè)性化和互動(dòng)化的數(shù)字內(nèi)容消費(fèi)時(shí)代的到來。
日本相機(jī)巨頭佳能(Canon)正通過其“立體影像技術(shù)”(Volumetric Video)開拓全新視覺體驗(yàn),該技術(shù)在MLB等體育賽事中因“自由視角影像”而備受矚目。其核心優(yōu)勢(shì)是強(qiáng)大的邊緣計(jì)算能力,能在3秒內(nèi)生成廣播級(jí)影像,無縫融入直播。除體育外,該技術(shù)正迅速擴(kuò)展到娛樂、文化與技能傳承等領(lǐng)域,旨在實(shí)現(xiàn)“體驗(yàn)的數(shù)字化”。其最終愿景是實(shí)現(xiàn)“一源多用”,讓觀眾從被動(dòng)接收轉(zhuǎn)為主動(dòng)操控視角,將“觀看”徹底升級(jí)為“參與”。
從體育觀賽到文化傳承,這項(xiàng)技術(shù)正在將轉(zhuǎn)瞬即逝的“瞬間”,封裝成一個(gè)可以從任意角度反復(fù)體驗(yàn)的“數(shù)字琥珀”。
技術(shù)綜述:Free-Viewpoint Video: A Survey(中譯:《自由視角視頻技術(shù)綜述》)
發(fā)布機(jī)構(gòu)/作者:M. M. S. W. M. W. T. Bandara et al.
推薦理由:本文的核心是“自由視角影像”。這篇學(xué)術(shù)綜述文章系統(tǒng)性地回顧了自由視角視頻技術(shù)的發(fā)展歷史、關(guān)鍵技術(shù)(如多視角幾何、圖像渲染)以及面臨的挑戰(zhàn),為希望從技術(shù)層面深入理解其背后原理的開發(fā)者和研究人員,提供了堅(jiān)實(shí)的理論基礎(chǔ)。
有效鏈接:https://www.researchgate.net/publication/224213327_Free-viewpoint_video_A_survey
行業(yè)報(bào)告:The Future of Sports Broadcasting: The 2024-2029 Outlook(中譯:《體育轉(zhuǎn)播的未來:2024-2029展望》)
發(fā)布機(jī)構(gòu):Deloitte (德勤)
推薦理由:佳能的技術(shù)在體育轉(zhuǎn)播領(lǐng)域影響巨大。德勤的這份報(bào)告探討了流媒體、5G、AI和沉浸式技術(shù)(如AR/VR和本文的立體影像)將如何重塑未來的體育觀看體驗(yàn)和商業(yè)模式。它為理解這項(xiàng)技術(shù)的市場(chǎng)潛力和商業(yè)化路徑,提供了權(quán)威的行業(yè)洞察。
有效鏈接:https://www2.deloitte.com/us/en/insights/industry/technology/future-of-sports-broadcast-media-trends.html
書籍名稱:Edge Computing: From Hype to Reality(中譯:《邊緣計(jì)算:從炒作到現(xiàn)實(shí)》)
作者:Rajkumar Buyya & Satish Narayana Srirama
推薦理由:佳能能在3秒內(nèi)生成影像的關(guān)鍵在于其強(qiáng)大的邊緣計(jì)算能力。這本書詳細(xì)解釋了邊緣計(jì)算的架構(gòu)、關(guān)鍵技術(shù)和在不同行業(yè)(包括實(shí)時(shí)視頻分析)的應(yīng)用案例,有助于讀者理解為什么像佳能這樣的公司選擇在邊緣端(而非云端)進(jìn)行大量數(shù)據(jù)預(yù)處理,以及這種架構(gòu)選擇的優(yōu)勢(shì)所在。
有效鏈接:https://www.amazon.com/Edge-Computing-Reality-Rajkumar-Buyya/dp/103219119X