2025年7月發(fā)布的論文《使用機(jī)械語言Token進(jìn)行傳輸:面向任務(wù)的智能體通信范式》提出了一種從根本上重新設(shè)計AI智能體間通信的架構(gòu)。本文將從企業(yè)開發(fā)者的視角,深入解讀其內(nèi)容,并梳理其實務(wù)上的啟示。
本次解讀的論文鏈接如下:https://arxiv.org/abs/2507.21454

一、從傳統(tǒng)的“比特保真度”到“任務(wù)保真度”
論文批判的是,將面向人類的格式(自然語言、JPEG圖像等)直接進(jìn)行無線傳輸,再由接收方重新解讀的傳統(tǒng)流程。論文指出,即便比特被完美復(fù)原,其中絕大部分?jǐn)?shù)據(jù)對于下游任務(wù)來說也是不必要的,這會增加帶寬、功耗和延遲。因此,作者們提出了一個新目標(biāo):“只將完成任務(wù)所必需的語義,以小體積且無歧義的方式發(fā)送出去”。
二、什么是機(jī)械語言Token?
大型語言模型(LLM)在內(nèi)部通過將單詞或圖像轉(zhuǎn)換為實數(shù)向量來進(jìn)行處理。作者們將這一向量序列命名為“機(jī)械語言Token”(Machine Language Tokens),并采用不將其轉(zhuǎn)換回自然語言,而是直接發(fā)送的方式。由于向量是由LLM為最優(yōu)化任務(wù)而自我學(xué)習(xí)得來的,因此其冗余度低,并能定量地保持細(xì)節(jié)的語義。結(jié)果顯示,一張圖像僅用約5個Token(相當(dāng)于幾千字節(jié))即可表示,實驗中展現(xiàn)出比JPEG格式節(jié)省超過100倍的通信數(shù)據(jù)量。
三、通信管線的整體構(gòu)想
任務(wù)方智能體將詳細(xì)指令歸納為一條簡短的、信息被秘匿化的句子并發(fā)送。傳感器方智能體將此句與多模態(tài)輸入(如圖像)一同送入LLM,并提取最終模塊的向量作為機(jī)械語言Token。接著,通過同時學(xué)習(xí)維度壓縮和抗噪聲性的JTCC(聯(lián)合Token與信道編碼)技術(shù),將4096維壓縮至256維,并以模擬信號的方式通過多天線、多子載波進(jìn)行傳輸。接收方將復(fù)原的Token作為前綴注入到自己的模型中,無需額外訓(xùn)練即可生成回答。這種“向量直送”的方法,與將圖像端Token化的“文本引導(dǎo)的Token通信”等類似研究遙相呼應(yīng)。
實驗使用了圖像推理數(shù)據(jù)集CLEVR和GQA,報告結(jié)果顯示,即便在SNR為0dB的惡劣信道條件下,其精度也高于傳統(tǒng)的DeepJSCC方法,而在SNR為15dB以上時,其結(jié)果甚至超越了直接發(fā)送原始圖像。該技術(shù)同時實現(xiàn)了壓縮效率、精度和魯棒性,是其技術(shù)上的重大影響。
四、對業(yè)務(wù)的啟示
首先,在工廠、倉庫機(jī)器人、數(shù)字孿生等實時控制系統(tǒng)中,將高分辨率的傳感器數(shù)據(jù)直接發(fā)送至云端往往會成為瓶頸。若應(yīng)用本論文的方法,則有可能在將帶寬壓縮至1%以下的同時,保持任務(wù)精度。其次,在供應(yīng)鏈上多家企業(yè)需要進(jìn)行智能體協(xié)作的場景中,由于無需披露詳細(xì)任務(wù)或原始數(shù)據(jù)即可進(jìn)行協(xié)調(diào),因此在保護(hù)知識產(chǎn)權(quán)和合規(guī)性方面具有優(yōu)勢。此外,針對6G時代設(shè)想的免授權(quán)連接和毫秒級延遲要求,模擬傳輸和前綴注入的方式,是在抑制實現(xiàn)復(fù)雜度的同時,又能充分利用硬件性能的一種設(shè)計指南。
另一方面,由于機(jī)械語言Token具有領(lǐng)域依賴性,在應(yīng)用于新領(lǐng)域時,需要準(zhǔn)備包含LoRA等低成本方法在內(nèi)的再學(xué)習(xí)管線。【注:LoRA(低秩適應(yīng))是一種高效的大模型微調(diào)方法,由微軟研究院于2021年提出。其核心思想是通過低秩分解技術(shù),僅訓(xùn)練極少量新增參數(shù)(通常不到原模型的1%),即可實現(xiàn)模型在特定任務(wù)上的高效適配,大幅降低計算成本和存儲開銷。】確保模擬傳輸?shù)木€性、信道估算,以及對人類無法審計的向量通信進(jìn)行安全設(shè)計,這些也都是尚待解決的課題。
總結(jié)
“機(jī)械語言Token”的創(chuàng)新之處在于,它將“讓AI智能體用它們自己的‘腦內(nèi)語言’直接對話”這一構(gòu)想,落實到了通信層面。通過直接收發(fā)模型的內(nèi)部表征,它同時兼顧了數(shù)據(jù)削減與任務(wù)性能,以一種現(xiàn)實可行的方式,展示了AI原生的網(wǎng)絡(luò)設(shè)計。對于正在考慮在產(chǎn)業(yè)現(xiàn)場進(jìn)行智能體協(xié)作的開發(fā)團(tuán)隊來說,本研究不僅可作為一種數(shù)據(jù)削減策略,更作為未來6G兼容架構(gòu)的核心要素,極具被納入設(shè)計方針的價值。
【核心挑戰(zhàn):AI間通信的“人類中心”瓶頸】在AI智能體(Agent)日益普及的背景下,傳統(tǒng)的通信范式正成為效率的巨大瓶頸。目前的做法是,智能體將自己的“思考結(jié)果”(即內(nèi)部的向量表征)先“翻譯”成人類可讀的格式(如自然語言文本、JPEG圖像),通過網(wǎng)絡(luò)傳輸后,再由接收方的智能體將其“翻譯”回機(jī)器能理解的向量。這個過程追求的是“比特保真度”(Bit Fidelity),即完美復(fù)原原始文件。然而,這導(dǎo)致了大量對于完成特定任務(wù)而言冗余的、不必要的細(xì)節(jié)信息被傳輸,極大地浪費了帶寬和能源,并增加了處理延遲,與AI追求極致效率的目標(biāo)背道而馳。
【應(yīng)對策略:“機(jī)械語言Token”的革命性范式】近期一篇名為《使用機(jī)械語言Token進(jìn)行傳輸》的論文提出了革命性的解決方案。其核心思想是徹底拋棄以人類為中心的通信格式,將通信目標(biāo)從“比特保真度”轉(zhuǎn)向“任務(wù)保真度”(Task Fidelity)。具體而言,智能體不再進(jìn)行“機(jī)-人-機(jī)”的二次翻譯,而是直接將其內(nèi)部用來理解任務(wù)的、高度壓縮的“實數(shù)向量”——論文作者稱之為“機(jī)械語言Token”——進(jìn)行傳輸。這些Token是AI為完成任務(wù)而自我學(xué)習(xí)、高度凝練的語義信息。通過專門的編碼技術(shù)(JTCC),這些向量在被進(jìn)一步壓縮和增強(qiáng)抗噪聲性后,以模擬信號的方式高效傳輸,接收方可將其作為“前綴”直接注入模型,即刻理解并執(zhí)行任務(wù)。
【結(jié)論與啟示:邁向AI原生通信的新紀(jì)元】這種“向量直送”的AI原生通信方法,其價值是顛覆性的。實驗證明,它可將通信數(shù)據(jù)量壓縮超過100倍,同時在惡劣的信道環(huán)境中依然保持高精度和魯棒性。對企業(yè)而言,這意味著在工業(yè)機(jī)器人、數(shù)字孿生等實時控制場景中,可以打破數(shù)據(jù)傳輸瓶頸;在跨企業(yè)協(xié)作中,可以在不泄露原始數(shù)據(jù)的前提下保護(hù)知識產(chǎn)權(quán)。這項研究為未來6G時代的AI原生網(wǎng)絡(luò)設(shè)計提供了清晰的藍(lán)圖,預(yù)示著一個AI智能體們用自己的“腦內(nèi)語言”直接高效對話的新紀(jì)元的到來。
為解決AI智能體間通信低效問題,新研究提出“機(jī)械語言Token”范式。核心是智能體不再傳輸人類語言,而是直接發(fā)送其內(nèi)部理解任務(wù)的高度壓縮的“實數(shù)向量”。此舉將通信目標(biāo)從“比特保真度”轉(zhuǎn)向“任務(wù)保真度”,可將數(shù)據(jù)量壓縮超100倍,為實時控制、跨企業(yè)協(xié)作等提供了新藍(lán)圖。
金句
未來的AI通信:別再讓機(jī)器“說人話”了,讓它們用自己的“腦電波”(向量)直接交流,才是最高效的語言。
專業(yè)書籍/文獻(xiàn)推薦
核心文獻(xiàn):Transmission With Machine Language Tokens: A Paradigm for Task-Oriented Agent Communication(中譯:使用機(jī)械語言Token進(jìn)行傳輸:面向任務(wù)的智能體通信范式)
推薦理由:這是本文討論的源頭,是理解“機(jī)械語言Token”最直接、最權(quán)威的資料。閱讀原文有助于深入理解其技術(shù)細(xì)節(jié)、實驗設(shè)置和理論基礎(chǔ)。
有效鏈接:https://arxiv.org/abs/2507.21454
背景文獻(xiàn):Semantic Communications: A Tutorial(中譯:語義通信教程)
推薦理由:“機(jī)械語言Token”是“語義通信”領(lǐng)域的一個突破性進(jìn)展。這篇教程系統(tǒng)性地介紹了語義通信的基本概念、歷史演進(jìn)和關(guān)鍵技術(shù),有助于開發(fā)者將本文的單點創(chuàng)新,置于一個更宏大的技術(shù)框架中去理解。
有效鏈接:https://arxiv.org/abs/2201.01389
技術(shù)報告:6G and AI: A transformative relationship(中譯:6G與AI:一次變革性的關(guān)系)
推薦理由:本文多次提及該技術(shù)對6G時代的意義。愛立信作為全球領(lǐng)先的通信設(shè)備商,其發(fā)布的這份報告深入探討了AI如何成為6G的核心驅(qū)動力,以及6G網(wǎng)絡(luò)將如何反過來支持分布式、智能化的AI應(yīng)用,為理解本文的產(chǎn)業(yè)應(yīng)用前景提供了極佳的宏觀視角。
本文章介紹的論文(中譯)






(完)