![]()
現(xiàn)代科技讓我們能夠與AI聊天,但有沒有想過,如果這個AI還能用肢體語言和你交流會是什么樣子?東京理工學(xué)院聯(lián)合卡內(nèi)基梅隆大學(xué)等多所知名高校的研究團隊最近發(fā)布了一項令人興奮的研究成果,他們開發(fā)出了一種名為DyaDiT的全新技術(shù),這項研究發(fā)表于2026年2月,論文編號為arXiv:2602.23165v1。這個看似復(fù)雜的名字背后,隱藏著一個能夠徹底改變我們與虛擬角色互動方式的創(chuàng)新技術(shù)。
要理解這項技術(shù)的重要性,可以這樣想:當(dāng)兩個人聊天時,除了說話內(nèi)容,他們還會不自覺地做各種手勢、調(diào)整身體姿態(tài),甚至?xí)鶕?jù)對方的反應(yīng)來調(diào)整自己的表達方式。一個外向的人說話時手舞足蹈,而內(nèi)向的人可能更多地點頭傾聽。朋友之間的互動輕松隨意,而初次見面的陌生人則相對拘謹。這些微妙的社交細節(jié)構(gòu)成了真實人際交往的精髓。
然而,目前的虛擬角色或數(shù)字人在這方面還相當(dāng)笨拙。它們通常只能根據(jù)自己說的話做出相應(yīng)的手勢,完全不會考慮對方在做什么,也不會根據(jù)雙方的關(guān)系或性格特點來調(diào)整自己的行為。就像是一個不會察言觀色的人,總是按照固定模式說話和做動作,顯得機械而缺乏人情味。
DyaDiT技術(shù)的革命性突破就在于,它讓虛擬角色能夠像真人一樣進行有來有回的社交互動。這套系統(tǒng)不僅能聽懂雙方在說什么,還能理解他們是什么關(guān)系(朋友、陌生人、情侶或家人),甚至能夠分析每個人的性格特點,然后生成相應(yīng)的肢體語言和互動行為。
研究團隊在開發(fā)這項技術(shù)時,面臨的核心挑戰(zhàn)就像是要教會一臺機器如何在雞尾酒會上自然地與人交談。在這樣的場合,兩個人可能同時說話、互相打斷,或者一個人在說話時另一個人在點頭回應(yīng)。傳統(tǒng)的技術(shù)只能處理"一個人說話,另一個人安靜聽著"這種簡單情況,但現(xiàn)實中的對話遠比這復(fù)雜得多。
為了解決這個問題,研究團隊首先需要大量的真實對話數(shù)據(jù)。他們使用了一個名為"無縫交互數(shù)據(jù)集"的龐大數(shù)據(jù)庫,這個數(shù)據(jù)庫包含了大約182小時的真實雙人對話錄像,相當(dāng)于連續(xù)觀看一周的對話內(nèi)容。這些對話不是表演出來的,而是真實的人際交往場景,包含了各種關(guān)系類型和性格組合。
在技術(shù)實現(xiàn)上,DyaDiT系統(tǒng)的工作原理可以比作一位非常善于觀察的社交專家。當(dāng)兩個人在對話時,這個"專家"會同時關(guān)注幾個要素:雙方在說什么、他們的聲調(diào)和語速、他們是什么關(guān)系、各自的性格特點,以及當(dāng)前的互動氛圍。然后,基于這些信息,系統(tǒng)為其中一方生成自然的肢體動作和表情。
系統(tǒng)最巧妙的創(chuàng)新之一是解決了"聲音混合"的問題。當(dāng)兩個人同時說話或者互相打斷時,傳統(tǒng)技術(shù)往往會混淆,不知道該響應(yīng)誰的聲音。DyaDiT開發(fā)了一種叫做"正交化交叉注意力機制"(聽起來復(fù)雜,其實就像是一副能夠分別聽清楚不同聲音的特殊耳朵)的技術(shù)。這個機制能夠清晰地分辨出每個人的聲音貢獻,就像在嘈雜的餐廳里你仍然能夠?qū)W⒙犌鍖γ媾笥言谡f什么一樣。
另一個重要突破是"動作詞典"的概念。研究團隊發(fā)現(xiàn),人的肢體語言其實有一些基本的"詞匯",比如點頭表示同意、攤手表示困惑、前傾身體表示感興趣等等。他們讓系統(tǒng)學(xué)習(xí)了1000種這樣的基礎(chǔ)動作模式,就像建立了一個手勢和姿態(tài)的字典。當(dāng)系統(tǒng)需要表達某種情感或反應(yīng)時,它會從這個字典中選擇合適的"詞匯"進行組合,創(chuàng)造出自然流暢的動作序列。
系統(tǒng)還特別考慮了社交關(guān)系對行為的影響。戀人之間的互動通常更加親密,動作幅度可能更大,眼神交流更頻繁;而陌生人之間則相對拘謹,保持更多的個人空間。朋友關(guān)系介于兩者之間,既有親近感又不失分寸。系統(tǒng)通過學(xué)習(xí)大量的真實對話數(shù)據(jù),掌握了這些微妙的社交規(guī)則。
性格特征同樣是系統(tǒng)考慮的重要因素。心理學(xué)中有一個著名的"大五人格理論",將人的性格分為五個維度:外向性、友善性、責(zé)任感、情緒穩(wěn)定性和開放性。外向的人在對話中往往更加活躍,手勢更多更大;而內(nèi)向的人可能更多地傾聽,動作相對含蓄。系統(tǒng)能夠根據(jù)這些性格特征調(diào)整生成的動作風(fēng)格。
為了驗證技術(shù)的效果,研究團隊進行了大量的測試。他們不僅用傳統(tǒng)的技術(shù)指標來評估動作的自然程度和多樣性,還邀請了真實用戶進行主觀評價。結(jié)果顯示,DyaDiT生成的動作不僅在技術(shù)指標上全面超越了現(xiàn)有的同類技術(shù),在用戶的主觀感受上也獲得了壓倒性的好評。
在整體質(zhì)量評價中,有73.9%的用戶認為DyaDiT生成的動作看起來更像真人;在關(guān)系一致性評價中,69.8%的用戶認為系統(tǒng)生成的互動更符合兩人的實際關(guān)系;在性格一致性方面,也有66.7%的用戶給出了正面評價。更有趣的是,在某些情況下,用戶甚至認為系統(tǒng)生成的動作比真實錄制的動作看起來更自然,這可能是因為系統(tǒng)生成的動作經(jīng)過了優(yōu)化,去除了一些不必要的抖動和不規(guī)律性。
技術(shù)實現(xiàn)的細節(jié)展現(xiàn)了研究團隊的巧思。整個系統(tǒng)采用了當(dāng)下最先進的擴散變換器架構(gòu),這種架構(gòu)就像是一個能夠逐步細化圖像的藝術(shù)家。系統(tǒng)首先生成一個粗糙的動作輪廓,然后逐步添加細節(jié),最終產(chǎn)生流暢自然的動作序列。這個過程有點像雕塑家先用粗線條勾勒出基本形狀,再逐步精雕細琢出最終作品。
為了處理連續(xù)的動作序列,系統(tǒng)還使用了一種叫做"矢量量化變分自編碼器"的技術(shù)。這個名字聽起來很拗口,但其作用很容易理解:就像是將連續(xù)的動作"切片"成一個個小段,每個小段都有一個獨特的"標簽"。這樣,系統(tǒng)就能夠更好地理解和生成連貫的動作序列,避免出現(xiàn)突兀的跳躍或不連貫的動作。
研究團隊還進行了詳細的消融實驗,分別測試了系統(tǒng)各個組件的貢獻。結(jié)果發(fā)現(xiàn),去除聲音分離模塊后,系統(tǒng)的表現(xiàn)明顯下降,說明準確分離雙方聲音對于生成合適反應(yīng)的重要性。移除動作詞典后,生成動作的多樣性顯著減少,驗證了預(yù)設(shè)動作模式庫的價值。當(dāng)完全不使用社交上下文信息時,系統(tǒng)生成的動作質(zhì)量大幅下降,充分證明了考慮關(guān)系和性格因素的必要性。
這項技術(shù)的應(yīng)用前景非常廣闊。在游戲行業(yè),它能夠讓非玩家角色(NPC)表現(xiàn)得更加真實可信,根據(jù)玩家的行為和雙方的關(guān)系動態(tài)調(diào)整自己的反應(yīng)。在教育領(lǐng)域,虛擬教師能夠更好地理解學(xué)生的狀態(tài),用合適的肢體語言來鼓勵或安撫學(xué)生。在心理健康服務(wù)中,虛擬治療師能夠提供更加人性化的互動體驗。在視頻會議和遠程協(xié)作中,這項技術(shù)也能夠讓虛擬化身表現(xiàn)得更加自然,改善遠程交流的體驗。
不過,這項技術(shù)目前還存在一些局限性。系統(tǒng)目前只能生成上半身的動作,還不包括腿部動作和全身協(xié)調(diào)。另外,雖然系統(tǒng)考慮了性格和關(guān)系因素,但有時候語音中本身就包含了一些性格信息,可能會與顯式的性格標簽產(chǎn)生沖突,影響生成效果的多樣性。
研究團隊已經(jīng)在規(guī)劃未來的改進方向。他們計劃擴展到全身動作生成,包括面部表情和步態(tài)等更豐富的肢體語言。他們還在研究如何更好地處理音頻中隱含的性格信息,以及如何讓系統(tǒng)能夠同時為對話雙方生成協(xié)調(diào)的互動動作。
從技術(shù)發(fā)展的角度來看,DyaDiT代表了人機交互領(lǐng)域的一個重要里程碑。它不僅僅是讓機器能夠做出手勢,更重要的是讓機器開始理解和模擬人類社交的微妙之處。這種對社交智能的模擬,為未來更加自然的人機交互奠定了基礎(chǔ)。
說到底,這項研究的價值不僅在于技術(shù)本身的先進性,更在于它讓我們看到了一個更加人性化的數(shù)字世界的可能性。當(dāng)虛擬角色能夠像真人一樣理解社交情境、展現(xiàn)個性特征、做出恰當(dāng)反應(yīng)時,我們與數(shù)字世界的邊界將變得越來越模糊。這不僅會改變我們使用技術(shù)的方式,也可能會影響我們對人際關(guān)系本身的理解。畢竟,當(dāng)機器都開始學(xué)會察言觀色、因人而異地調(diào)整行為時,我們?nèi)祟愂欠褚残枰匦聦徱暿裁床攀钦嬲毺氐娜诵蕴刭|(zhì)呢?
對于有興趣深入了解技術(shù)細節(jié)的讀者,可以通過論文編號arXiv:2602.23165v1查詢完整的研究論文,那里有更詳細的技術(shù)實現(xiàn)和實驗數(shù)據(jù)分析。
Q&A
Q1:DyaDiT技術(shù)是什么?
A:DyaDiT是東京理工學(xué)院等研究機構(gòu)開發(fā)的一種AI技術(shù),能讓虛擬角色像真人一樣進行雙人對話互動。它不僅能根據(jù)語音生成手勢,還能考慮對話雙方的關(guān)系(朋友、陌生人等)和性格特點,生成更自然、更符合社交情境的肢體語言和互動行為。
Q2:這個技術(shù)和現(xiàn)在的虛擬人有什么區(qū)別?
A:現(xiàn)有虛擬人通常只能根據(jù)自己說的話做手勢,不會考慮對方的反應(yīng)或雙方的關(guān)系。DyaDiT技術(shù)的突破在于能同時處理兩個人的語音,理解他們的社交關(guān)系和個性差異,生成更加真實的互動反應(yīng),就像真人聊天時會根據(jù)對方的話語和動作來調(diào)整自己的表現(xiàn)一樣。
Q3:DyaDiT技術(shù)可以用在哪些地方?
A:應(yīng)用前景很廣泛,包括讓游戲中的NPC更智能真實、創(chuàng)造更人性化的虛擬教師和治療師、改善視頻會議中的虛擬化身體驗等。任何需要虛擬角色與人進行自然互動的場景都能從這項技術(shù)中受益,讓數(shù)字交流變得更加真實可信。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.