東京理工學(xué)院團隊革命性突破：讓虛擬人像真人一樣會聊天互動

2026-02-27 22:13:30　來源: 科技行者

北京舉報

分享至

現(xiàn)代科技讓我們能夠與AI聊天，但有沒有想過，如果這個AI還能用肢體語言和你交流會是什么樣子？東京理工學(xué)院聯(lián)合卡內(nèi)基梅隆大學(xué)等多所知名高校的研究團隊最近發(fā)布了一項令人興奮的研究成果，他們開發(fā)出了一種名為DyaDiT的全新技術(shù)，這項研究發(fā)表于2026年2月，論文編號為arXiv:2602.23165v1。這個看似復(fù)雜的名字背后，隱藏著一個能夠徹底改變我們與虛擬角色互動方式的創(chuàng)新技術(shù)。

要理解這項技術(shù)的重要性，可以這樣想：當(dāng)兩個人聊天時，除了說話內(nèi)容，他們還會不自覺地做各種手勢、調(diào)整身體姿態(tài)，甚至?xí)鶕?jù)對方的反應(yīng)來調(diào)整自己的表達方式。一個外向的人說話時手舞足蹈，而內(nèi)向的人可能更多地點頭傾聽。朋友之間的互動輕松隨意，而初次見面的陌生人則相對拘謹。這些微妙的社交細節(jié)構(gòu)成了真實人際交往的精髓。

然而，目前的虛擬角色或數(shù)字人在這方面還相當(dāng)笨拙。它們通常只能根據(jù)自己說的話做出相應(yīng)的手勢，完全不會考慮對方在做什么，也不會根據(jù)雙方的關(guān)系或性格特點來調(diào)整自己的行為。就像是一個不會察言觀色的人，總是按照固定模式說話和做動作，顯得機械而缺乏人情味。

DyaDiT技術(shù)的革命性突破就在于，它讓虛擬角色能夠像真人一樣進行有來有回的社交互動。這套系統(tǒng)不僅能聽懂雙方在說什么，還能理解他們是什么關(guān)系（朋友、陌生人、情侶或家人），甚至能夠分析每個人的性格特點，然后生成相應(yīng)的肢體語言和互動行為。

研究團隊在開發(fā)這項技術(shù)時，面臨的核心挑戰(zhàn)就像是要教會一臺機器如何在雞尾酒會上自然地與人交談。在這樣的場合，兩個人可能同時說話、互相打斷，或者一個人在說話時另一個人在點頭回應(yīng)。傳統(tǒng)的技術(shù)只能處理"一個人說話，另一個人安靜聽著"這種簡單情況，但現(xiàn)實中的對話遠比這復(fù)雜得多。

為了解決這個問題，研究團隊首先需要大量的真實對話數(shù)據(jù)。他們使用了一個名為"無縫交互數(shù)據(jù)集"的龐大數(shù)據(jù)庫，這個數(shù)據(jù)庫包含了大約182小時的真實雙人對話錄像，相當(dāng)于連續(xù)觀看一周的對話內(nèi)容。這些對話不是表演出來的，而是真實的人際交往場景，包含了各種關(guān)系類型和性格組合。

在技術(shù)實現(xiàn)上，DyaDiT系統(tǒng)的工作原理可以比作一位非常善于觀察的社交專家。當(dāng)兩個人在對話時，這個"專家"會同時關(guān)注幾個要素：雙方在說什么、他們的聲調(diào)和語速、他們是什么關(guān)系、各自的性格特點，以及當(dāng)前的互動氛圍。然后，基于這些信息，系統(tǒng)為其中一方生成自然的肢體動作和表情。

系統(tǒng)最巧妙的創(chuàng)新之一是解決了"聲音混合"的問題。當(dāng)兩個人同時說話或者互相打斷時，傳統(tǒng)技術(shù)往往會混淆，不知道該響應(yīng)誰的聲音。DyaDiT開發(fā)了一種叫做"正交化交叉注意力機制"（聽起來復(fù)雜，其實就像是一副能夠分別聽清楚不同聲音的特殊耳朵）的技術(shù)。這個機制能夠清晰地分辨出每個人的聲音貢獻，就像在嘈雜的餐廳里你仍然能夠?qū)Ｗ⒙犌鍖γ媾笥言谡f什么一樣。

另一個重要突破是"動作詞典"的概念。研究團隊發(fā)現(xiàn)，人的肢體語言其實有一些基本的"詞匯"，比如點頭表示同意、攤手表示困惑、前傾身體表示感興趣等等。他們讓系統(tǒng)學(xué)習(xí)了1000種這樣的基礎(chǔ)動作模式，就像建立了一個手勢和姿態(tài)的字典。當(dāng)系統(tǒng)需要表達某種情感或反應(yīng)時，它會從這個字典中選擇合適的"詞匯"進行組合，創(chuàng)造出自然流暢的動作序列。

系統(tǒng)還特別考慮了社交關(guān)系對行為的影響。戀人之間的互動通常更加親密，動作幅度可能更大，眼神交流更頻繁；而陌生人之間則相對拘謹，保持更多的個人空間。朋友關(guān)系介于兩者之間，既有親近感又不失分寸。系統(tǒng)通過學(xué)習(xí)大量的真實對話數(shù)據(jù)，掌握了這些微妙的社交規(guī)則。

性格特征同樣是系統(tǒng)考慮的重要因素。心理學(xué)中有一個著名的"大五人格理論"，將人的性格分為五個維度：外向性、友善性、責(zé)任感、情緒穩(wěn)定性和開放性。外向的人在對話中往往更加活躍，手勢更多更大；而內(nèi)向的人可能更多地傾聽，動作相對含蓄。系統(tǒng)能夠根據(jù)這些性格特征調(diào)整生成的動作風(fēng)格。

為了驗證技術(shù)的效果，研究團隊進行了大量的測試。他們不僅用傳統(tǒng)的技術(shù)指標來評估動作的自然程度和多樣性，還邀請了真實用戶進行主觀評價。結(jié)果顯示，DyaDiT生成的動作不僅在技術(shù)指標上全面超越了現(xiàn)有的同類技術(shù)，在用戶的主觀感受上也獲得了壓倒性的好評。

在整體質(zhì)量評價中，有73.9%的用戶認為DyaDiT生成的動作看起來更像真人；在關(guān)系一致性評價中，69.8%的用戶認為系統(tǒng)生成的互動更符合兩人的實際關(guān)系；在性格一致性方面，也有66.7%的用戶給出了正面評價。更有趣的是，在某些情況下，用戶甚至認為系統(tǒng)生成的動作比真實錄制的動作看起來更自然，這可能是因為系統(tǒng)生成的動作經(jīng)過了優(yōu)化，去除了一些不必要的抖動和不規(guī)律性。

技術(shù)實現(xiàn)的細節(jié)展現(xiàn)了研究團隊的巧思。整個系統(tǒng)采用了當(dāng)下最先進的擴散變換器架構(gòu)，這種架構(gòu)就像是一個能夠逐步細化圖像的藝術(shù)家。系統(tǒng)首先生成一個粗糙的動作輪廓，然后逐步添加細節(jié)，最終產(chǎn)生流暢自然的動作序列。這個過程有點像雕塑家先用粗線條勾勒出基本形狀，再逐步精雕細琢出最終作品。

為了處理連續(xù)的動作序列，系統(tǒng)還使用了一種叫做"矢量量化變分自編碼器"的技術(shù)。這個名字聽起來很拗口，但其作用很容易理解：就像是將連續(xù)的動作"切片"成一個個小段，每個小段都有一個獨特的"標簽"。這樣，系統(tǒng)就能夠更好地理解和生成連貫的動作序列，避免出現(xiàn)突兀的跳躍或不連貫的動作。

研究團隊還進行了詳細的消融實驗，分別測試了系統(tǒng)各個組件的貢獻。結(jié)果發(fā)現(xiàn)，去除聲音分離模塊后，系統(tǒng)的表現(xiàn)明顯下降，說明準確分離雙方聲音對于生成合適反應(yīng)的重要性。移除動作詞典后，生成動作的多樣性顯著減少，驗證了預(yù)設(shè)動作模式庫的價值。當(dāng)完全不使用社交上下文信息時，系統(tǒng)生成的動作質(zhì)量大幅下降，充分證明了考慮關(guān)系和性格因素的必要性。

這項技術(shù)的應(yīng)用前景非常廣闊。在游戲行業(yè)，它能夠讓非玩家角色（NPC）表現(xiàn)得更加真實可信，根據(jù)玩家的行為和雙方的關(guān)系動態(tài)調(diào)整自己的反應(yīng)。在教育領(lǐng)域，虛擬教師能夠更好地理解學(xué)生的狀態(tài)，用合適的肢體語言來鼓勵或安撫學(xué)生。在心理健康服務(wù)中，虛擬治療師能夠提供更加人性化的互動體驗。在視頻會議和遠程協(xié)作中，這項技術(shù)也能夠讓虛擬化身表現(xiàn)得更加自然，改善遠程交流的體驗。

不過，這項技術(shù)目前還存在一些局限性。系統(tǒng)目前只能生成上半身的動作，還不包括腿部動作和全身協(xié)調(diào)。另外，雖然系統(tǒng)考慮了性格和關(guān)系因素，但有時候語音中本身就包含了一些性格信息，可能會與顯式的性格標簽產(chǎn)生沖突，影響生成效果的多樣性。

研究團隊已經(jīng)在規(guī)劃未來的改進方向。他們計劃擴展到全身動作生成，包括面部表情和步態(tài)等更豐富的肢體語言。他們還在研究如何更好地處理音頻中隱含的性格信息，以及如何讓系統(tǒng)能夠同時為對話雙方生成協(xié)調(diào)的互動動作。

從技術(shù)發(fā)展的角度來看，DyaDiT代表了人機交互領(lǐng)域的一個重要里程碑。它不僅僅是讓機器能夠做出手勢，更重要的是讓機器開始理解和模擬人類社交的微妙之處。這種對社交智能的模擬，為未來更加自然的人機交互奠定了基礎(chǔ)。

說到底，這項研究的價值不僅在于技術(shù)本身的先進性，更在于它讓我們看到了一個更加人性化的數(shù)字世界的可能性。當(dāng)虛擬角色能夠像真人一樣理解社交情境、展現(xiàn)個性特征、做出恰當(dāng)反應(yīng)時，我們與數(shù)字世界的邊界將變得越來越模糊。這不僅會改變我們使用技術(shù)的方式，也可能會影響我們對人際關(guān)系本身的理解。畢竟，當(dāng)機器都開始學(xué)會察言觀色、因人而異地調(diào)整行為時，我們?nèi)祟愂欠褚残枰匦聦徱暿裁床攀钦嬲毺氐娜诵蕴刭|(zhì)呢？

對于有興趣深入了解技術(shù)細節(jié)的讀者，可以通過論文編號arXiv:2602.23165v1查詢完整的研究論文，那里有更詳細的技術(shù)實現(xiàn)和實驗數(shù)據(jù)分析。

Q&A

Q1：DyaDiT技術(shù)是什么？

A：DyaDiT是東京理工學(xué)院等研究機構(gòu)開發(fā)的一種AI技術(shù)，能讓虛擬角色像真人一樣進行雙人對話互動。它不僅能根據(jù)語音生成手勢，還能考慮對話雙方的關(guān)系（朋友、陌生人等）和性格特點，生成更自然、更符合社交情境的肢體語言和互動行為。

Q2：這個技術(shù)和現(xiàn)在的虛擬人有什么區(qū)別？

A：現(xiàn)有虛擬人通常只能根據(jù)自己說的話做手勢，不會考慮對方的反應(yīng)或雙方的關(guān)系。DyaDiT技術(shù)的突破在于能同時處理兩個人的語音，理解他們的社交關(guān)系和個性差異，生成更加真實的互動反應(yīng)，就像真人聊天時會根據(jù)對方的話語和動作來調(diào)整自己的表現(xiàn)一樣。

Q3：DyaDiT技術(shù)可以用在哪些地方？

A：應(yīng)用前景很廣泛，包括讓游戲中的NPC更智能真實、創(chuàng)造更人性化的虛擬教師和治療師、改善視頻會議中的虛擬化身體驗等。任何需要虛擬角色與人進行自然互動的場景都能從這項技術(shù)中受益，讓數(shù)字交流變得更加真實可信。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.