<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      京東卷出新高度!硬剛復(fù)雜指令長時長、自由態(tài)數(shù)字人直播絲滑了

      0
      分享至



      編輯|澤南

      剛剛落幕的 2026 科技界「春晚」GTC 大會上,一個全行業(yè)的共識已經(jīng)形成:AI 正在進(jìn)入智能體(Agent)時代。

      然而,當(dāng)各大廠商都在瘋狂入局智能體時,一個尷尬的現(xiàn)實卻擺在面前:這些聰明的數(shù)字大腦,缺少一個「靈動」的「軀殼」。如果說「龍蝦」OpenClaw 已經(jīng)為 AI 智能體工作的范式打開了方向,那么解決 AI 怎么和人打交道的交互領(lǐng)域,技術(shù)還面臨著挑戰(zhàn)。

      因涉及多個模態(tài)的轉(zhuǎn)換,為聰明的 AI 打造一副高表現(xiàn)力的「軀殼」,比想象中還要困難得多。

      直到最近,京東數(shù)字人的一系列新研究打破了這一僵局。

      京東 JoyAvatar 和 JoyAvatar-Flash 兩個數(shù)字人大模型,解決行業(yè)長期存在的文本指令控制力弱、多模態(tài)控制信號沖突、長時長生成能力不足等痛點問題,實現(xiàn)了長時長、自由態(tài)、實時互動的數(shù)字人生成效果,相關(guān)成果發(fā)表在了 arXiv 上,新一代數(shù)字人的性能全面超越了當(dāng)前 SOTA 模型,將效果推向了新的高度。

      • 論文鏈接:https://arxiv.org/pdf/2602.00702,https://arxiv.org/abs/2512.11423
      • 技術(shù)主頁:https://joyavatar.github.io/

      它具有超強(qiáng)的文本控制能力:

      提示詞:A little girl is first singing with a beaming smile, then she picks up a camera from the table, points it toward the viewer, and the flash goes of.

      提示詞:A woman stands indoors, speaking to the camera. She begins by picking up a vase from a cabinet, then gazes at it contemplatively, and finally places it on a chair within the scene. (Keep the character fully in frame throughout.)

      可以實現(xiàn)分鐘級時長的數(shù)字人合成:

      京東 JoyAvatar 系列數(shù)字人模型有打破僵局的意義,展現(xiàn)出了代差級別的優(yōu)勢,徹底告別了數(shù)字人「站樁式播報」:它不僅能精準(zhǔn)理解「復(fù)雜指令」,絲滑做出全身復(fù)雜動作,還能完美配合動態(tài)鏡頭軌跡以及背景的無縫變化。更絕的是,哪怕是在這種大幅度、劇烈運(yùn)動的過程中,它依然能保持唇形與輸入音頻的完美同步。

      輸入指令「拿起巧克力吃掉」京東數(shù)字人能夠根據(jù)文本提示詞,流暢地完成整套抓取和咀嚼動作:



      提示詞:The girl picks up the chocolate box, shows it to the viewer, then takes out a piece of chocolate and eats it.

      輸入指令「放下手中的箱子」京東數(shù)字人不僅能平滑處理復(fù)雜的動作指令與背景流轉(zhuǎn),還能在超過 20 秒的視頻生成中保持人物身份的穩(wěn)定:



      提示詞:A man in the frame speaks to the camera while placing a toolbox on the ground, then climbs a ladder, keeping himself within the shot. He wears a white safety helmet, holds a black and yellow toolbox, with a room under renovation behind him. A ladder and a level are placed nearby.

      京東數(shù)字人的三大技術(shù)創(chuàng)新

      在生成式 AI 領(lǐng)域,數(shù)據(jù)是讓模型學(xué)習(xí)和理解的原材料。但收集大量既有劇烈肢體運(yùn)動、又有清晰語音播報的高質(zhì)量視頻數(shù)據(jù),其成本是極其高昂的。面對靜態(tài)播報數(shù)據(jù)的天然偏見,京東數(shù)字人團(tuán)隊轉(zhuǎn)向了一條更為新穎的路徑:雙教師 DMD(分布匹配蒸餾)后訓(xùn)練



      圖 1 雙教師 DMD 后訓(xùn)練框架圖



      圖 2 數(shù)字人模型預(yù)訓(xùn)練框架圖

      研究人員給數(shù)字人模型請來兩位「老師」,其中一位是「音頻教師」,由數(shù)字人基礎(chǔ)模型擔(dān)任,專攻口型和節(jié)奏;另一位則是「文本教師」,引入了視頻基礎(chǔ)大模型。由于視頻生成模型具備不錯的文本到視頻生成能力,能夠完美理解復(fù)雜的動作指令,通過這種分離式監(jiān)督、融合式學(xué)習(xí)的蒸餾機(jī)制,數(shù)字人模型在不增加任何新訓(xùn)練數(shù)據(jù)的前提下,直接繼承了其文本可控性。

      讓數(shù)字人既要聽從劇本做出復(fù)雜動作,又要嚴(yán)絲合縫地對口型,在過去是一個難以兼顧的任務(wù)。因為在模型的潛在空間里,文本信號和音頻信號常常會相互打架 —— 文本要主導(dǎo)全身動作,音頻要主導(dǎo)面部肌肉,兩者一旦沖突,畫面就會崩潰失真。

      為了解決這個多模態(tài)控制沖突,團(tuán)隊創(chuàng)新性地提出了「動態(tài) CFG 調(diào)制策略」

      研究人員發(fā)現(xiàn),擴(kuò)散模型在生成視頻時,全局的動作框架是在早期的高噪聲階段確定的,而口型這種細(xì)粒度的細(xì)節(jié),是在后期的低噪聲階段雕琢出來的。所以數(shù)字人模型讓兩種信號「錯峰出行」:在生成早期,模型優(yōu)先聽文本的指令,先把跑跳、轉(zhuǎn)身等動作框架搭好。到了生成中后期,模型再把控制權(quán)優(yōu)先交給音頻,保證唇形同步。

      這種巧妙的設(shè)計,讓文本和音頻兩種控制模態(tài)各司其職,互不干擾。

      接下來還有一個更加面向?qū)嶋H的挑戰(zhàn)。數(shù)字人需要長時間直播,而對于 AI 的長視頻生成而言,最大的挑戰(zhàn)在于「身份漂移」—— 人物說著說著,臉或者衣服就變樣了。

      JoyAvatar 給出的解法是歷史幀編碼模塊(FramePack)+ 偽最后一幀策略。在推理過程中,模型不斷將用戶的參考圖像作為「偽最后一幀」注入模型,就像給模型定了一個永遠(yuǎn)不會偏離的錨點。這使得數(shù)字人模型能夠支持 30 秒以上的長視頻生成,全程保持身份穩(wěn)定、動作流暢,徹底打破了傳統(tǒng)數(shù)字人模型幀閃爍、時長受限的短板。

      為驗證技術(shù)領(lǐng)先性,京東數(shù)字人團(tuán)隊將 JoyAvatar 模型(Ours)與業(yè)界主流 SOTA 閉源模型進(jìn)行了主觀 GSB 評分對比。結(jié)果顯示,JoyAvatar 在文本遵從、唇形準(zhǔn)確度、ID 保持、視頻畫質(zhì)等核心維度均表現(xiàn)顯著優(yōu)勢,整體 GSB 評分分別達(dá)到 1.36(超 omnihuman-1.5)與 1.73(超 KlingAvatar2.0),技術(shù)實力得到權(quán)威驗證。(GSB計算方式: GSB=(Good+Same)/(Bad+Same))



      圖 3 JoyAvatar 模型實驗結(jié)果

      與此同時,京東數(shù)字人團(tuán)隊還在數(shù)字人模型的推理速度優(yōu)化上做出了大量創(chuàng)新性設(shè)計,推出了 JoyAvatar-Flash 版本(https://arxiv.org/abs/2512.11423)。首先基于通過 CausVid 和 Self Forcing 等技術(shù)將雙向模型蒸餾成自回歸單向模型,并通過 4 步采樣、kv-cache 和多 GPU 并行推理實現(xiàn) 30FPS 的生成速度。

      研究團(tuán)隊還提出了漸進(jìn)步數(shù)引導(dǎo)、運(yùn)動條件注入、基于 cache 重置的無限 RoPE 等創(chuàng)新點,實現(xiàn)實時流式生成無限時長的高保真數(shù)字人視頻,并在視覺質(zhì)量、時序一致性與唇形同步等方面表現(xiàn)卓越。

      場景與商業(yè)化

      讓中小商家用得起「數(shù)字人直播」

      底層技術(shù)一旦捅破了天花板,廣闊的應(yīng)用想象力就徹底打開了。數(shù)字人直播作為核心商業(yè)場景率先迎來體驗升級:無論是 7x24 小時連軸轉(zhuǎn)的電商直播帶貨,還是需要極強(qiáng)表現(xiàn)力的電商短視頻,整體內(nèi)容形態(tài)與交互體驗都將實現(xiàn)質(zhì)的升級。

      隨著本次長時長、自由態(tài)、實時互動技術(shù)的突破,京東數(shù)字人的第一塊試金石就是京東自己的核心業(yè)務(wù) —— 數(shù)字人直播。

      從引爆全網(wǎng)的「采銷東哥」數(shù)字人,到海爾、格力等一眾總裁數(shù)字人在直播間挑起大梁,再到對微表情和肢體動作要求極高的 Vivi 明星數(shù)字人,京東數(shù)字人早已在直播場景中完成了多輪實戰(zhàn)驗證,不斷打磨高表現(xiàn)力的直播交互能力。去年更是推出了「JoyAI 零幀起手」小程序,實現(xiàn)了萬物皆可說,讓每一個普通用戶也能「玩起來」,真正把硬核的 AI 技術(shù)變成了全民皆可玩的生產(chǎn)力工具。

      結(jié)合新技術(shù),京東數(shù)字人 JoyStreamer (產(chǎn)品名稱)在行業(yè)內(nèi)率先推出「自由態(tài)數(shù)字人」,針對家電家居、時尚服飾等五大行業(yè)推出精準(zhǔn)適配的數(shù)字人,支持自然走動、靈活擺姿,鏡頭跟隨、出畫入畫流暢,臉部遮擋也能保持高保真質(zhì)感,實現(xiàn)了更加自然靈動的交互形態(tài)。

      「自由態(tài)數(shù)字人」直播間

      對于普通用戶來說,新一代數(shù)字人主播可以在直播間走動,展示商品局部細(xì)節(jié),甚至能進(jìn)行多主播的復(fù)雜互動,這讓直播更加有趣了;而對于電商來說,這種視覺表現(xiàn)力上的質(zhì)變,直接拉長了用戶的停留時長。

      京東打造了低門檻的數(shù)字人平臺。對于數(shù)量最多的中小商家而言,一聽到「影視級」、「高表現(xiàn)力」這樣的詞匯,第一反應(yīng)往往是用不起,這恰恰是 JoyStreamer 最大的商業(yè)殺手锏:京東的數(shù)字人直播能力目前免費開放,商家可以在自己的后臺進(jìn)行一鍵配置,自定義模型,或是一比一還原真人主播的聲音。

      基于此,JoyStreamer 推出的「數(shù)字人直播間復(fù)刻」能力,幫助商家最大化沉淀直播資產(chǎn)商家僅需上傳一段真人直播視頻素材,就可以快速生成一個形象、聲線、神態(tài)、直播間布景上都與真人主播高度一致的「數(shù)字分身」,將單次成功直播轉(zhuǎn)化為可長期復(fù)用的數(shù)字人直播資產(chǎn)。

      新秀麗正是通過「直播間復(fù)刻」能力實現(xiàn)長期穩(wěn)定開播,帶來公域流量提升超 60%,直播間人均停留時長近 2 分鐘,充分驗證了該功能的商業(yè)價值。



      在京東的平臺上,數(shù)字人與真人的直播是同場 pk 的,流量競爭正在推動數(shù)字人技術(shù)持續(xù)提升。每一次技術(shù)的升級迭代,包括數(shù)字人、語音、多模態(tài)能力,都能獲得幾萬商家的深度應(yīng)用和反饋。

      目前,京東數(shù)字人 JoyStreamer 已服務(wù)超 7 萬家商家,規(guī)模行業(yè)領(lǐng)先,幾乎覆蓋京東全品類,數(shù)字人直播成為越來越多商家的標(biāo)配選擇。高表現(xiàn)力的數(shù)字人主播正從「嘗鮮工具」轉(zhuǎn)變?yōu)槔瓌?GMV 的核心增長引擎。

      京東 AI 的「護(hù)城河」

      環(huán)顧當(dāng)下的全球 AI 競爭格局,不難發(fā)現(xiàn):整個行業(yè)正陷入一場燒錢的「算力軍備競賽」。

      面對快速顯現(xiàn)的需求與前沿 AI 能力的探索,京東此刻卻顯得更加冷靜。京東相關(guān)負(fù)責(zé)人表示,大模型的發(fā)展必須從參數(shù)至上的舊范式,徹底轉(zhuǎn)向效率、成本與性能平衡的新范式。

      這種克制與平衡的技術(shù)哲學(xué),不僅體現(xiàn)在數(shù)字人身上,也貫穿于京東大模型的整體布局。以京東近期開源的通用基礎(chǔ)大模型 JoyAI-LLM Flash 為例,這款模型的總參數(shù)量為 480 億,在實際運(yùn)行中通過動態(tài)稀疏路由技術(shù)只激活 3B 的參數(shù),智能體任務(wù)的 token 消耗量只有競品模型的 1/5,并獲得了很好的效果。

      在龐大的 AI 應(yīng)用端,大模型的知識廣度,必須配合極低的推理成本和極快的響應(yīng)速度,才能完美契合產(chǎn)業(yè)界對于經(jīng)濟(jì)與效果的訴求。

      作為一家新型實體企業(yè),京東擁有零售、物流、健康、工業(yè)等豐富的真實業(yè)務(wù)場景,同時具備可觀的數(shù)字技術(shù)和能力。目前,京東的 AI 技術(shù)已經(jīng)深度融入自身的超級供應(yīng)鏈,在超過 2000 個具體的業(yè)務(wù)場景中落地生根。

      JoyStreamer 之所以能迅速迭代出高表現(xiàn)力的數(shù)字人直播能力,正是因為每天有數(shù)以萬計的商家在直播間里提需求、做反饋。這種基于真實商業(yè)場景的數(shù)據(jù)飛輪,是很多技術(shù)公司難以比擬的。

      最后,我們都好奇數(shù)字人的下一步是什么。京東的技術(shù)負(fù)責(zé)人表示,讓數(shù)字人直播間內(nèi)的主播學(xué)會換裝、實現(xiàn)更豐富的跨主播互動,并最終實現(xiàn)零幻覺是他們努力的方向。目前在行業(yè)里,還沒有任何一個團(tuán)隊解決了這些問題。

      在京東的直播間里,這些富有表現(xiàn)力的數(shù)字軀殼還在快速成長,屬于京東 AI 的這場產(chǎn)業(yè)突圍戰(zhàn),才剛剛拉開序幕。

      文中視頻鏈接:https://mp.weixin.qq.com/s/GW3HL1HqbXl0LVj8BR-vtA

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      局勢惡化,中方接到高市消息,日本專機(jī)將飛越南,對華包圍圈成型

      局勢惡化,中方接到高市消息,日本專機(jī)將飛越南,對華包圍圈成型

      牛鍋巴小釩
      2026-04-07 17:43:10
      研究斑馬100年,生物學(xué)家尷尬了,原來這身條紋根本不是為了偽裝

      研究斑馬100年,生物學(xué)家尷尬了,原來這身條紋根本不是為了偽裝

      貍貓之一的動物圈
      2026-04-06 09:43:06
      卡斯?fàn)?9+11+13馬刺戰(zhàn)勝76人收獲60勝,文班亞馬17分傷退

      卡斯?fàn)?9+11+13馬刺戰(zhàn)勝76人收獲60勝,文班亞馬17分傷退

      湖人崛起
      2026-04-07 10:32:12
      國家動真格,嚴(yán)查國企歷史遺留問題!下崗職工工齡社保統(tǒng)統(tǒng)重算

      國家動真格,嚴(yán)查國企歷史遺留問題!下崗職工工齡社保統(tǒng)統(tǒng)重算

      陳博世財經(jīng)
      2026-04-06 14:27:33
      脫口秀女演員思文官宣生子:正式介紹下,我兒子多多;此前發(fā)文與脫口秀演員程璐離婚

      脫口秀女演員思文官宣生子:正式介紹下,我兒子多多;此前發(fā)文與脫口秀演員程璐離婚

      魯中晨報
      2026-04-07 22:29:03
      伊朗最高領(lǐng)袖發(fā)聲

      伊朗最高領(lǐng)袖發(fā)聲

      第一財經(jīng)資訊
      2026-04-07 09:07:21
      聯(lián)合國警告特朗普:美國若襲擊伊朗發(fā)電廠和橋梁或涉戰(zhàn)爭罪;目前伊朗已有多個橋梁遭襲

      聯(lián)合國警告特朗普:美國若襲擊伊朗發(fā)電廠和橋梁或涉戰(zhàn)爭罪;目前伊朗已有多個橋梁遭襲

      魯中晨報
      2026-04-07 20:25:03
      隨著越南1-0,泰國0-1,U20女足亞洲杯最新積分榜:中國女足頭名晉級

      隨著越南1-0,泰國0-1,U20女足亞洲杯最新積分榜:中國女足頭名晉級

      側(cè)身凌空斬
      2026-04-07 23:00:05
      陳麗華,傳奇一生藏太多細(xì)節(jié)

      陳麗華,傳奇一生藏太多細(xì)節(jié)

      市值財經(jīng)Pro
      2026-04-07 20:08:57
      終于有了結(jié)果,曾醫(yī)生能保住醫(yī)院的工作,最應(yīng)該感謝的三位貴人!

      終于有了結(jié)果,曾醫(yī)生能保住醫(yī)院的工作,最應(yīng)該感謝的三位貴人!

      凌風(fēng)的世界觀
      2025-11-14 08:38:31
      剛從蒙古國回來,說點不中聽的:蒙古國真實面目,可能讓你很意外

      剛從蒙古國回來,說點不中聽的:蒙古國真實面目,可能讓你很意外

      復(fù)轉(zhuǎn)這些年
      2026-04-06 22:24:11
      鄭麗文來南京,老板:鴨四件別錯過!馬英九王力宏都吃這口金陵味

      鄭麗文來南京,老板:鴨四件別錯過!馬英九王力宏都吃這口金陵味

      馬蹄燙嘴說美食
      2026-04-07 20:23:30
      小孩子的瓜能有多炸裂?網(wǎng)友:我同桌男的,然后還是個手控

      小孩子的瓜能有多炸裂?網(wǎng)友:我同桌男的,然后還是個手控

      解讀熱點事件
      2026-04-07 00:05:04
      王勵勤終于下定決心!4大老將逐步放棄,重點培養(yǎng)新生代為時不晚

      王勵勤終于下定決心!4大老將逐步放棄,重點培養(yǎng)新生代為時不晚

      羅納爾說個球
      2026-04-07 12:00:49
      越南停電、印度癱瘓!全球客戶求中國復(fù)工:去中國化是個笑話?

      越南停電、印度癱瘓!全球客戶求中國復(fù)工:去中國化是個笑話?

      有范又有料
      2026-04-07 14:37:05
      全紅嬋事件再發(fā)酵!人民日報13字怒批,體育總局動真格了

      全紅嬋事件再發(fā)酵!人民日報13字怒批,體育總局動真格了

      老特有話說
      2026-04-05 17:59:03
      鄭麗文率團(tuán)抵達(dá)上海開啟大陸參訪行程

      鄭麗文率團(tuán)抵達(dá)上海開啟大陸參訪行程

      環(huán)球網(wǎng)資訊
      2026-04-07 13:18:07
      美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

      美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

      夜深愛雜談
      2026-03-08 21:28:24
      “有根丁丁了不起?”凱特·貝金賽爾炮轟好萊塢雙標(biāo)

      “有根丁丁了不起?”凱特·貝金賽爾炮轟好萊塢雙標(biāo)

      春天不是讀書天
      2026-04-07 20:35:14
      男孩偷自行車后續(xù):被通報全校社死,寶媽拒不道歉,婆婆主動賠罪

      男孩偷自行車后續(xù):被通報全校社死,寶媽拒不道歉,婆婆主動賠罪

      潮鹿逐夢
      2026-04-07 11:42:53
      2026-04-08 03:32:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12701文章數(shù) 142616關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普:伊朗人愿為自由承受轟炸

      頭條要聞

      特朗普:伊朗人愿為自由承受轟炸

      體育要聞

      阿森納客戰(zhàn)葡體:哲凱賴什戰(zhàn)舊主,馬杜埃凱、厄德高首發(fā)

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財經(jīng)要聞

      10萬億財政轉(zhuǎn)移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗

      態(tài)度原創(chuàng)

      手機(jī)
      親子
      游戲
      藝術(shù)
      家居

      手機(jī)要聞

      REDMI K90 Max突然官宣:天璣9500+165Hz高刷,K90至尊版也在路上

      親子要聞

      春天娃長個黃金期,喝對黑豆水,個子悄悄往上竄

      PlayStation全新炸裂計劃公開!利好所有玩家

      藝術(shù)要聞

      深圳最慘地王復(fù)活?70億起拍,曾規(guī)劃中國第一高樓!

      家居要聞

      雅致愜意 感知生活之美

      無障礙瀏覽 進(jìn)入關(guān)懷版