<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Mini-Omni-Reasoner:實(shí)時推理,定義下一代端到端對話模型

      0
      分享至



      本文第一作者謝之非,共同第一作者馬子陽皆是來自于南洋理工大學(xué)的博士生。通訊作者為新加坡國立大學(xué)特聘教授顏水成和南洋理工大學(xué)數(shù)據(jù)與科學(xué)系校長講席教授苗春燕。共同作者為騰訊AI首席專家葉德珩和新加坡國立大學(xué)博士后研究員廖越。

      兩千多年前,孔子說過「三思而后行」。這句古老箴言,其實(shí)點(diǎn)出了人類面對復(fù)雜問題的核心智慧:一步步推理,層層拆解,最終做出可靠的決策。

      現(xiàn)在,已有諸多模型在復(fù)雜推理方面展現(xiàn)出顯著進(jìn)展,如 DeepSeek-R1 和 OpenAI o1,部分多模態(tài)系統(tǒng)甚至能夠處理跨領(lǐng)域的復(fù)雜任務(wù),展現(xiàn)出解決復(fù)雜現(xiàn)實(shí)問題的潛力。然而,在端到端對話模型中,推理能力尚未解鎖。

      原因并不復(fù)雜。深度思考意味著模型往往需要在輸出前生成完整推理鏈,而這直接帶來延遲。對于語音對話系統(tǒng)而言,速度與質(zhì)量同樣關(guān)鍵。一旦停頓過長,哪怕答案再精妙,也會破壞交互的自然感。

      設(shè)想一個場景:你問語音助手「這份研究報告的結(jié)論可靠嗎?」。如果模型沉默十秒才給出語音的回復(fù),則完全失去對話的體驗(yàn);若它立刻回答,但推理缺乏深度,又容易顯得表面化。問題在于:要么得到一個「強(qiáng)大但反應(yīng)遲鈍」的助手,要么得到一個「迅速但思維簡單」的助手。魚與熊掌,似乎不可兼得。

      基于這一挑戰(zhàn),我們提出了 Mini-Omni-Reasoner——一種專為對話場景打造的實(shí)時推理新范式。它通過「Thinking-in-Speaking」實(shí)現(xiàn)邊思考邊表達(dá),既能實(shí)時反饋、輸出自然流暢的語音內(nèi)容,又能保持高質(zhì)量且可解釋的推理過程。



      • 論文標(biāo)題:MINI-OMNI-REASONER: TOKEN-LEVEL THINKING-IN-SPEAKING IN LARGE SPEECH MODELS
      • 論文鏈接
      • https://arxiv.org/pdf/2508.15827
      • 項(xiàng)目主頁
      • https://github.com/xzf-thu/Mini-Omni-Reasoner

      Mini-Omni-Reasoner:

      邊思考,邊表達(dá)



      讓我們暫時把視角放回人類自己。當(dāng)一個人面對復(fù)雜問題時,往往不是「想完再說」,而是「邊說邊想」。當(dāng)被問到「如何理解人工智能的未來」時,大多數(shù)人不會先默默推理數(shù)分鐘再完整輸出結(jié)論,而是會邊思考邊組織語言:「這個問題挺復(fù)雜的……我覺得可以從技術(shù)和社會兩個層面來看……」

      Mini-Omni-Reasoner 正是受到這一啟發(fā),探索「邊思考,邊表達(dá)」的新范式。它允許模型在生成回答的同時進(jìn)行內(nèi)部推理,實(shí)現(xiàn)token 級別的思維流與輸出流交替生成。這樣既能保留邏輯深度與可解釋性,又能提供自然、低延遲的交互體驗(yàn)。

      「一心二用」——如何在大模型中實(shí)現(xiàn)?



      「Thinking-in-Speaking」推理范式:傳統(tǒng)推理模型遵循「thinking-before-speaking」路線:先完整生成推理鏈,再一次性給出答案。邏輯雖完整,但交互性差,用戶必須等待較長時間。尤其在語音交互場景下,這種長時間的停頓極大削弱了使用體驗(yàn)。

      Mini-Omni-Reasoner 提出的則是「thinking-in-speaking」范式。模型在生成過程中同時維護(hù)兩條流:回答流(response stream)和推理流(reasoning stream)。二者像兩支交錯前進(jìn)的隊(duì)伍,一邊輸出用戶可聽到的回答,一邊在后臺繼續(xù)進(jìn)行邏輯演算。

      通俗理解為:模型循環(huán)輸出p 個回答 token + q 個推理 token,直到完成任務(wù)。用戶感受到的是自然、幾乎無停頓的對話,而模型在內(nèi)部始終維持嚴(yán)謹(jǐn)?shù)耐评礞湣U麄€推理過程如下。



      這種機(jī)制突破了「要么快,要么準(zhǔn)」的二元困境,讓「會想、會說」真正成為可能。

      模型架構(gòu):Mini-Omni-Reasoner 采用了Thinker-Talker架構(gòu),像一對分工明確的搭檔:

      • Thinker:大腦擔(dān)當(dāng),負(fù)責(zé)語音理解和邏輯推理,交替產(chǎn)出回答 token 和推理 token。內(nèi)部結(jié)構(gòu)是「音頻編碼器 + 大模型」。

      • Talker:嘴巴擔(dān)當(dāng),只負(fù)責(zé)把回答 token 變成語音,而對推理 token 保持沉默,確保輸出始終簡潔、自然。

      這種解耦方式的好處很直觀:Thinker 全力搞邏輯,Talker 專心搞對話,誰也不分心。

      2:8 Token 交替設(shè)計(jì):我們最終選擇了2:8 的回答–推理 token 比例,背后有幾層考量:

      • 推理比例更高 → 思維更完整,但可能反應(yīng)太慢,實(shí)時性差。

      • 回答比例更高 → 說得快,但容易「說過頭」,邏輯沒跟上,甚至產(chǎn)生幻覺。

      • Chunk 過長 → 不管是全推理還是全回答,都會帶來延遲或質(zhì)量問題。

      結(jié)合實(shí)驗(yàn)結(jié)果,我們發(fā)現(xiàn)推理鏈長度大約是回答的 2~3 倍,因此 2:8 是一個平衡點(diǎn):既保證推理深度,又能保持實(shí)時語音合成的流暢性。比如,當(dāng)模型每秒生成 50 token,就能給用戶帶來 10 個回答 token——對實(shí)時對話來說已經(jīng)非常充裕。

      「點(diǎn)石成金」——四階段數(shù)據(jù)合成管線



      僅有架構(gòu)還不夠,要真正掌握「邊思考邊表達(dá)」,還需要精心設(shè)計(jì)的數(shù)據(jù)與訓(xùn)練流程。為此,我們構(gòu)建了Spoken-Math-Problems-3M數(shù)據(jù)集,并設(shè)計(jì)了嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)管線。

      在數(shù)據(jù)構(gòu)建中,我們面臨一個核心挑戰(zhàn)——解決**「邏輯錯位」(Anticipation Drift)**問題。即如何防止模型在回答時「搶跑」,說出推理流中尚未得出的結(jié)論。我們?yōu)榇嗽O(shè)計(jì)了兩大核心策略:

      • 異步推理機(jī)制:我們在數(shù)據(jù)層面「教會」模型一種新的說話藝術(shù)。在回答流中,先說一些「鋪墊語境」的話,為后續(xù)的推理爭取時間;而在推理流中,則要求模型「開門見山」,直奔主題,不講廢話。

      • 反序列化驗(yàn)證:我們像一位嚴(yán)格的考官,將所有交錯的 token 重新組合成自然語言文本,然后利用強(qiáng)大的 GPT 模型進(jìn)行語義和時間一致性檢查,剔除所有邏輯不連貫或存在「超越」現(xiàn)象的不合格樣本。

      通過上圖中的四階段數(shù)據(jù)管線,我們?yōu)?Mini-Omni-Reasoner 提供了超過百萬份高質(zhì)量的訓(xùn)練數(shù)據(jù)。

      「百煉成鋼」——五階段訓(xùn)練方法

      訓(xùn)練 Mini-Omni-Reasoner 需要一個精心設(shè)計(jì)的五階段管線,因?yàn)槟P筒粌H引入了定制化架構(gòu),還采用了全新的輸出形式。為了確保穩(wěn)定收斂并有效將文本推理能力遷移到語音,我們將訓(xùn)練過程分解為五個逐步遞進(jìn)的階段,總體思路為先在文本模態(tài)中保持或增強(qiáng)推理能力,再將其與語音模態(tài)對齊。

      • 對齊訓(xùn)練:我們從 Qwen2.5-Omni-3B 初始化模型,解決架構(gòu)不兼容問題,并先只微調(diào)音頻適配器,使用語音問答和對話數(shù)據(jù)橋接語音編碼器與 LLM 主干的接口,然后解凍除音頻編碼器外的所有模塊,適應(yīng)新加入的特殊 token,確保模型在定制化 token 格式下無縫工作。

      • 混合數(shù)學(xué)預(yù)訓(xùn)練:在模型對齊后,我們增強(qiáng)其數(shù)學(xué)推理能力,使用標(biāo)準(zhǔn)的「先推理再說話」數(shù)據(jù)集(包括文本和語音形式)進(jìn)行預(yù)訓(xùn)練,確保在引入 token 級交錯生成之前具備扎實(shí)的推理能力和數(shù)據(jù)對齊。

      • 文本 thinking-in-speaking 訓(xùn)練:在文本模態(tài)中訓(xùn)練模型交替生成推理 token 和回應(yīng) token,僅更新語言模型參數(shù),專注于掌握交錯推理-回應(yīng)結(jié)構(gòu),不涉及語音變化。

      • 語音 thinking-in-speaking 訓(xùn)練:將輸入替換為語音,僅微調(diào)音頻編碼器,保持 LLM 固定,使模型能夠在語音條件下保持推理增強(qiáng)的生成方式,實(shí)現(xiàn)推理范式在模態(tài)間的遷移。

      • Talker 訓(xùn)練:最終階段訓(xùn)練說話模塊,實(shí)現(xiàn)流暢自然的語音生成,整個 Thinker 組件凍結(jié),僅訓(xùn)練 Talker 以將交錯輸出轉(zhuǎn)換為語音,同時保留前面階段建立的邏輯基礎(chǔ)和推理能力。

      「真金火煉」——實(shí)驗(yàn)數(shù)據(jù)與案例分析

      為了驗(yàn)證 Mini-Omni-Reasoner 的有效性,我們在 Spoken-MQA 數(shù)據(jù)集上測試了模型與多種不同類型方法的對比,模型相比于基座模型 Qwen2.5-Omni-3B 有明顯的性能提升。



      為了進(jìn)一步展現(xiàn) Mini-Omni-Reasoner 與傳統(tǒng)的對話模型和基礎(chǔ)模型 Qwen2.5-Omni 模型的區(qū)別,我們分析了針對同樣問題不同模型的回答結(jié)果:實(shí)驗(yàn)證明「Thinking-in-Speaking」方法可以有效地在保持回復(fù)內(nèi)容自然簡潔的情況下保持高質(zhì)量的推理過程。



      結(jié)語

      當(dāng)下,大模型的推理能力已逐漸成為解決復(fù)雜問題的核心驅(qū)動力。但遺憾的是,這一能力在對話系統(tǒng)中仍未被真正釋放。為此,我們提出了Mini-Omni-Reasoner——一次早期的嘗試。誠然,它距離成熟應(yīng)用還有很長的路要走,但「thinking-in-speaking」的實(shí)時推理機(jī)制,我們相信正是對話模型邁向復(fù)雜問題解決的必經(jīng)之路。

      展望未來,我們認(rèn)為至少有幾個值得深入探索的方向:

      • 如何科學(xué)地評測模型在通用問題上的推理增益,如「人生的意義是什么」;
      • 如何讓對話模型自主決定何時需要「思考」;
      • 如何突破固定比例生成,探索更靈活多樣的思維范式。

      總的來說,Mini-Omni-Reasoner 并非終點(diǎn),而是一個起點(diǎn)。我們更希望它能成為拋磚引玉,引發(fā)學(xué)界和產(chǎn)業(yè)界對「對話中的推理能力」的持續(xù)關(guān)注與探索。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      茅臺辟謠“低于1650出貨取消經(jīng)銷商資格”:假的!未來市場政策可能會在28日發(fā)布

      茅臺辟謠“低于1650出貨取消經(jīng)銷商資格”:假的!未來市場政策可能會在28日發(fā)布

      每日經(jīng)濟(jì)新聞
      2025-12-16 18:55:08
      在岸、離岸人民幣對美元刷新逾一年來新高

      在岸、離岸人民幣對美元刷新逾一年來新高

      財聯(lián)社
      2025-12-16 13:25:19
      火箭惜敗登全美熱搜:裁判主導(dǎo)比賽 阿門犯規(guī)改走勢 好斷被吹犯規(guī)

      火箭惜敗登全美熱搜:裁判主導(dǎo)比賽 阿門犯規(guī)改走勢 好斷被吹犯規(guī)

      顏小白的籃球夢
      2025-12-16 14:06:36
      上海高中生買99朵康乃馨為母親慶生,收到菊花還寫著“緬懷逝者”,店家回應(yīng)

      上海高中生買99朵康乃馨為母親慶生,收到菊花還寫著“緬懷逝者”,店家回應(yīng)

      上觀新聞
      2025-12-16 18:16:04
      上海市消保委:檢測15款熱銷南極磷蝦油,一企業(yè)涉嫌造假將被約談

      上海市消保委:檢測15款熱銷南極磷蝦油,一企業(yè)涉嫌造假將被約談

      澎湃新聞
      2025-12-11 13:44:26
      TVB花旦內(nèi)地唱《海闊天空》!表情猙獰引熱議!網(wǎng)友:太嚇人了

      TVB花旦內(nèi)地唱《海闊天空》!表情猙獰引熱議!網(wǎng)友:太嚇人了

      我愛追港劇
      2025-12-17 00:03:48
      中國貿(mào)易順差破萬億美元,賺全世界的錢,為何生活卻越來越困難?

      中國貿(mào)易順差破萬億美元,賺全世界的錢,為何生活卻越來越困難?

      微評社
      2025-12-16 23:37:53
      一大學(xué)生在校園內(nèi)溺水身亡,疑參加游戲時不慎墜湖,學(xué)校回應(yīng)

      一大學(xué)生在校園內(nèi)溺水身亡,疑參加游戲時不慎墜湖,學(xué)校回應(yīng)

      極目新聞
      2025-12-16 16:42:05
      “牡丹花下死,做鬼也風(fēng)流”!如今,誰也救不了44歲的宋小寶

      “牡丹花下死,做鬼也風(fēng)流”!如今,誰也救不了44歲的宋小寶

      墨印齋
      2025-07-08 05:24:55
      女性絕經(jīng)后,還能進(jìn)行夫妻生活嗎?下面干巴巴的,究竟該怎么辦?

      女性絕經(jīng)后,還能進(jìn)行夫妻生活嗎?下面干巴巴的,究竟該怎么辦?

      醫(yī)者榮耀
      2025-12-11 12:05:05
      巴爾德佩尼亞斯談皇馬首秀:夢想成真,將把首秀球衣裝裱紀(jì)念

      巴爾德佩尼亞斯談皇馬首秀:夢想成真,將把首秀球衣裝裱紀(jì)念

      懂球帝
      2025-12-17 03:18:16
      澳洲槍擊案最新視頻曝光!一老人在槍手下車時率先奪槍后被拍到倒在現(xiàn)場,目擊者發(fā)聲

      澳洲槍擊案最新視頻曝光!一老人在槍手下車時率先奪槍后被拍到倒在現(xiàn)場,目擊者發(fā)聲

      瀟湘晨報
      2025-12-16 14:24:28
      淚崩!蔡康永談大S:我以為大S會活得比我們久,結(jié)果她提前下車了

      淚崩!蔡康永談大S:我以為大S會活得比我們久,結(jié)果她提前下車了

      未小沫
      2025-12-16 23:20:42
      1951年,戴笠獨(dú)子被處決,蔣介石兩年后下令:他的子孫全接回臺灣

      1951年,戴笠獨(dú)子被處決,蔣介石兩年后下令:他的子孫全接回臺灣

      古書記史
      2025-12-11 17:37:45
      還真被中國預(yù)料對了:美軍絕密文件被披露,日本右翼馬上老實(shí)多了

      還真被中國預(yù)料對了:美軍絕密文件被披露,日本右翼馬上老實(shí)多了

      星夜?jié)i漪
      2025-12-17 05:02:35
      利好來了!北京,突傳重磅!

      利好來了!北京,突傳重磅!

      數(shù)據(jù)寶
      2025-12-16 21:01:30
      剛復(fù)出就開演唱會,票價賣到1280,到底誰給的自信?

      剛復(fù)出就開演唱會,票價賣到1280,到底誰給的自信?

      易同學(xué)愛談娛樂
      2025-07-02 08:32:15
      曝曼聯(lián)1月清洗5000萬水貨!前首席球探實(shí)錘:阿莫林不要

      曝曼聯(lián)1月清洗5000萬水貨!前首席球探實(shí)錘:阿莫林不要

      奶蓋熊本熊
      2025-12-17 00:18:04
      我今年48歲搭伙58歲大爺,才知老頭比小伙還能裝!

      我今年48歲搭伙58歲大爺,才知老頭比小伙還能裝!

      行走的知識庫
      2025-12-16 13:26:44
      隨著波爾圖3-1,葡超最新積分榜出爐:穆帥率隊(duì)落后榜首近2位數(shù)

      隨著波爾圖3-1,葡超最新積分榜出爐:穆帥率隊(duì)落后榜首近2位數(shù)

      側(cè)身凌空斬
      2025-12-16 07:21:58
      2025-12-17 06:36:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11934文章數(shù) 142511關(guān)注度
      往期回顧 全部

      科技要聞

      360:玉紅惡意詆毀周鴻祎 將追究其法律責(zé)任

      頭條要聞

      美國向?yàn)跸伦詈笸海含F(xiàn)在不接受 以后沒那么慷慨了

      頭條要聞

      美國向?yàn)跸伦詈笸海含F(xiàn)在不接受 以后沒那么慷慨了

      體育要聞

      楊瀚森18+10首次兩雙 關(guān)鍵攻防統(tǒng)治G聯(lián)賽

      娛樂要聞

      《雙軌》遭網(wǎng)友舉報,稱劇情三觀不正

      財經(jīng)要聞

      浙金中心暴雷始末:祥源控股設(shè)計(jì)的騙局?

      汽車要聞

      打造全域安全2.0,吉利的新“長征”

      態(tài)度原創(chuàng)

      游戲
      教育
      房產(chǎn)
      公開課
      軍事航空

      德瑪西亞杯:完全沒法打,LNG輕松橫掃FRK,太輕松了

      教育要聞

      【預(yù)告】12月19日 | 2025年秋季第10場課堂教學(xué)數(shù)字化評價項(xiàng)目省級教研活動

      房產(chǎn)要聞

      6.66億摘地,海南封關(guān)大動作,千畝海澄新城震撼登場

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      畫面公開 菲方人員揮舞長刀挑釁中國海警

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 少妇人妻互换不带套| 夜夜高潮天天爽欧美| 99久久人妻无码精品系列蜜桃| 日韩精品一区二区三区激情视频| 成人日本有码在线| 人伦中文字幕| 伊人久久大香线蕉av一区二区| 四虎国产精品成人| 亚洲国产成人精品av区按摩| 亚洲AV熟女| 天天躁日日躁狠狠躁av麻豆| 娇小萝被两个黑人用半米长| 国产成人av一区二区| 十堰市| 玩弄放荡人妻少妇系列| 国产激情视频一区二区三区| 成年女性特黄午夜视频免费看| 鹿泉市| 国产自在线| 熟女少妇18| 国产免费一区二区三区在线观看| 色午夜一av男人的天堂| 国产精品揄拍100视频| 增城市| 91视频大全| 五月婷视频| 亚洲中文字幕在线看| 极品无码国模国产在线观看| 老熟女17页一91| 亚洲欧美中文日韩v在线观看 | 夜夜添狠狠添高潮出水| 成熟丰满熟妇高潮xxxxx| 美女大量吞精在线观看456| 国产精品亚洲一区二区三区| 拍真实国产伦偷精品| 久久午夜夜伦鲁鲁片免费无码| 国产人妻人伦精品1国产丝袜| 久久久久久AV| 翁牛特旗| 熟妇高潮一区二区| 亚洲成人首页|