<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      讓大模型【告別回合制】:同時看、聽、說、一直察言觀色|MiniCPM-o 4.5 開源

      0
      分享至

      我做了一面「言出法隨」的墻:表面上是一面墻,隨時在任何區域出現任何我想要的東西

      這面墻,會出現在我的新的 AGI Bar 里(正在裝修,很大)

      整個酒吧會變成一個大的具身空間,布滿麥克風,識別我朝哪兒、說了什么,然后對應區域的墻面開始變化,機械臂開始運動

      甚至,我還可以讓墻面去干活,比如可以讓它去我的某個賬號里拉取資料,也可以讓它執行各種操作。生成內容、找材料、執行動作,都行


      但我遇到一個很頭疼的問題

      現有的語音交互方案,一旦我腦子卡殼、話說到一半停頓了,系統就會判斷「他說完了」,然后開始執行

      這讓交互變得很別扭。我不想每次都說一個喚醒詞,也不想用「over」來告訴 AI 我說完了。我需要的是一個能感知我有沒有說完話、能理解我到底想干什么的 AI

      正常人聊天,不會是這樣的

      微信里聊天,可能我說兩句、你說三句,甚至我不理你你又說了兩句。現在的 AI 對話太刻板了,必須一問一答,顯得很傻


      而且把...你讓它從 1 數到 10,數到 7 的時候問它數到幾了,很多模型會直接說「10」。因為它腦子里已經預排到 10 了,中間打斷它根本沒用

      之前只有一個解決方案,就是用 OpenAI 的 Realtime API,在加上一點魔改,實踐下來每個麥克風每個小時的成本在 30 美金左右...太特么貴了,而且中文并不好

      前些日子跟面壁智能的朋友聊,他們整出了個新東西:全雙工全模態

      全雙工的意思是,模型可以同時輸入和輸出,互不阻塞。它說話的時候還在聽、還在看,你可以隨時打斷它,它也能根據環境變化隨時調整

      更關鍵的是,模型自己判斷什么時候該說話。不需要你說喚醒詞,不需要你說「over」,它能根據語義判斷你說完沒、你想要什么,在生活的場景中,成為真正的交互伙伴

      這正好是我的墻壁需要的能力,而這個模型今天開源了:MiniCPM-o 4.5,9B 參數


      MiniCPM-o 4.5 模型架構 先說清楚語音交互的幾種模式

      目前市面上的語音交互方案,大概分兩類

      第一類是「對講機模式」

      大多數語音助手用的都是這個。系統先把你說的話識別成文字,處理完之后再用 TTS(文字轉語音)播報出來

      流程是:語音 → 文字 → 處理 → TTS 播報


      很顯然...這里的延遲是打不下去的,而且語音里的語氣,比如不同音調的 wocao,完全無法區分含義

      第二類是端到端模式

      OpenAI 的 Realtime API 和面壁的 MiniCPM-o 都屬于這一類。模型直接處理語音,不需要先轉成文字,交互更自然

      Realtime API 的對話能力很強,但它只能處理語音,看不到畫面


      MiniCPM-o 能同時處理語音和視頻。這是它的核心差異

      這里要說一下,很多模型號稱能「看視頻」,其實是在你說話的間隙截一張攝像頭的圖片,然后處理這張靜態圖。不是真正的實時視頻流

      MiniCPM-o 4.5 做的是原生全雙工全模態

      「邊看、邊聽、主動說」


      無論模型在沉默還是在說話,都保持著對外界的感知。你可以隨時打斷它,它也可以根據環境變化隨時調整輸出

      比如在下面的這個例子中,模型會隨著畫面的變化,不斷描述

      全雙工具體是怎么回事

      說人話就是:模型的眼睛、耳朵、嘴巴可以同時工作,互不干擾

      技術上怎么實現的?

      模型把視頻流、音頻流、文本輸出這些并行的信息,切成很小的時間片(毫秒級),輪流處理。宏觀上看起來是同時進行的,實際上是快速切換


      這樣做的好處是,模型說話的時候不會「閉眼捂耳」,可以根據你的反應隨時調整

      還有一個關鍵能力:模型自己判斷什么時候該說話

      現在很多產品靠 VAD(語音活動檢測)來判斷用戶說完沒。簡單說就是檢測到你停頓了一段時間(比如 1 秒),就認為你說完了

      VAD 的問題很明顯:

      • ? 不知道是誰在說話,嘈雜環境下容易誤判

      • ? 拍個桌子可能被當成說話

      • ? 必須硬等一段時間才能判斷,延遲高

      MiniCPM-o 4.5 不用 VAD。模型自己每秒判斷很多次,根據語義來決定要不要回應

      它可以預判你是否說完,不需要硬等;也可以被打斷,根據你說的內容判斷而不只是聲音大小


      主動交互機制示意 主動擇機回復

      全雙工帶來的另一個能力是「主動交互」

      你可以給模型下一個條件指令,它會持續監測,在條件觸發時主動回應

      比如:「等綠燈亮了叫我」


      模型會一直盯著畫面,看到信號燈變化就提醒你。這對視力不好的人過馬路很有用

      比如:「等電梯到 24 層了叫我」模型實時跟蹤樓層數字,到了就喊你

      這種模式,也可能會帶了更多人與AI的交互創新,比如和 AI 打個撲克

      更有意思的是環境音識別

      現有很多視頻通話模型只能聽懂人說話(Speech),聽不懂環境音(Audio)。MiniCPM-o 4.5 可以識別環境音

      「微波爐叮了告訴我」、「聽到門鈴聲提醒我」、「水流聲停了喊我」這些它都能處理。因為是原生全雙工,不靠外掛工具,對環境音的識別比那些只能聽人聲的模型靈敏很多


      持續在線的兩個層面

      之前介紹過一個叫 OpenClaw 的項目

      它是一個本地 AI Agent,可以理解為封裝了一個類似 Claude Code 的東西。通過心跳機制(Heartbeat)和定時任務(Cron),實現周期性監控。比如每 30 分鐘掃描一次緊急郵件,檢測到異常可以半夜發消息

      OpenClaw 做的是Agent 側的持續在線。它負責執行任務、調用工具、管理流程

      MiniCPM-o 4.5 做的是模型側的持續在線。它負責感知環境、理解語義、決定何時回應

      這兩個層面如果結合起來會很有意思

      一個持續感知的模型,加上一個持續執行的 Agent。模型看到什么、聽到什么,Agent 就去做什么

      這才是我想要的「言出法隨」墻壁的完整形態


      前幾天開了個溝通會

      前幾天有個面壁的小會,聊了不少東西

      有人問到具身智能。劉知遠說:MiniCPM-o 4.5 這種全雙工模型,非常接近機器人所需的狀態。人類就是邊聽邊說、多通道并行處理的。以前的模型做不到,一說話就不能看

      姚遠(面壁多模態研發負責人)補充:目前具身智能最大的問題不在底層控制,在泛化性和長程規劃。全模態大模型是具身智能實現通用性的機會

      李大海把具身智能分成三層:

      • ? 0.1 Hz:深度思考

      • ? 1 Hz:日常感知、規劃(MiniCPM-o 4.5 做的這層)

      • ? 10 Hz:具體動作控制


      現在行業缺的是把 1Hz 的「大腦」和 10Hz 的「小腦」結合起來

      面壁還將在今年年中,發布一個叫「松果派」的開發板,類似樹莓派,預裝了端側這套模型和推理框架。開發者可以直接上手做 AI 硬件原型


      回到我的墻

      我的「言出法隨」墻壁,硬件層面已經 ready 了。畢竟我是硬件出身

      模型層面的需求是:一個能持續感知、不需要喚醒詞、能自己判斷我有沒有說完話的 AI

      MiniCPM-o 4.5 給了一個方案

      9B 參數,端側可部署,中文原生支持,成本可控

      交互模式也變了。從「一問一答」到「隨時插話」,從「對講機」到正常人聊天

      最后...再給大家看一個我覺得很有意義的東西:在盲道上,大模型會一直幫你看著路面,如果有不對的地方,它就會和你交互

      然后,現在這個模型已經開源了,歡迎體驗


      GitHub
      https://github.com/OpenBMB/MiniCPM-o

      Hugging Face
      https://huggingface.co/spaces/openbmb/minicpm-omni

      體驗鏈接
      https://minicpm-omni.openbmb.cn/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一對夫妻自駕從新疆喀什到重慶,因晚5秒錯過免費高速時間付1700余元,“當時又好笑又好氣,當長教訓了”

      一對夫妻自駕從新疆喀什到重慶,因晚5秒錯過免費高速時間付1700余元,“當時又好笑又好氣,當長教訓了”

      大象新聞
      2026-02-25 23:41:07
      7場造7球!3500萬歐元買來邊路最強爆點,馬競冬窗撿漏非洲先生

      7場造7球!3500萬歐元買來邊路最強爆點,馬競冬窗撿漏非洲先生

      體壇老球迷
      2026-02-25 16:10:13
      孩子走丟到小賣鋪求助,老板好心給其父母打電話,卻被5人按倒

      孩子走丟到小賣鋪求助,老板好心給其父母打電話,卻被5人按倒

      另子維愛讀史
      2026-02-25 23:35:20
      血型決定壽命長短?60萬人研究發現:A型血或“天生”更易中風

      血型決定壽命長短?60萬人研究發現:A型血或“天生”更易中風

      奇妙的本草
      2026-02-26 12:00:24
      燒光10億,下載暴跌!騰訊元寶,輸慘了!

      燒光10億,下載暴跌!騰訊元寶,輸慘了!

      功夫財經
      2026-02-25 08:57:30
      平頂山打人后續: 鑒定已出,家屬拒和解,打人夫妻結局大快人心

      平頂山打人后續: 鑒定已出,家屬拒和解,打人夫妻結局大快人心

      觀察鑒娛
      2026-02-26 10:44:49
      當韓國人知道韓國很小中國很大后,是完全顛覆他們認知的!

      當韓國人知道韓國很小中國很大后,是完全顛覆他們認知的!

      夜深愛雜談
      2026-02-25 21:23:43
      行程有變,默茨訪華縮短一天?德國發出警告,中方身份發生變化

      行程有變,默茨訪華縮短一天?德國發出警告,中方身份發生變化

      無情有思ss
      2026-02-25 14:59:41
      國企開始“軟裁員”:沒等來辭退書,卻等來了一把鈍刀子

      國企開始“軟裁員”:沒等來辭退書,卻等來了一把鈍刀子

      時尚的弄潮
      2026-02-24 19:53:20
      哈登傷病最新進展!名記:骨折發生在拇指尖端,無需手術

      哈登傷病最新進展!名記:骨折發生在拇指尖端,無需手術

      大眼瞄世界
      2026-02-26 12:23:44
      天文學家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結的

      天文學家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結的

      三農老歷
      2026-02-25 19:18:27
      310億對臺軍售懸了?特朗普松口背后,全是中方的硬核反制!

      310億對臺軍售懸了?特朗普松口背后,全是中方的硬核反制!

      林子說事
      2026-02-26 13:14:51
      小米汽車工廠官宣:卡丁車體驗中心將于3月1日營業,首發價69元

      小米汽車工廠官宣:卡丁車體驗中心將于3月1日營業,首發價69元

      PChome電腦之家
      2026-02-26 14:37:47
      突發!2026年全國第一巨額搶劫案在江蘇發生了,197萬,疑犯已捕

      突發!2026年全國第一巨額搶劫案在江蘇發生了,197萬,疑犯已捕

      離離言幾許
      2026-02-26 10:14:26
      人還沒到,就涼了?曝遼寧新簽悍將賽季報銷,26歲前鋒傷情出爐

      人還沒到,就涼了?曝遼寧新簽悍將賽季報銷,26歲前鋒傷情出爐

      萌蘭聊個球
      2026-02-26 14:34:56
      日本游客:盡管中日關系不太好,但中國人很友好

      日本游客:盡管中日關系不太好,但中國人很友好

      日本物語
      2025-12-29 21:23:17
      跨境襲擊白俄羅斯,破壞俄軍通訊系統!澤連斯基揭穿盧卡申科本質

      跨境襲擊白俄羅斯,破壞俄軍通訊系統!澤連斯基揭穿盧卡申科本質

      鷹眼Defence
      2026-02-25 18:40:24
      黃曉明帶新女伴新加坡旅游,紳士給女方撐傘,身材不如楊穎葉珂

      黃曉明帶新女伴新加坡旅游,紳士給女方撐傘,身材不如楊穎葉珂

      觀察鑒娛
      2026-02-26 09:30:39
      節后門診爆滿,這種“神器”火了!有人用后嘔吐、厭食,醫生緊急提醒

      節后門診爆滿,這種“神器”火了!有人用后嘔吐、厭食,醫生緊急提醒

      環球網資訊
      2026-02-26 07:26:21
      徐夢桃婆婆郭麗圈粉,50歲凍齡顏值,十年追賽護子格局令人敬佩

      徐夢桃婆婆郭麗圈粉,50歲凍齡顏值,十年追賽護子格局令人敬佩

      生命中最美的奇跡
      2026-02-26 09:51:00
      2026-02-26 15:12:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      302文章數 44關注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      縣委書記抖音賬號成民情留言板 當地:她本人回復網友

      頭條要聞

      縣委書記抖音賬號成民情留言板 當地:她本人回復網友

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經要聞

      人民幣升破6.85,創3年新高

      汽車要聞

      第五代宏光MINIEV煥新 四門玩趣代步車來襲

      態度原創

      家居
      親子
      時尚
      藝術
      軍事航空

      家居要聞

      歸隱于都市 慢享自由

      親子要聞

      手外紀事|第43期《孩子遺傳多指不要慌,盡早治療也能恢復很好》

      倫敦時裝周|2026秋冬流行趨勢早知道

      藝術要聞

      2025年百家金陵畫展 | 油畫作品選刊

      軍事要聞

      美政府給新伊核協議設限內容遭披露

      無障礙瀏覽 進入關懷版