我做了一面「言出法隨」的墻:表面上是一面墻,隨時在任何區域出現任何我想要的東西
這面墻,會出現在我的新的 AGI Bar 里(正在裝修,很大)
整個酒吧會變成一個大的具身空間,布滿麥克風,識別我朝哪兒、說了什么,然后對應區域的墻面開始變化,機械臂開始運動
甚至,我還可以讓墻面去干活,比如可以讓它去我的某個賬號里拉取資料,也可以讓它執行各種操作。生成內容、找材料、執行動作,都行
![]()
但我遇到一個很頭疼的問題
現有的語音交互方案,一旦我腦子卡殼、話說到一半停頓了,系統就會判斷「他說完了」,然后開始執行
這讓交互變得很別扭。我不想每次都說一個喚醒詞,也不想用「over」來告訴 AI 我說完了。我需要的是一個能感知我有沒有說完話、能理解我到底想干什么的 AI
正常人聊天,不會是這樣的
微信里聊天,可能我說兩句、你說三句,甚至我不理你你又說了兩句。現在的 AI 對話太刻板了,必須一問一答,顯得很傻
![]()
而且把...你讓它從 1 數到 10,數到 7 的時候問它數到幾了,很多模型會直接說「10」。因為它腦子里已經預排到 10 了,中間打斷它根本沒用
之前只有一個解決方案,就是用 OpenAI 的 Realtime API,在加上一點魔改,實踐下來每個麥克風每個小時的成本在 30 美金左右...太特么貴了,而且中文并不好
前些日子跟面壁智能的朋友聊,他們整出了個新東西:全雙工全模態
全雙工的意思是,模型可以同時輸入和輸出,互不阻塞。它說話的時候還在聽、還在看,你可以隨時打斷它,它也能根據環境變化隨時調整
更關鍵的是,模型自己判斷什么時候該說話。不需要你說喚醒詞,不需要你說「over」,它能根據語義判斷你說完沒、你想要什么,在生活的場景中,成為真正的交互伙伴
這正好是我的墻壁需要的能力,而這個模型今天開源了:MiniCPM-o 4.5,9B 參數
![]()
MiniCPM-o 4.5 模型架構 先說清楚語音交互的幾種模式
目前市面上的語音交互方案,大概分兩類
第一類是「對講機模式」
大多數語音助手用的都是這個。系統先把你說的話識別成文字,處理完之后再用 TTS(文字轉語音)播報出來
流程是:語音 → 文字 → 處理 → TTS 播報
![]()
很顯然...這里的延遲是打不下去的,而且語音里的語氣,比如不同音調的 wocao,完全無法區分含義
第二類是端到端模式
OpenAI 的 Realtime API 和面壁的 MiniCPM-o 都屬于這一類。模型直接處理語音,不需要先轉成文字,交互更自然
Realtime API 的對話能力很強,但它只能處理語音,看不到畫面
![]()
MiniCPM-o 能同時處理語音和視頻。這是它的核心差異
這里要說一下,很多模型號稱能「看視頻」,其實是在你說話的間隙截一張攝像頭的圖片,然后處理這張靜態圖。不是真正的實時視頻流
MiniCPM-o 4.5 做的是原生全雙工全模態
「邊看、邊聽、主動說」
![]()
無論模型在沉默還是在說話,都保持著對外界的感知。你可以隨時打斷它,它也可以根據環境變化隨時調整輸出
比如在下面的這個例子中,模型會隨著畫面的變化,不斷描述
全雙工具體是怎么回事
說人話就是:模型的眼睛、耳朵、嘴巴可以同時工作,互不干擾
技術上怎么實現的?
模型把視頻流、音頻流、文本輸出這些并行的信息,切成很小的時間片(毫秒級),輪流處理。宏觀上看起來是同時進行的,實際上是快速切換
![]()
這樣做的好處是,模型說話的時候不會「閉眼捂耳」,可以根據你的反應隨時調整
還有一個關鍵能力:模型自己判斷什么時候該說話
現在很多產品靠 VAD(語音活動檢測)來判斷用戶說完沒。簡單說就是檢測到你停頓了一段時間(比如 1 秒),就認為你說完了
VAD 的問題很明顯:
? 不知道是誰在說話,嘈雜環境下容易誤判
? 拍個桌子可能被當成說話
? 必須硬等一段時間才能判斷,延遲高
MiniCPM-o 4.5 不用 VAD。模型自己每秒判斷很多次,根據語義來決定要不要回應
它可以預判你是否說完,不需要硬等;也可以被打斷,根據你說的內容判斷而不只是聲音大小
![]()
主動交互機制示意 主動擇機回復
全雙工帶來的另一個能力是「主動交互」
你可以給模型下一個條件指令,它會持續監測,在條件觸發時主動回應
比如:「等綠燈亮了叫我」
![]()
模型會一直盯著畫面,看到信號燈變化就提醒你。這對視力不好的人過馬路很有用
比如:「等電梯到 24 層了叫我」模型實時跟蹤樓層數字,到了就喊你
這種模式,也可能會帶了更多人與AI的交互創新,比如和 AI 打個撲克
更有意思的是環境音識別
現有很多視頻通話模型只能聽懂人說話(Speech),聽不懂環境音(Audio)。MiniCPM-o 4.5 可以識別環境音
「微波爐叮了告訴我」、「聽到門鈴聲提醒我」、「水流聲停了喊我」這些它都能處理。因為是原生全雙工,不靠外掛工具,對環境音的識別比那些只能聽人聲的模型靈敏很多
![]()
持續在線的兩個層面
之前介紹過一個叫 OpenClaw 的項目
它是一個本地 AI Agent,可以理解為封裝了一個類似 Claude Code 的東西。通過心跳機制(Heartbeat)和定時任務(Cron),實現周期性監控。比如每 30 分鐘掃描一次緊急郵件,檢測到異常可以半夜發消息
OpenClaw 做的是Agent 側的持續在線。它負責執行任務、調用工具、管理流程
MiniCPM-o 4.5 做的是模型側的持續在線。它負責感知環境、理解語義、決定何時回應
這兩個層面如果結合起來會很有意思
一個持續感知的模型,加上一個持續執行的 Agent。模型看到什么、聽到什么,Agent 就去做什么
這才是我想要的「言出法隨」墻壁的完整形態
![]()
前幾天開了個溝通會
前幾天有個面壁的小會,聊了不少東西
有人問到具身智能。劉知遠說:MiniCPM-o 4.5 這種全雙工模型,非常接近機器人所需的狀態。人類就是邊聽邊說、多通道并行處理的。以前的模型做不到,一說話就不能看
姚遠(面壁多模態研發負責人)補充:目前具身智能最大的問題不在底層控制,在泛化性和長程規劃。全模態大模型是具身智能實現通用性的機會
李大海把具身智能分成三層:
? 0.1 Hz:深度思考
? 1 Hz:日常感知、規劃(MiniCPM-o 4.5 做的這層)
? 10 Hz:具體動作控制
![]()
現在行業缺的是把 1Hz 的「大腦」和 10Hz 的「小腦」結合起來
面壁還將在今年年中,發布一個叫「松果派」的開發板,類似樹莓派,預裝了端側這套模型和推理框架。開發者可以直接上手做 AI 硬件原型
![]()
回到我的墻
我的「言出法隨」墻壁,硬件層面已經 ready 了。畢竟我是硬件出身
模型層面的需求是:一個能持續感知、不需要喚醒詞、能自己判斷我有沒有說完話的 AI
MiniCPM-o 4.5 給了一個方案
9B 參數,端側可部署,中文原生支持,成本可控
交互模式也變了。從「一問一答」到「隨時插話」,從「對講機」到正常人聊天
最后...再給大家看一個我覺得很有意義的東西:在盲道上,大模型會一直幫你看著路面,如果有不對的地方,它就會和你交互
然后,現在這個模型已經開源了,歡迎體驗
![]()
GitHubhttps://github.com/OpenBMB/MiniCPM-o
Hugging Facehttps://huggingface.co/spaces/openbmb/minicpm-omni
體驗鏈接https://minicpm-omni.openbmb.cn/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.