IT之家 1 月 1 日消息,北京時間今天晚間,據 The Information 報道,OpenAI 正在全面強化自身的音頻人工智能能力,為未來推出一款以語音為核心的個人 AI 設備鋪路。多名知情人士透露,這款設備將以聽覺交互為主要形式,而非依賴屏幕。
![]()
目前,ChatGPT 的語音功能與文本回答背后所使用的模型并不相同。OpenAI 內部研究人員認為,現有音頻模型在準確性和響應速度上明顯落后,促使公司在過去兩個月內整合工程、產品和研究力量,集中攻克音頻模型短板。
這一調整直接指向 OpenAI 的硬件目標 —— 打造一款可通過自然語音指令操作的消費級設備。此前報道稱,首款產品至少還需要一年時間才能面世。
隨著新架構的引入,音頻模型已能生成更自然、更富情感的語音回應,并具備與人類同時發聲、應對打斷的能力。OpenAI 計劃在 2026 年第一季度正式發布該模型。
在硬件形態上,OpenAI 與谷歌、亞馬遜、Meta 和蘋果的判斷相似:現有主流設備并非為未來的 AI 交互而生。OpenAI 團隊希望用戶通過“說話”而非“看屏幕”與設備互動,認為語音才是最貼近人類交流本能的方式。
與 OpenAI 合作推進硬件項目的喬尼?艾維也強調,無屏幕設計不僅更自然,還有助于避免用戶沉迷。他認為,新一代設備應當糾正以往消費電子產品帶來的負面影響,并為此承擔責任。
不過,OpenAI 目前仍面臨現實挑戰。內部人士指出,不少 ChatGPT 用戶并未習慣使用語音功能,這種情況不僅因為音頻模型效果不彰,也與功能認知不足有關。在推出音頻優先的 AI 設備之前,OpenAI 必須先改變用戶的使用習慣。
在組織層面,OpenAI 已組建專門團隊推進音頻 AI 戰略。來自 Character.AI 的語音研究員昆丹?庫馬爾負責整體方向,本?紐豪斯正在重構面向音頻的底層架構,多模態 ChatGPT 的產品經理杰基?香農也參與其中。
OpenAI 并不打算只推出一款設備,而是規劃了一條產品線,包括智能眼鏡和無屏幕智能音箱。公司內部的設想是,這類設備將以“伴隨式助手”的形態存在,主動理解環境和用戶需求,并在獲得授權的情況下,通過音頻和視頻持續提供幫助。
為支撐這一長期布局,OpenAI 已在 2025 年初斥資近 65 億美元(IT之家注:現匯率約合 455.06 億元人民幣)收購喬尼?艾維聯合創辦的 io,并同步推進供應鏈、工業設計與模型研發等多條工作線。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.