![]()
做醫療AI的人有個默契:病歷文本管夠,但病人咳嗽什么樣、心音有沒有雜音,這些聲音數據幾乎拿不到。MIT和斯坦福的研究團隊最近翻了17個主流語音模型,發現它們對臨床音頻的理解,基本靠猜。
問題出在訓練數據。團隊統計了3.2萬小時的公開語音語料,真正帶醫學標注的不到0.3%。剩下的99.7%是什么?播客、有聲書、YouTube視頻——健康人說話的聲音。模型沒聽過哮喘發作時的喘息,也沒錄過房顫患者的不規則心跳,卻要在診斷場景里硬上。
更麻煩的是隱私紅線。醫院的聲音記錄屬于受保護健康信息(PHI),比文本病歷管得還嚴。研究團隊嘗試用合成數據補缺口,結果發現AI生成的咳嗽聲,人類醫生能聽出"塑料感",模型卻分辨不了真假,反而在錯誤數據上越練越偏。
論文作者之一在預印本里寫了一句:「我們以為語言模型懂聲音,其實它們只懂怎么描述聲音。」這話刺耳,但點破了現狀——醫療語音AI的落地速度,取決于醫院愿不愿意把聽診器里的數據放出來,而不是算法還能怎么優化。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.