新京報貝殼財經訊 2月21日,清華大學智能產業研究院(AIR)發布一項研究顯示,以自動駕駛這一安全關鍵領域為載體,首次通過“人類眼動追蹤實驗+算法對比驗證”的雙軌設計,系統性拆解了人類與智駕算法視覺注意力的本質差異。其核心價值在于提出人類駕駛注意力的三階段量化劃分框架,并證實智駕算法視覺理解的核心缺陷是缺乏“語義顯著性提取能力”,而融入人類檢查階段的語義注意力,能以經濟高效的方式填補專業算法的“語義鴻溝”與大模型的“接地鴻溝”,無需依賴大規模預訓練。
研究團隊通過招募專家與新手司機完成危險檢測、可用性識別、異常檢測三類任務,結合眼動數據劃分注意力階段,再將不同階段注意力融入AxANet、UniAD等專業算法及DriveLM等視覺語言模型(VLM),最終揭示人類與智駕算法注意力的核心差異并非“空間定位”,而是“語義理解”。人類能通過自上而下的認知賦予場景特征語義優先級,而智駕算法難以自主習得這一能力。該發現為自動駕駛算法的性能提升提供了非規模化的新路徑,對資源受限的車載實時系統部署具有重要實踐意義。
編輯 姜樊
校對 張彥君
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.