網易首頁 > 網易號 > 正文申請入駐

云知聲4篇論文入選自然語言處理頂會ACL 2026 再獲國際頂會認可

2026-04-11 09:01:10　來源: IT時代網

北京舉報

分享至

近日，自然語言處理領域頂級國際學術會議 ACL 2026（第 64 屆國際計算語言學協會年會）公布論文接收結果。云知聲表現亮眼，共有 4 篇論文成功錄用，其中 3 篇入選主會（Main Conference），1 篇入選 Findings。本屆 ACL 共收到 12148 篇投稿，經多輪嚴格評審，主會論文接收率僅 19%，Findings 論文接收率為 18%。

ACL 作為人工智能與計算語言學領域公認的全球頂會，聚焦大語言模型、智能體、文本挖掘、對話系統等前沿方向，是全球科研成果與技術創新的權威風向標。ACL 2026 將于 7 月 2 日 —7 月 7 日在美國圣迭戈舉辦。

云知聲此次入選的 4 篇論文，精準覆蓋多模態語音識別、全模態情感識別與推理、文檔理解與閱讀順序檢測、強化學習四大關鍵賽道，直擊行業共性技術痛點，提出的原創理論與算法，為全模態大模型、行業智能體的技術迭代提供了全新思路。其相關創新研究也與 UniGPT、山海?知音 2.0、U1-OCR 等模型產品形成深度技術閉環，為模型在嚴肅場景的規模化落地筑牢堅實學術根基。

以下為入選論文概覽：

VAPO: End-to-end Slide-Enhanced Speech Recognition with Omni-modal Large Language Models

作者：Rui Hu, Delai Qiu, Yining Wang, Shengping Liu, Jitao Sang

研究方向：多模態語音識別

錄用類型：ACL 2026, Main, Long paper

arXiv鏈接：https://arxiv.org/pdf/2510.08618

論文簡介：全模態大模型在結合幻燈片視覺信息的語音識別任務中具備端到端處理潛力。然而，此類模型普遍存在視覺干擾現象，即模型過度依賴幻燈片可見文本，導致對語音內容的感知弱化，引發轉錄失效。

針對該問題，本文提出視覺錨定策略優化方法（VAPO），其核心在于模擬人類聽取專業報告時的“先看后聽”感知流程，通過思維鏈格式，將視覺感知與語音轉錄在時序上解耦：首先提取幻燈片文本作為視覺語義先驗，隨后以視覺先驗作為錨點輔助完成語音識別。本文設計了涵蓋格式、OCR、ASR、視覺錨定四類獎勵函數引導模型的學習。同時，為解決現有數據專業實體密度低的問題，構建了包含合成數據集與真實數據的SlideASR-Bench基準。實驗結果表明，VAPO能夠有效消除全模態大模型的視覺干擾問題，在 SlideASR-Bench 及 SlideSpeech 等數據集上刷新了 SOTA 性能，并顯著降低了領域專業實體的識別錯誤率。

Beyond Modality Collapse: Taming Guided Modality Entropy for Omni-modal Emotion Reasoning

作者：Xian Zhao, Rui Hu, Yuxiang Zhang, Delai Qiu, Yining Wang, Shengping Liu, Jian Yu, Jitao Sang

研究方向：全模態情感識別與推理

錄用類型：ACL 2026, Findings, Long paper

論文簡介：在以人為本的人工智能領域，全模態情感識別與推理是實現深度人機交互的核心挑戰。盡管全模態大模型（OLLMs）取得了顯著進展，但在處理復雜情感時仍面臨“模態塌陷”困境：模型往往過度向視覺等優勢模態對齊，導致音頻或對話語境中的關鍵線索被掩蓋，進而在面對微妙情感時容易產生誤判。

針對這一難題，我們提出EmoOmni 模型。該模型創新性的引入了 OmniCoT 數據構建范式，通過“引導標識符（Guided Tokens）”構建認知錨點，強制模型在時序上分步提取并整合視覺、音頻與文本特征，實現邏輯嚴密的鏈式推理。此外，我們提出了DyME-GRPO 動態模態熵優化算法，通過強化學習手段動態校準模型對不同模態的依賴度，徹底解決模態失衡問題。實驗表明，EmoOmni 在多項情感基準測試中刷新了 SOTA 紀錄，在保持通用交互能力的同時，實現了更深層、更魯棒的情感洞察。

FocalOrder: Focal Preference Optimization for Reading Order Detection

作者：Fuyuan Liu, Dianyu Yu, He Ren, Nayu Liu, Xiaomian Kang, Delai Qiu, Fa Zhang, Genpeng Zhen, Shengping Liu, Jiaen Liang, Wei Huang, Yining Wang, Junnan Zhu

研究方向：文檔理解與閱讀順序檢測

錄用類型：ACL 2026, Main, Long paper

arXiv鏈接：https://arxiv.org/pdf/2601.07483

論文簡介：

閱讀順序檢測是文檔理解的基礎任務。現有方法大多采用統一監督方式進行訓練，通常默認文檔不同版面區域的學習難度分布一致。本文對這一假設提出挑戰，并揭示了閱讀順序檢測中的一個關鍵問題，即位置差異性（Positional Disparity）：模型通常能夠較好掌握起始和結束區域這類較為確定的布局模式，但在結構更復雜的中間區域會出現明顯的性能下降。進一步研究發現，造成這一問題的主要原因在于標準訓練過程中，大量簡單樣本的學習信號會淹沒復雜布局帶來的關鍵監督信息。

為解決上述問題，本文提出了FocalOrder框架，并設計了Focal Preference Optimization (FPO) 方法。具體而言，FocalOrder 通過結合指數滑動平均機制的自適應難度發現策略，動態定位難以學習的順序轉移關系；同時，引入難度校準的成對排序目標，以增強全局閱讀邏輯的一致性。實驗結果表明，FocalOrder 在OmniDocBench v1.0和Comp-HRDoc上均取得了新的最優性能。值得注意的是，我們的緊湊模型不僅優于多種具有競爭力的專用方法，也顯著超過了大規模通用視覺語言模型。該研究表明，使優化過程與文檔結構本身的內在歧義性相匹配，對于提升復雜文檔結構建模能力至關重要。

HEALing Entropy Collapse: Enhancing Exploration in Few-Shot RLVR via Hybrid-Domain Entropy Dynamics Alignment

作者：Zhanyu Liu, Qingguo Hu, Ante Wang, Chenqing Liu, Zhishang Xiang, Hui Li, Delai Qiu, Jinsong Su

研究方向：基于可驗證獎勵的強化學習

錄用類型：ACL 2026, Main, Long paper

論文簡介：基于可驗證獎勵的強化學習（RLVR）在訓練推理導向的大語言模型方面已展現出顯著成效，但現有方法大多假設資源充足、訓練數據豐富。在低資源場景下，RLVR 極易遭遇更為嚴重的熵坍縮問題，這極大地限制了探索空間，并削弱了推理性能。

為此，我們提出混合域熵動態對齊（HEAL）框架，專為少樣本 RLVR 設計。HEAL 首先有選擇地融入高價值通用域數據，以促進更多樣化的探索。隨后，我們引入熵動態對齊（EDA）獎勵機制，該機制能夠對齊目標域與通用域之間的軌跡級熵動態，不僅捕捉熵的大小，還刻畫其精細變化。通過這種對齊，EDA 不僅進一步緩解了熵坍縮，還鼓勵策略從通用域習得更豐富的探索行為。跨多個領域的實驗結果表明，HEAL 能夠持續提升少樣本 RLVR 的性能。值得注意的是，僅使用 32 條目標域樣本，HEAL 即可達到甚至超越使用 1000 條目標域樣本訓練的全量 RLVR 模型水平。

云知聲是一家以多模態大模型為核心底座、以行業智能體為關鍵抓手、以嚴肅場景規模化落地為鮮明特色的中國原生大模型企業，并作為港股上市公司（股票代碼：09678.HK）列席我國大模型第一梯隊。基于云知聲UniGPT大模型矩陣，公司已構建覆蓋醫療、醫保、交通等多個垂直行業的模型體系，并同步布局語音、OCR、影像等多模態能力。

例如：山海醫學大模型在醫療文本和醫學影像雙核能力上持續突破，在頂尖醫學大模型評測MedBench 4.0上獲得三大榜單“大滿貫”；山海·知音大模型2.0是一款端到端、全雙工語音大模型，同時完美支持ASR與TTS，其TTS首包延遲低于90ms，在ASR、TTS及交互能力上全面達到業界SOTA水平，支持12種方言與10種外語，能夠細膩還原情感表達；U1-OCR文檔智能基礎大模型是一款工業級文檔智能基礎大模型，采用ViT+LLM先進架構，擁有30億參數，在OmniDocBench V1.5基準測試中以95.1分的成績奪得SOTA，開啟了OCR 3.0時代，完成從“字符感知”到“文檔認知”的跨越。

此次收錄的論文，正是圍繞上述核心模型矩陣展開的技術攻關。未來，云知聲將持續深耕多模態大模型與行業智能體核心技術，以科研成果驅動技術迭代，加速醫療、醫保、交通等垂直領域的智能升級，助力中國大模型技術在全球舞臺持續領跑，推動人工智能從技術創新走向產業價值的深度釋放。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.