網易首頁 > 網易號 > 正文申請入駐

ICLR 2026獲獎論文揭曉：大神Alec Radford經典工作獲時間檢驗獎

2026-04-27 12:35:09　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

ICLR 2026 獲獎論文已經公布。

今年共有 2 篇論文獲得「杰出論文獎」（Outstanding Paper），另有 1 篇論文獲得「榮譽提名」（Honorable Mention）；此外，還有 2 篇 ICLR 2016 論文獲得「時間檢驗獎」（Test of Time Award）。

作為機器學習領域的頂級會議， ICLR 2026 于 2026 年 4 月 23 日至 27 日在巴西里約熱內盧舉行。官方今年收到了有效投稿約 19000 篇，總錄取率約為 28%，該錄取率涵蓋了所有經過同行評審的完整論文投稿，無論其是否撤稿。

以下是獲獎論文詳細信息。

杰出論文獎

論文 1：Transformers are Inherently Succinct

這項理論工作提出了一個新的視角，用以解釋 Transformer 架構的強大能力：即與 RNN 等替代模型相比，它能夠以多么簡潔的方式編碼某些概念。盡管存在一些批評意見，但論文傳達出的鮮明概念性觀點仍引起了評審委員會及其他專家的興趣。

該工作可能會推動后續圍繞 Transformer 及其他架構在概念表示簡潔性方面的更多理論與實證研究。

論文作者：Pascal Bergstr??er、Ryan Cotterell、Anthony Widjaja Lin
論文鏈接：https://openreview.net/pdf?id=Yxz92UuPLQ

論文摘要：論文提出以簡潔性作為衡量 Transformer 在描述某一概念時表達能力的指標。

為此，本文證明 Transformer 具有很強的表達能力：相比有限自動機和線性時序邏輯（LTL）公式等形式語言的標準表示方法，Transformer 能夠以顯著更簡潔的方式表示形式語言。

作為這種表達能力帶來的一個副產物，研究進一步表明，驗證 Transformer 的性質在理論上是不可處理的，也就是說，該問題是 EXPSPACE-complete（指數空間完全）的。

論文 2：LLMs Get Lost In Multi-Turn Conversation

大多數用于 LLM 訓練的數據與其實際部署方式之間存在明顯的不協調：訓練數據主要是文本補全或單輪交互形式，而實際部署場景本質上往往是多輪對話。如何穩健地評估和訓練模型的多輪能力，仍然是一項復雜挑戰。

這篇論文設計了一種可擴展的方法來評估多輪能力，并發現：在非常常見的多輪交互場景中，尤其是當指令存在欠明確、信息不充分的問題時，LLM 的能力和可靠性會顯著下降。

該工作展現了出色的實驗設計和方法論，其發現新穎且有趣，尤其聚焦于一個更貼近真實使用場景的重要問題。盡管評審過程中曾討論過其使用模型相對較舊的問題，但委員會認為，該論文的結論和方法對于當前最先進的模型仍然具有相關性。

這項工作突出揭示了一個前沿模型正在努力解決的問題，并提供了一種可行且可擴展的診斷方法。

論文作者：Philippe Laban, Hiroaki Hayashi, Yingbo Zhou, Jennifer Neville
論文鏈接：https://openreview.net/pdf?id=VKGTGGcwl6

論文摘要：大語言模型本質上是一種對話式接口，因此其能力不應只體現在理解和完成用戶已經充分說明的任務上，還應體現在能夠通過多輪交流，幫助用戶逐步明確、探索和細化需求。

然而，當前大多數 LLM 評估仍主要集中在單輪、指令完整明確的任務場景中，而真實用戶交互中，指令不充分、需求未完全說明的情況十分常見。針對這一問題，論文通過大規模模擬實驗，對比了多個頂尖開源和閉源 LLM 在單輪與多輪場景下的表現。

實驗結果顯示，所有被測試模型在多輪對話中的表現都明顯低于單輪場景。在六類生成任務中，模型性能平均下降 39%。進一步基于 20 多萬次模擬對話的分析表明，這種性能退化主要來自兩個方面：一是模型能力本身出現小幅下降，二是模型可靠性顯著降低。

論文還發現，LLM 往往會在對話早期過早做出假設，并嘗試生成最終答案；一旦這些早期判斷出現偏差，模型在后續對話中容易過度依賴錯誤方向，難以及時糾正。換言之，當 LLM 在多輪對話中走錯一步時，往往會逐漸迷失，并難以恢復到正確軌道。

除上述兩篇杰出論文獎論文外，《The Polar Express: Optimal Matrix Sign Methods and their Application to the Muon Algorithm》獲得了本屆榮譽提名（Honorable Mention）。該論文由 Noah Amsel、David Persson、Christopher Musco 和 Robert M. Gower 共同完成。

時間檢驗獎（Test of Time）

時間檢驗獎旨在表彰 2016 年 ICLR 上發表的、對該領域產生持久影響的論文。2026 年程序委員會審查了 2016 年 ICLR 上發表的論文，選出了以下兩篇具有代表性的論文，該論文對如今的機器學習領域產生了深遠的影響和作用。

論文 1.Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

這篇論文，通常被稱為「DCGAN」，是最早成功展示基于學習的生成模型能夠合成多樣化、真實且復雜圖像的論文之一，為圖像生成子領域的興起奠定了基礎。

當前，圖像生成是機器學習研究中最活躍的領域之一，并且在工業界產生了許多非常成功的應用，雖然技術已經發生了變化（從 GAN 到擴散模型），但 DCGAN 依然經得起時間的考驗，是這一重要領域得以發展的關鍵一步。

論文作者：Alec Radford、Luke Metz、Soumith Chintala
論文鏈接：https://arxiv.org/pdf/1511.06434

論文 2.Continuous control with deep reinforcement learning

該論文可以說是那些最具代表性的，從根本上改變其領域發展軌跡的成果之一。在這篇論文介紹深度確定性策略梯度（DDPG）算法發表之前，將強化學習應用于物理系統正面臨著嚴重瓶頸，工程師們被困于手工制作狀態特征，或與由離散化復雜運動控制引起的維度災難作斗爭。

深度確定性策略梯度算法是第一個成功解決這兩大局限性的算法，通過巧妙地將確定性 Actor-Critic 架構與 DQN 的穩定化技術結合，該算法使神經網絡能夠將原始傳感器數據直接轉化為精確、連續的物理動作。

最終，DDPG 展示了深度強化學習能夠進入連續控制領域，改變了該領域的軌跡，并引發了一場強化學習的革命。

論文作者：Timothy P. Lillicrap、Jonathan J. Hunt、Alexander Pritzel、Nicolas Heess、Tom Erez、Yuval Tassa、David Silver、Daan Wierstra
論文鏈接：https://arxiv.org/pdf/1509.02971

https://x.com/iclr_conf/status/2047780516682694977

https://x.com/iclr_conf/status/2047287536611963295

https://x.com/iclr_conf/status/2047290363740606703

https://x.com/GoogleResearch/status/2047802189096136781

https://blog.iclr.cc/2026/04/23/announcing-the-iclr-2026-outstanding-papers/

https://blog.iclr.cc/2026/04/22/announcing-the-test-of-time-awards-from-iclr-2016/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.