<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      在ICLR 2026主會之前,我們和30多位入選者聊了聊最前沿的AI細節

      0
      分享至

      4 月 14 日下午,由智源社區、DeepTech 聯合舉辦的 ICLR 2026 預講會在北京智源大廈圓滿舉行。作為機器學習領域最具影響力的國際頂會之一,ICLR 錄用論文往往代表著該領域最前沿的研究方向和技術突破。

      ICLR 2026 共收到有效投稿超 1.9 萬篇,整體錄取率約 28%,匯聚了全球大模型、多模態、強化學習、時序智能等前沿方向的最新研究成果。本次線下預講會聚焦頂會核心精華,為現場科研工作者搭建了高效的學術交流與成果分享平臺。

      會議伊始,清華大學智能產業研究院(AIR)助理教授趙昊作為開場嘉賓,簡要介紹了議程安排,并圍繞 ICLR 頂會論文的選題、撰寫與投稿實戰,分享了其在學術探索中的心得。隨后,三十余位論文作者圍繞 AI Agent、大語言模型、強化學習及多模態等熱門領域對入選成果進行了系統分享。


      圖 | 開場環節

      在過去的 2025 年,我們見證了大模型在通用任務上的能力飆升,但也目睹了其在真實場景中的頻繁“翻車”——幻覺問題讓醫療診斷不敢用、長上下文能力不足導致多輪對話崩盤、工具調用效率低下拖累 Agent 實用性、細粒度識別能力缺失限制專業應用。本次預講會展示的研究成果,恰恰聚焦于這些“最后一公里”的痛點。

      從獎勵最大化到分布匹配:強化學習正在變得更“聰明”

      在強化學習與 AI Agent 能力提升方面,從與會者的演講中,我們可以看到一個清晰的趨勢:研究焦點正從傳統的獎勵最大化轉向獎勵分布的精準匹配與數據效率的極致提升。多篇論文不約而同地關注如何通過自我博弈激發多智能體推理能力,以及如何通過基于熵的自適應搜索優化智能體與外部工具的多輪交互。這標志著強化學習在 Agent 領域的應用正在變得更深、更輕、更符合邏輯推演。

      來自中國人民大學高瓴人工智能學院的博士生董冠霆介紹了其最新科研工作智能體強化學習算法——ARPO。他表示,傳統強化學習主要適用于文本推理任務,而真實場景中智能體需在推理過程中與外部工具環境交互,這需要推理與工具使用行動高度耦合,現有方法難以應對。


      圖 | 董冠霆分享

      他的工作 ARPO 發現,模型在工具調用后會出現“熵增”現象,反映其對環境反饋的不確定性。為此,ARPO 引入基于熵的自適應樹搜索,在高熵位置自動分支探索,并通過路徑復用降低計算成本。董冠霆解釋,樹搜索讓兩條路徑可以共享前幾輪的工具調用結果,因此成本遠低于 GRPO 那種從頭解碼 N 條完整路徑的方式。實驗表明,ARPO 在深度搜索任務,長程推理任務中性能穩定優于 GRPO 等方法,且工具調用量僅為其一半。

      關于落地應用,董冠霆表示,快手深度搜索智能體的初步框架也基于 ARPO 構建,還有其他大廠也在嘗試落地應用。未來,他將聚焦動態環境下的智能體訓練與熵平衡優化,推動智能體強化學習算法向更真實、高效的方向發展。

      類似的思路也體現在多智能體推理領域。多篇論文探索通過自我博弈(Self-Play)機制,讓多個 Agent 在戰略性交互中涌現出更強的推理能力,這與 AlphaGo 的成功路徑不謀而合。此外,基于流的強化學習、速度參數化的序列建模等新方法,也在嘗試從不同角度提升樣本效率和訓練穩定性。

      從粗粒度識別到細粒度推理:多模態感知邁向“專家級”

      在多模態感知方面,研究者不再滿足于讓模型識別“花”或“飛機”這類粗粒度結果,而是通過思維鏈監督微調,讓模型像專家一樣逐步分析顏色、形狀等細粒度特征。同時,自動駕駛、觸覺感知等物理世界交互任務也成為熱點,世界模型被用于放大數據縮放定律,解決長尾場景的數據匱乏問題。

      在細粒度多模態大模型領域,北京大學王選計算機研究所的博士生何胡凌霄分享了團隊的最新研究成果——Fine-R1。他表示,通用大模型難以識別細粒度類別,主要在于細粒度數據的標注需要專家知識,成本極高,導致訓練數據稀缺,模型更傾向于輸出“花”這類粗粒度結果。

      為此,團隊將思維鏈引入細粒度識別任務,構建了“視覺分析—候選子類別—對比分析—預測結果”的結構化推理流程,讓模型像專家一樣逐步分析顏色、形狀等特征。同時,團隊提出了三元組增強策略優化(TAPO),通過引入正負樣本對,提升模型對類內差異的魯棒性和對類間差異的辨識性。


      圖 | 何胡凌霄分享

      在效率方面,團隊每類僅用 4 張訓練圖像,就超越了 CLIP、SigLIP 等判別式模型。何胡凌霄表示,這得益于思維鏈帶來的知識泛化能力,以及強化學習相比監督微調的數據效率優勢。他透露,目前團隊正致力于提速和輕量化,爭取部署到手機等邊緣設備,實現實時識別。

      應用場景方面,何胡凌霄舉例,華為的“小藝看世界”功能可識別花、文物等的細粒度類別并進行后續問答。未來,團隊將繼續優化推理速度與模型大小,推動技術落地。

      模型能力優化:讓 AI 更可信、更“走心”

      模型能力的優化也是一個重點方向:因為現階段的 AI 應用還存在著幻覺問題導致生成內容不可信、長期記憶能力薄弱影響多輪對話連貫性等問題。

      在提升模型忠實度與可信度方面,天津理工大學周雨熙團隊博士生龍泳潮分享了其與北京大學洪申達課題組、騰訊天衍實驗室合作的最新研究。面對醫療場景中模型出現的偏離參考文本、生成不可控內容等幻覺問題,團隊提出了一種名為“Copy-Paste”(復制-粘貼)的新型生成范式,邁向 LLM“零幻覺”生成。


      圖 | 龍泳潮分享

      這種方法的核心邏輯極簡卻高效:通過兩階段的高復制偏好訓練,促使模型在生成答案時直接嵌入上下文關鍵片段,推動其從“自由創作”向“精準錨定”的模式轉變。龍泳潮解釋,這種“復制粘貼”式的策略不僅在準確性上更具說服力,更展現出極高的數據效率。團隊僅用 365 對高質量數據進行 DPO 訓練,其效果便超越了基于 18,000 條數據訓練的最強基準模型。

      盡管該方法在處理含有事實錯誤的原始上下文時,仍面臨“錯讀錯引”及糾錯能力受限的挑戰,但團隊引入的“雙向錨點”技術,為用戶提供了快速回溯驗證的路徑。龍泳潮表示,后續研究將聚焦于 Copy-Paste 范式在文本推理和多模態上的研究,并進一步探索該范式在醫療診療指南等高可信度場景中的工程化落地潛力。

      而在提升對話智能體長期記憶的聯想與檢索效率方面,來自中國科學技術大學的博士生許德容展示了名為“MemGAS”的創新框架。針對現有記憶系統因粒度單一導致的信息檢索不全或噪聲過大等問題,該研究打破了傳統的單粒度存儲模式。


      圖 | 許德容分享

      受人腦記憶機制啟發,MemGAS 通過構建多粒度記憶單元并引入高斯混合模型(GMM),實現了新舊記憶的高效關聯與動態篩選。許德容強調,MemGAS 的核心優勢在于其“多粒度聯想”能力:能夠根據任務需求,自適應地選擇最合適的記憶分片,從而在長程對話中提供更具連貫性和個性化的響應。

      盡管在處理情緒化或非事實性的碎片化信息時,多粒度提取的意圖對齊仍具挑戰,且系統復雜性對實時性提出了更高要求,但團隊已在后續研究中探索記憶的“遺忘與更新”機制。許德容表示,下一步工作將致力于解決記憶持續累積帶來的冗余問題,在保證更低 Token 消耗的同時,構建更接近人類思維的動態記憶閉環。

      此外,入選者們也在擴散模型的用戶意圖理解、分子表征的動態建模、以及多模態推理中的時間感知等前沿探索,都在試圖突破當前模型的能力邊界。

      機器學習與數據應用:從動態評測到算法理解

      在機器學習與數據應用層面,可解釋性、動態評測基準和異常檢測等方向受到關注。特別是醫療領域,零數據泄露、可動態更新的臨床評測基準的提出,標志著 AI 評估正從靜態刷榜邁向動態實戰考核。

      來自香港中文大學(深圳)的博士生王熙棟介紹了其聯合螞蟻集團等機構發布的醫療多模態評測基準——LiveClin。他表示,現有醫療大模型評估存在兩大硬傷:一是靜態題庫容易被數據污染,模型靠“背答案”刷榜;二是評測任務脫離真實臨床流程,無法考察模型在患者病情動態變化中的推理能力。


      圖 | 王熙棟分享

      為此,LiveClin 構建了零數據泄露、可動態更新的評測體系。團隊聯合 239 位醫生參與標注審核,其中近 40% 為三甲醫院主任或副主任醫師,總投入超過 1,772 人工時。基準每半年從最新醫學文獻中抓取真實病例,確保模型必須靠真本事推理。同時,每個病例覆蓋從初診到治療方案的全臨床路徑,采用多階梯式漸進提問,考查模型的長程推理能力。

      在對 26 款頂尖模型的測評中,結果令人驚訝:即便是 GPT-5、o3,完全通關率也僅約 35%,與人類主任醫師仍有顯著差距。王熙棟分析,后期崩盤的主要是開源模型,癥結在于長上下文能力不足。目前團隊正推進按月更新的私榜機制,進一步防止刷榜。他期待 LiveClin 能成為醫療 AI 測評的新標準,推動行業從靜態刷榜邁向動態臨床考核。

      在數據處理與異常檢測領域,吉林大學的博士生葉航廷分享了在挖掘大語言模型處理復雜結構化數據潛力方面的最新進展。面對直接處理表格數據時常見的隱私泄露風險與數值計算瓶頸,他提出了一種名為“LLM-DAS”的新型框架。


      圖 | 葉航廷分享

      該框架實現了從“數據處理者”到“算法分析師”的思路轉變:利用大模型的邏輯推理優勢深度剖析現有檢測器算法的弱點,自動生成數據無關、可復用的代碼,用于合成專門針對該檢測器“盲區”的異常樣本以提升性能,從而有效規避了原始數據的直接暴露。

      葉航廷坦言,盡管目前在邏輯對齊的量化評估及可解釋性上仍存在挑戰,且難以在所有數據集上實現完美提升,但團隊下一步將重點探索大模型對算法的深度理解機制,致力提升其在金融、醫療等復雜稀疏數據場景下的穩健性。

      隨著預講會議程的結束,部分與會同學已整裝待發,準備前往巴西參加 ICLR 2026 全球主會。如今,AI 正在從“能用”邁向“好用”,從“泛化”走向“專精”,從“刷榜”轉向“實戰”。這些趨勢不僅代表著學術界的探索方向,也預示著 AI 技術在真實世界中的落地路徑正在變得更加清晰。

      主辦方介紹:

      DeepTech 是一家專注新興科技的創新賦能機構,致力于推動科學與技術的創新進程。DeepTech 同時是《麻省理工科技評論》中國區獨家運營方。


      智源社區目前匯聚全球 20 萬人工智能開拓者,是兼具專業性和開放性的國際學術交流和技術創新協作平臺。社區圍繞人工智能發展的基礎問題和關鍵難題,建立緊密協作的學術共同體,加速新線索發現、假設提出、提案產生,致力于推動人工智能及其交叉領域的前沿研究、創新與可持續發展。

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區更尷尬

      比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區更尷尬

      生命之泉的奧秘
      2026-03-20 03:56:49
      意甲懸念終結 衛冕冠軍2場不勝送禮 國米12分領跑 下輪或奪第21冠

      意甲懸念終結 衛冕冠軍2場不勝送禮 國米12分領跑 下輪或奪第21冠

      我愛英超
      2026-04-19 07:09:49
      直接給島內孩子們看!這應該是鄭麗文從大陸帶回最珍貴禮物!

      直接給島內孩子們看!這應該是鄭麗文從大陸帶回最珍貴禮物!

      阿龍聊軍事
      2026-04-18 21:26:21
      切爾西一戰看清短板!曼聯別錯過 “新魔笛”,8000 萬硬砸也要簽

      切爾西一戰看清短板!曼聯別錯過 “新魔笛”,8000 萬硬砸也要簽

      瀾歸序
      2026-04-20 02:46:34
      藍色起源“新格倫”可重復使用火箭助推器實現首次復用回收成功

      藍色起源“新格倫”可重復使用火箭助推器實現首次復用回收成功

      不看車bukanche
      2026-04-19 19:49:50
      19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創傷

      19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創傷

      丫頭舫
      2025-09-22 20:39:00
      61歲張曼玉近照曝光,臉僵到認不出?終于明白她死活不上浪姐了

      61歲張曼玉近照曝光,臉僵到認不出?終于明白她死活不上浪姐了

      科學發掘
      2026-04-19 06:49:58
      10-1勝傳奇名將,五連鞭打懵世界第一,三利好成就第二人

      10-1勝傳奇名將,五連鞭打懵世界第一,三利好成就第二人

      逗比演員說體育
      2026-04-06 11:02:36
      馬英九會眾叛親離,王金平則眾望所歸

      馬英九會眾叛親離,王金平則眾望所歸

      呼呼歷史論
      2026-04-19 21:28:43
      研究發現:堅持吃香蕉,是在給血管添堵?醫生說出實情

      研究發現:堅持吃香蕉,是在給血管添堵?醫生說出實情

      今日養生之道
      2026-04-19 19:26:16
      日本今天對抗中國的底氣到底是什么?

      日本今天對抗中國的底氣到底是什么?

      新潮沉思錄
      2026-04-18 20:55:59
      久保建英成為首個奪得國王杯的日本球員,也是其個人生涯首冠

      久保建英成為首個奪得國王杯的日本球員,也是其個人生涯首冠

      懂球帝
      2026-04-19 15:42:52
      輕斷食再次封神!復旦大學研究證實,讓肝臟脂肪在5個月內少20.5%

      輕斷食再次封神!復旦大學研究證實,讓肝臟脂肪在5個月內少20.5%

      健康之光
      2026-03-24 08:46:34
      一旦中國同時發射24枚東風41,號稱“世界第一”美國,能否攔住呢

      一旦中國同時發射24枚東風41,號稱“世界第一”美國,能否攔住呢

      瘋狂的小歷史
      2026-04-17 11:06:48
      一路狂奔!日本,動手了!

      一路狂奔!日本,動手了!

      大嘴說天下
      2026-04-19 21:50:16
      陜西省規模較大的十家三甲醫院

      陜西省規模較大的十家三甲醫院

      鬼菜生活
      2026-04-19 21:23:42
      北京高官女子嫁給日本貴族,結婚5年后,才得知丈夫的真實身份

      北京高官女子嫁給日本貴族,結婚5年后,才得知丈夫的真實身份

      紅豆講堂
      2025-06-07 08:20:06
      豐臺這個公交站臺完成暖心升級——

      豐臺這個公交站臺完成暖心升級——

      新豐臺
      2026-04-19 22:08:23
      特朗普稱萬斯不參加美伊復談

      特朗普稱萬斯不參加美伊復談

      財聯社
      2026-04-19 21:19:08
      失敗了!送出全明星首發+1億美金,換了31歲黑洞,真不如去馬刺啊

      失敗了!送出全明星首發+1億美金,換了31歲黑洞,真不如去馬刺啊

      籃球信息社
      2026-04-19 20:46:27
      2026-04-20 05:31:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16598文章數 514891關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內娛隔空掀桌第一人

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      家居
      時尚
      數碼
      房產
      親子

      家居要聞

      法式線條 時光靜淌

      裝修“精神角落”,就是這么上癮

      數碼要聞

      華為新機發布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

      房產要聞

      官宣簽約最強城更!海口樓市,突然殺入神秘房企!

      親子要聞

      孩子總打噴嚏、起疹子,時過敏嗎?

      無障礙瀏覽 進入關懷版