<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      誰來定義AI“懂物理”?| 科到了

      0
      分享至


      作者:王嘉翌 博士研究生 | 中國科學院大學 培養單位:中國科學院物理研究所 審核:楊海濤 研究員 | 中國科學院物理研究所

      AI懂物理嗎?

      讓我們設想這個場景:小孩搭積木,塔剛晃一下,他急著伸手去扶:“太高了,站不穩!”這一瞬間的動作,是刻在人類基因里的“物理直覺”——無需列方程、做計算,這是我們從小摔玩具、打翻杯子、被門夾手“交學費”換來的本能。

      反觀AI:它能以每秒百萬次的速度算出每塊積木的重心、摩擦力和力矩,卻在看到一段“積木憑空懸浮”的視頻時,認真點頭:“這很合理。”

      這正是問題的關鍵:會算,不等于懂

      最近,AI在各類奧賽中屢創佳績,甚至展現出超越人類頂尖選手的解題統治力。但我們不禁要問:它是真的理解了真實物理世界,還是只是背下了海量題庫,練就了一身“應試功夫”?

      要回答這個問題,科學家們為AI設計了一種新型考試——benchmark(基準測試)。說白了,這是給AI設計的題庫,專門檢驗它是不是真有“物理直覺”。這些測試五花八門:有的讓它玩彈球游戲,有的看動畫挑錯,有的直接扔進虛擬廚房動手炒菜。

      為了系統評估AI的“物理直覺”到底強在哪、弱在哪,科學家們通常從兩個關鍵維度來組織這些 benchmark:

      一是任務類型——AI是在預測、控制,還是在做因果推理?

      二是輸入模態——AI是靠讀文字、看圖像,還是得親手“摸”世界?

      接下來,我們就從這兩個角度,看看科學家如何給AI的“物理直覺”打分。

      一、按任務類型劃分:AI是在“算”,還是在“理解”?


      DeepPHY [3]: AI也會玩游戲,憤怒的小鳥、切繩子、打臺球……

      最經典的一類任務是前向問題。這類任務要求模型根據已知的物理規律、初始條件和邊界條件,預測系統未來的狀態。比如,給定t時刻水流的速度和壓力,令AI判斷水流在t+1時刻是會拐彎、起渦,還是撞水槽反彈? PDEBench [1]就專注于測評這類問題,考察AI能不能用數學方法,逼近真實世界的演化過程,本質上更接近“AI會不會計算”。


      PAI-Bench [8]:AI根據輸入文本生成爆炸發光視頻

      更高階的任務,叫控制或設計問題。它不只是要求模型預測結果,而且要求它反過來尋找一個最優輸入或控制策略,使系統達到預期目標。即讓AI想:“我該怎么做,才能讓系統變成我想要的樣子?”。

      比如:怎么控制機械臂,在不碰倒杯子的情況下抓起一個雞蛋?

      或者:如何設計一種材料結構,讓它又輕又能扛住沖擊?

      這就是“控制與設計類問題”。代表選手是 RoboBPP [2],它模擬的是真實機器人面臨的挑戰:在線裝箱、動態抓取、避開障礙……每一步都要考慮重力、摩擦、碰撞。

      這就逼著AI從“解題思維”轉向“工程思維”——不僅要懂規律,還得會規劃、能權衡、敢調整,考驗模型在復雜物理系統中的決策能力和規劃能力。


      PlasticineLab [9]:AI按照要求捏料橡皮泥柔性材料


      ThreeDWorld Transport Challenge [10]:AI于三維世界完成搬東西操作

      最高階的考場,直指人類最引以為傲的能力:因果推理。它要求AI不只算出結果,更要理解“為什么”:現象背后是什么機制?改變一個條件會引發什么連鎖反應?

      舉個例子:讓它生成一段“金屬鈉扔進水里”的視頻——不是隨便放個煙花特效,而是準確呈現劇烈反應、氫氣釋放、甚至可能的爆炸發光。這需要它真正明白“鈉+水→放熱→產氣→點燃”這一連串因果鏈。

      一個有趣的benchmark—— DeepPHY [3],它把AI丟進一個充滿物理規則的虛擬游戲廳:彈球軌道、臺球桌、“憤怒的小鳥”、切繩子……讓它邊玩邊試錯。

      考的是什么?

      多步推理、空間判斷、時序規劃,還有最關鍵的一點——從失敗中修正策略:“剛才那樣不行,得換種方式。”

      這類評測顯然和我們印象中“AI做題家”截然不同,而是令AI在和物理世界對話。

      二、按模態劃分:AI是通過什么“看見”物理的?


      PhysBench [11]:AI視覺理解真實物理世界,哪個球彈得更高?車會先撞到哪個方塊?

      如果說“任務類型”是考AI“會干什么”,那“模態”就是看它“怎么感知這個世界”。就像人類靠眼睛看、耳朵聽、手去摸來認識物理世界,AI也需要通過不同的“感官”輸入來學習規律。

      最基礎的是純文本benchmark。這類任務主要圍繞文字、公式、符號和邏輯推導展開,重點考察模型的數學推演和抽象推理能力,比如SuperGPQA [4]。

      接下來,AI 被要求“睜眼看世界”,視覺benchmark應運而生。這類任務以圖像或視頻作為輸入,要求模型理解其中的物理動態。例如, IntPhys [5]的靈感來自嬰兒直覺物理研究:連八個月大的孩子都知道——物體不會憑空消失,也不會穿過墻壁。在這個benchmark中,科學家給AI看一系列由引擎生成的視頻,有些是物理上可能發生的事件,比如球從斜坡滾下,自然落地;有些則不可能,比如球飛到半空突然懸停,或者穿墻而過。AI模型需要判斷哪些現象“在物理上說得通”,考的是AI的“物理常識感”

      目前最火熱的方向,是多模態benchmark。在真實物理研究中,問題不可能只來來自文字圖表,而是實驗操作、儀器讀數、乃至噪音的集成體。PhysUniBench [6] 就還原了這種場景:每個問題都配有一張復雜的物理圖表。AI 必須能“看懂”坐標系,識別出波的干涉條紋,或是追蹤粒子的運動軌跡,才能解出題。 SeePhys [7]則直接設計了"視覺必需型"難題:比如問:“這個波形對應哪種振動模式?” 沒圖?AI根本無從下手。這意味著,AI 不能再靠“背題庫”蒙混過關,它必須真正具備解讀科學圖像的能力,像個真正的研究員一樣工作。

      最高階的感知方式,是親身參與。近年來興起一類具身/交互式 benchmark,它干脆把AI放進一個虛擬物理世界里,讓AI通過自主探索和交互來完成任務。比如 PAI-Bench [8],就設置了各種“生活挑戰”:在廚房里做菜,控制火候、翻炒食材;模擬水滴落入湖中,生成漣漪擴散的全過程;生成鞭炮在廠房外爆炸和發光的視頻。

      此時,模型所需要的就不只是預測能力,更包括行動能力和決策能力,從“會做題”走向“會做事”。


      PAIBench [8]:具身AI廚房做飯視頻

      從枯燥的文本題海,到能看、能聽、能動手的多模態交互——物理 Benchmark 的進化史,其實就是 AI 努力長出“五官”和“雙手”的過程。這過程的價值遠超分數本身:它們是一面鏡子,映照出 AI 的短板,也折射出人類的獨特。

      參考文獻:

      [1] M. Takamoto, T. Praditia, R. Leiteritz, D. MacKinlay, F. Alesiani, D. Pflueger, and M. Niepert, PDEBENCH: An extensive benchmark for scientific machine learning, arXiv:2210.07182 (2022).

      [2] Z. Wang, H. Zhao, J. Xu, S. Zhang, Z. Xiong, R. Hu, C. Zhu, Z. Zeng, and K. Xu, RoboBPP: Benchmarking robotic online bin packing with physics-based simulation, arXiv:2512.04415 (2025).

      [3] X. Xu, P. Bu, Y. Wang, B. F. Karlsson, Z. Wang, T. Song, Q. Zhu, J. Song, Z. Ding, and B. Zheng, DeepPHY: Benchmarking agentic VLMs on physical reasoning, arXiv:2508.05405 (2025).

      [4] X. Du, Y. Yao, K. Ma, B. Wang, T. Zheng, K. Zhu, M. Liu, Y. Liang, X. Jin, Z. Wei, et al., SuperGPQA: Scaling LLM evaluation across 285 graduate disciplines, arXiv:2502.14739 (2025).

      [5] R. Riochet, M. Y. Castro, M. Bernard, A. Lerer, R. Fergus, V. Izard, and E. Dupoux, IntPhys 2019: A benchmark for visual intuitive physics understanding, IEEE Trans. Pattern Anal. Mach. Intell. 44, 5016 (2022).

      [6] L. Wang, E. Su, J. Liu, P. Li, P. Xia, J. Xiao, W. Zhang, X. Dai, X. Chen, Y. Meng, M. Ding, L. Bai, W. Ouyang, S. Tang, A. Wang, and X. Ma, PhysUniBench: A multi-modal physics reasoning benchmark at undergraduate level, arXiv:2506.17667 (2025).

      [7] H. Shen, T. Wu, Q. Han, Y. Hsieh, J. Wang, Y. Zhang, Y. Cheng, Z. Hao, Y. Ni, X. Wang, et al., SeePhys: Does seeing help thinking? Benchmarking vision-based physics reasoning, arXiv:2505.19099 (2025).

      [8] F. Zhou, J. Huang, J. Li, D. Ramanan, and H. Shi, PAI-Bench: A comprehensive benchmark for physical AI, arXiv:2512.01989 (2025).

      [9] Z. Huang, Y. Hu, T. Du, S. Zhou, H. Su, J. B. Tenenbaum, and C. Gan, PlasticineLab: A soft-body manipulation benchmark with differentiable physics, in Proc. Int. Conf. Learn. Represent, arXiv:2104.03311 (2021).

      [10] C. Gan, S. Zhou, J. Schwartz, S. Alter, A. Bhandwaldar, D. Gutfreund, D. L. K. Yamins, J. J. DiCarlo, J. McDermott, A. Torralba, and J. B. Tenenbaum, The ThreeDWorld Transport Challenge: A visually guided task-and-motion planning benchmark for physically realistic embodied AI, in Proc. Conf. Neural Inf. Process. Syst., Paper No. 1678 (2021).

      [11] W. Chow, J. Mao, B. Li, D. Seita, V. Guizilini, and Y. Wang, PhysBench: Benchmarking and enhancing vision-language models for physical world understanding, in Proc. Int. Conf. Learn. Represent. (2025).

      編輯:夜凌Ryelin

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

      三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

      有范又有料
      2025-09-29 14:21:11
      一場110-105!可怕的不是贏球 是杜峰這番話,歡迎麥考爾終于回歸

      一場110-105!可怕的不是贏球 是杜峰這番話,歡迎麥考爾終于回歸

      星Xin辰大海
      2026-04-09 03:14:18
      章建平持續加倉!算力概念全面爆發!

      章建平持續加倉!算力概念全面爆發!

      證券市場周刊
      2026-04-08 20:32:13
      項立剛再撕莫言!諾貝爾文學獎評委只有18人,其中只有一個懂中文

      項立剛再撕莫言!諾貝爾文學獎評委只有18人,其中只有一個懂中文

      談史論天地
      2026-04-04 17:50:41
      開啟預售!最便宜的綠牌全尺寸SUV?

      開啟預售!最便宜的綠牌全尺寸SUV?

      汽車消費網
      2026-04-08 17:05:40
      當你有了存款會瞞著身邊人嗎?網友:存錢就連親爹媽都別告訴

      當你有了存款會瞞著身邊人嗎?網友:存錢就連親爹媽都別告訴

      帶你感受人間冷暖
      2026-02-23 00:30:12
      安徽女童遇害后續:父親含淚回應,知情人爆料,聯合家人兩次埋尸

      安徽女童遇害后續:父親含淚回應,知情人爆料,聯合家人兩次埋尸

      阿傖說事
      2026-04-08 01:37:04
      臺灣地區前領導人馬英九:我不希望臺灣成為第二個香港!

      臺灣地區前領導人馬英九:我不希望臺灣成為第二個香港!

      傲傲講歷史
      2026-04-08 14:57:05
      研究表明:性生活越頻繁,射精和勃起問題越少!

      研究表明:性生活越頻繁,射精和勃起問題越少!

      黯泉
      2026-04-05 20:40:12
      震撼!曾精確預言911的盲眼神婆預測今年8大事件,有一條暗指中國

      震撼!曾精確預言911的盲眼神婆預測今年8大事件,有一條暗指中國

      刀刃故事
      2024-11-22 01:55:03
      47歲倪虹潔“1個人要贍養5個老人” 上熱搜!網友了解其故事后唏噓:她這輩子真的好苦

      47歲倪虹潔“1個人要贍養5個老人” 上熱搜!網友了解其故事后唏噓:她這輩子真的好苦

      大風新聞
      2026-04-08 17:53:14
      打臉了!陳光標捐1000萬給嫣然醫院協議曝光,捐贈用途讓輿論反轉

      打臉了!陳光標捐1000萬給嫣然醫院協議曝光,捐贈用途讓輿論反轉

      火山詩話
      2026-04-09 06:43:39
      阿司匹林和他汀,什么時間吃最合適?早知道,早受益!

      阿司匹林和他汀,什么時間吃最合適?早知道,早受益!

      健康之光
      2026-04-08 17:32:59
      豪取17連勝!隨著上海119-97輕取寧波,這三人堪稱贏球絕對功臣!

      豪取17連勝!隨著上海119-97輕取寧波,這三人堪稱贏球絕對功臣!

      田先生籃球
      2026-04-08 22:14:38
      為了鄭麗文專機能夠順利落地,解放軍果斷亮出底牌,痛擊臺獨要害

      為了鄭麗文專機能夠順利落地,解放軍果斷亮出底牌,痛擊臺獨要害

      健身狂人
      2026-04-08 08:51:15
      開發商坦言:30多層的高層住宅,未來想“拆掉重建”幾乎不可能

      開發商坦言:30多層的高層住宅,未來想“拆掉重建”幾乎不可能

      細說職場
      2026-04-08 11:37:01
      亞冠0-1,日本勁旅大阪鋼巴主場不敵泰國球隊,瀕臨出局

      亞冠0-1,日本勁旅大阪鋼巴主場不敵泰國球隊,瀕臨出局

      側身凌空斬
      2026-04-08 19:54:25
      25 億投資遇冷:海康威視西安科技園空置,高新軟件新城產業之痛

      25 億投資遇冷:海康威視西安科技園空置,高新軟件新城產業之痛

      高新碼叔
      2026-04-08 14:24:22
      4月8日俄烏最新:普京押錯了注

      4月8日俄烏最新:普京押錯了注

      西樓飲月
      2026-04-08 20:39:48
      虛驚一場!比賽還沒開打,國安先迎來一大利好,取勝成都蓉城有戲

      虛驚一場!比賽還沒開打,國安先迎來一大利好,取勝成都蓉城有戲

      零度眼看球
      2026-04-09 06:47:48
      2026-04-09 08:03:00
      中科院物理所 incentive-icons
      中科院物理所
      愛上物理,改變世界。
      10045文章數 136518關注度
      往期回顧 全部

      科技要聞

      吳泳銘成立阿里技術委員會 為何這四人入選

      頭條要聞

      特朗普稱"徹底勝利" 美媒:目標一個沒實現還陷入困境

      頭條要聞

      特朗普稱"徹底勝利" 美媒:目標一個沒實現還陷入困境

      體育要聞

      40歲,但實力倒退12年

      娛樂要聞

      侯佩岑全家悉尼度假,一家四口幸福滿溢

      財經要聞

      誰騙了董宇輝?

      汽車要聞

      20萬級滿配華為全家桶 華境S是懂家庭的大六座

      態度原創

      本地
      親子
      數碼
      時尚
      公開課

      本地新聞

      跟著歌聲游安徽,聽古村回響

      親子要聞

      法國家人可麗餅吃上癮,孩子排隊學著做,老大手寫記配方,有心了

      數碼要聞

      SK海力士開始供應321層QLC NAND cSSD:最高可選2TB

      50歲,我媽在戀綜搶男人

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版