<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      神同步OpenAI!中國團隊Deep Principle領銜發布LLMs for Science評測,引爆外網

      0
      分享至


      來源:ScienceAI

      作者:論文團隊

      編輯ScienceAI

      最近,一篇由中國團隊領銜全球 24 所 TOP 高校機構發布,用于評測 LLMs for Science 能力高低的論文,在外網炸了!

      當晚,Keras (最高效易用的深度學習框架之一)締造者 Fran?ois Chollet 轉發論文鏈接,并喊出:「我們迫切需要新思路來推動人工智能走向科學創新。」


      AI 領域 KOL Alex Prompter 分享論文核心摘要后,NBA 獨行俠隊老板 Mark Cuban 跟帖轉發,硅谷投資人、歐洲家族辦公室、體育媒體同時涌進評論區。


      僅一夜,累計閱讀量逼近 200 萬。

      值得一提的是,同一時間窗里,OpenAI 也發布了對于 AI 在科學發現領域能力評測的論文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述,指出現有評測標準在 AI for Science 領域失靈。


      神同步 OpenAI、海外討論出圈,究竟是什么樣的一份工作成果,攪動了全球 AI 輿論場?

      AI 距離可以助力科學發現還有多遠?

      前段時間,美國推出「創世紀計劃」,號稱要調動「自阿波羅計劃以來最大規模的聯邦科研資源」,目標是在十年內將美國科研的生產力和影響力翻倍。

      但在人工智能估值泡沫隱現、能耗與產出比飽受質疑的當下,一面是資本的狂歡,另一面卻是 AI 能力困于「文生圖」等表層應用的尷尬;一面是各類大語言模型頻繁霸榜 GPQA、MMMU 等題庫式 Benchmark 的層出不窮,另一面卻是現有 LLMs 還無法準確解析簡單核磁圖譜的尷尬現狀。

      人們不禁要問:能在題庫拿高分,就能助力科學發現嗎?現在的模型距離科學發現還有多遠?究竟什么樣的 AI 模型可以勝任,拓寬人類的生存邊界?這些討論,在中美 AI 競爭白熱化的當下變得愈發濃烈。

      在此背景下,由中國 AI for Science 領域的初創企業「深度原理 Deep Principle」領銜麻省理工學院、哈佛、普林斯頓、斯坦福、劍橋、牛津等全球 24 所科研院校共同發布的《Evaluating LLMs in Scientific Discovery》論文,正式回答該時代之問。

      論文推出了 LLM for Science 首套評測體系 SDE(Scientific Discovery Evaluation),從科學問題到研究項目,對 GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 等全球主流大語言模型在生物、化學、材料、物理領域的科學研究與發現能力完成摸底。


      同以往評測體系不同的是,SDE 對模型能力的考量,從簡單的問答式,引向了具體的「假設 -> 實驗 -> 分析」實驗場景。

      研究發現,GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均準確率 50–70%,遠低于它們在 GPQA、MMMU 等題庫上的 80–90%;在 86 道「SDE-Hard」難題中,最高分不足 12%,共同暴露出多步推理、不確定性量化和實驗與理論閉環的短板。

      更值得警惕的是,模型規模與推理能力的提升已呈現明顯的「邊際效益遞減」。

      GPT-5 相較于前一代模型,參數規模和推理算力顯著增加,但在 SDE 基準的四大科學領域中,平均準確率僅提升 3%-5%,部分場景(如 NMR 結構解析)甚至出現性能下滑。

      換句話說,當前大語言模型在推動科學發現方面的表現,還不如一個普通的本科生。

      能領銜 24 所頂尖科研院校發布的背后團隊是誰?

      《Evaluating LLMs in Scientific Discovery》論文通訊作者段辰儒,是「深度原理 Deep Principle」創始人兼 CTO。早在 2021 年,在 MIT 攻讀化學博士期間,他就已在圖靈獎得主 Yoshua Bengio 的支持下,發起了 AI for Science 社區的建立,并在 NeurIPS 上舉辦 AI for Science workshop。

      2024 年初,他與 MIT 物理化學博士賈皓鈞回國,共同創立「深度原理 Deep Principle」。賈皓鈞任 CEO,段辰儒任 CTO,兩人雖為 95 后,但已在全球 AI for Science 創業領域小有名氣。

      創業一年半以來,其已獲得線性資本、高瓴創投、螞蟻集團等多家知名機構的投資,且與晶泰科技、深勢科技等 AI for Science 領域的知名企業建立戰略合作關系。

      「深度原理 Deep Principle」從創立之初,就帶著全球 AI for Science 頭部研究者們的期待。目前「深度原理 Deep Principle」已深入全球材料研發中的第一線,將生成式人工智能同量子化學結合起來,致力于推動材料發現等領域進入新紀元。

      在過去的一年中,他們在 Nature 大子刊和 JACS 等頂級期刊上不斷扔出重磅成果,宣告著他們的技術領先和開放交流的「95 后創業公司」心態。從開拓擴散生成模型(Diffusion Models)在化學反應的生成,證明「不止要生成材料,更需要生成材料的合成路徑」,到機器學習勢(Machine Learning Potentials, MLPs)和擴散生成模型的直接對比,證明傳統的機器學習勢不是「萬能」的,再到現在組織各大頂級學者和高校推出 SDE,證明傳統一問一答的 Benchmark 不能帶領我們走向科學超級智能,精準切入 AI for Science 領域的核心沖突。

      但同時,對于所有的 AI4S 公司而言,在商業真金白銀的檢驗中,AI 能否真正解決新產品研發問題、滿足客戶期待,是日復一日必須面對的拷問。

      隨著與行業頭部客戶的商業化合作落地,「深度原理 Deep Principle」的數據庫中已經匯聚了來源于客戶與自己實驗室、大量來自第一線的真實工業研發場景數據和模型應用經驗。

      學術圈的深耕與在 AI for Science 商業化第一線的積累,讓「深度原理 Deep Principle」在提出要構建一把新尺子評測 LLMs for Science 能力時,一呼百應,搖來了 23 家全球 TOP 科學發現機構的 50 余位科學家,成立了制定 SDE 的「夢之隊」。

      這其中,不乏活躍在 LLM 領域的大牛學者們,比如:

      • 孫歡(Huan Sun),MMMU 發起人,俄亥俄州立教授

      • 杜沅豈(Yuanqi Du),康奈爾博士,AI4Science 社區「運營大管家」

      • 王夢迪,普林斯頓最年輕教授,AI+Bio Safety 先驅者

      • Philippe Schwaller,IBM RXN 之父,EPFL 教授

      而「深度原理 Deep Principle」前期積累的科學發現場景,成為了后來 SDE 評測體系的前身。

      在經歷近 9 個月的跨高校跨學科跨時區的協作后,《Evaluating LLMs in Scientific Discovery》論文正式發布,通訊單位赫然寫著:深度原理,杭州,中國。


      自此,匯聚著全球頂級科學發現機構的集體智慧,來自中國的創業團隊「深度原理 Deep Principle」,和大洋彼岸的 OpenAI,同時站在了向 AI for Science—— 這一人類通往終極 AGI 頂峰攀登的起跑線。

      或許千百年后,當人類回望 AGI 時代,在 21 世紀的四分之一結束的當口,這場由中美團隊共同呼應的,對于 AI for Science 的嚴肅討論,把 LLMs 在各類問答式榜單上的內卷,向真正科學發現的星辰大海推近了一步。

      至于怎么通往彼岸,段辰儒表示:「當大語言模型在各種科學問答榜單表現飽和,但還不能有效支持科學發現時,就像『考試成績好』不等于『頂級研究者』,說明我們需要新的評測體系與訓練路徑。」

      「深度原理 Deep Principle」與 20 多所機構的 50 多位合作者的研究證明了,目前 LLM 的發展路徑并不能「順便攻克」科學發現。

      這條通往科學超級智能之路,需要更多有識之士共同并肩而行。

      閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

      https://wx.zsxq.com/group/454854145828


      未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      戲子誤國!春節剛過3位明星相繼塌房,事情做絕一個比一個荒唐

      戲子誤國!春節剛過3位明星相繼塌房,事情做絕一個比一個荒唐

      琨玉秋霜
      2026-03-02 06:09:04
      “最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

      “最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

      地理三體說
      2026-01-29 21:40:34
      結婚不到一年,娶了“白月光”的李國慶,口碑徹底反轉了

      結婚不到一年,娶了“白月光”的李國慶,口碑徹底反轉了

      蕭鑟科普解說
      2026-02-26 06:07:11
      這老師真是絕代美人啊!

      這老師真是絕代美人啊!

      東方不敗然多多
      2026-03-01 01:09:31
      莫迪想賭一把大的,為了把中國企業釣去印度,畫7500億大餅做魚餌

      莫迪想賭一把大的,為了把中國企業釣去印度,畫7500億大餅做魚餌

      胖福的小木屋
      2026-03-01 22:34:51
      臺積電創辦人張忠謀:如果想扼殺中國大陸,中國大陸真的無能為力

      臺積電創辦人張忠謀:如果想扼殺中國大陸,中國大陸真的無能為力

      混沌錄
      2026-02-27 21:29:05
      重磅發布!“京通”APP要來了

      重磅發布!“京通”APP要來了

      家住昌平
      2026-03-02 21:27:03
      哇塞!交易界的"盲盒"要開啦!倫納德等來全明星后衛...

      哇塞!交易界的"盲盒"要開啦!倫納德等來全明星后衛...

      體育新角度
      2026-03-02 23:12:57
      氫彈威力上不封頂,但核武器有個不成文的規定:扔不到對方頭上去

      氫彈威力上不封頂,但核武器有個不成文的規定:扔不到對方頭上去

      沒有偏旁的常慶
      2026-03-01 07:00:11
      70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強,口碑兩極分化

      70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強,口碑兩極分化

      少數派報告Report
      2026-03-02 11:43:10
      演員李茂已租車開往阿曼,全家將經由阿曼乘機回國

      演員李茂已租車開往阿曼,全家將經由阿曼乘機回國

      三湘都市報
      2026-03-02 20:33:03
      伊朗稱用導彈摧毀阿聯酋“薩德”系統

      伊朗稱用導彈摧毀阿聯酋“薩德”系統

      參考消息
      2026-03-02 11:22:12
      驚!美國設“谷愛凌法案”?!沒收全部財產,背叛美國,必付代價

      驚!美國設“谷愛凌法案”?!沒收全部財產,背叛美國,必付代價

      北國向錫安
      2026-03-02 16:55:11
      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      最美的開始
      2026-02-24 19:00:14
      伊朗1200枚導彈復仇,美航母遇襲,三國準備下場,戰爭走向失控?

      伊朗1200枚導彈復仇,美航母遇襲,三國準備下場,戰爭走向失控?

      紓瑤
      2026-03-02 19:11:03
      100%賴賬,這何嘗不是一種極致的誠信!

      100%賴賬,這何嘗不是一種極致的誠信!

      財經保探長
      2026-02-28 10:46:25
      寵妾滅妻、“吸血”親爹,侄女再曝大瓜,楊議徹底活成全網笑話!

      寵妾滅妻、“吸血”親爹,侄女再曝大瓜,楊議徹底活成全網笑話!

      奇怪的鯊魚們
      2026-03-02 06:41:32
      小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

      小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

      林子說事
      2026-03-02 14:41:57
      因加速、倒放宣傳視頻引發爭議 兩家鴻蒙智行用戶中心公開致歉

      因加速、倒放宣傳視頻引發爭議 兩家鴻蒙智行用戶中心公開致歉

      中國能源網
      2026-03-02 11:47:11
      韓媒:韓國前國腳李記帝將與伊朗球隊解約,球員在大使館避難

      韓媒:韓國前國腳李記帝將與伊朗球隊解約,球員在大使館避難

      懂球帝
      2026-03-02 16:49:59
      2026-03-03 00:08:49
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4555文章數 37413關注度
      往期回顧 全部

      科技要聞

      蘋果中國官網上線iPhone 17e,4499元起

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

      體育要聞

      “想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

      娛樂要聞

      李亞鵬與哥哥和解 只有一條真心話短信

      財經要聞

      油價飆升 美伊沖突將如何攪動全球經濟

      汽車要聞

      國民SUV再添一員 瑞虎7L靜態體驗

      態度原創

      時尚
      本地
      手機
      數碼
      公開課

      今年春天一定要擁有的4件衣服,太好看了!

      本地新聞

      津南好·四時總相宜

      手機要聞

      iPhone 17系列:國內銷量已破2200萬!網友:華為仍需努力

      數碼要聞

      英偉達發布595.71 WHQL驅動,修復顯卡風扇“翻車”問題

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版