<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      228小時狂飆100篇論文、燒光114億Token:FARS殺瘋了

      0
      分享至



      編輯|Sia

      這個春節,AI 圈最硬核的一場「真人秀」,悄然完成了階段性收官。

      主角不是動漫人物,也不是舞槍弄棒的機器人,而是一位 7×24 小時從不疲倦的 AI 科學家 FARS( Fully Automated Research System )。

      這套由 Analemma(日行跡)打造的全自動研究系統,在長達 228 小時 28 分 33 秒的連續公開運行中,自己提假設、做實驗、寫論文,共生成 244 個研究假設,「肝」出 100 篇短論文( short paper )。

      算下來,在這座流水線式的「科研工廠」中,每隔約 2 小時就有一篇論文產出。



      讓 AI 自己寫 100 篇論文目標達成,花了 228 個小時。目前,計劃持續一個月的直播仍在進行中。直播地址:https://analemma.ai/fars

      這種跳出傳統科研范式的工業級吞吐量,很快讓圍觀網友坐不住了。













      首批深度「驗貨」的專業網友給出了一個頗為一致的判斷:結果超過預期、相當出色。

      如果把它當作人類頂會論文,還不夠驚艷;但如果考慮到這是一個全自動系統的階段性產出,其完成度已經明顯超出很多人的事前預期。

      「考慮到這只是一個 AI 的自主起步,能 7×24 小時穩定產出到這個質量,還要啥自行車?」



      而且,真 work 沒有通篇幻覺。



      至少在當前階段,FARS 已經完成了一次關鍵跨越。它首次證明,一條無人值守的科研「流水線」不僅能跑,而且能在相對穩定條件下,持續產出具備一定學術競爭力的 short paper 級工作。



      「發論文這件事本身的稀缺性」被摧毀了。

      恐怖的「工業節拍」,算力正在轉化為知識

      FARS 并不是一個單體模型,而是一套多智能體系統,包括四個功能模塊:

      • Ideation(構思):負責文獻調研與假設生成
      • Planning(規劃):負責實驗方案設計
      • Experiment(實驗):負責代碼編寫與執行
      • Writing(寫作):負責論文撰寫

      從實時運行界面可以直觀看到,FARS 以項目隊列的方式并行推進多個研究任務。每個課題依次穿過 Ideation → Planning → Experiment → Writing 四個階段,流程高度模塊化,呈現出明顯的「科研裝配線」特征。



      FARS 實時運行界面:從假設生成到論文寫作,自動化科研流水線首次以可觀測形態完整展開。

      為了讓它心無旁騖的做研究,Analemma(日行跡)還給它搭建了一個 160 張顯卡的計算集群,并允許它調用幾乎任何開源和閉源大模型,實驗條件遠超大部分高校實驗室。

      而這條「流水線」的產能,已經到了讓人很難忽視的程度。在約228 小時(≈9.5 天)的連續運行周期內:

      • 系統生成244 個研究假設
      • 完成100 篇 short paper
      • 累計消耗114 億 Token
      • 總成本約10.4 萬美元(≈75 萬元人民幣)

      全程無人干預。

      進一步歸一化后,這套系統的「工業節拍」變得更加直觀:平均每隔約 2 小時 17 分就有一篇研究論文完成,平均每篇論文成本大約 1000 美元,花費 1 億多Token。

      對比人類科研常見的 3–6 個月 / 篇的周期,這種吞吐差距幾乎是數量級級別的,成本也極為低廉。



      不過,如果把目光從吞吐轉向效率,約 1.14 億 Token / 篇的消耗,已經明顯高于普通寫作生成(通常百萬級 Token )以及常見復雜 Agent 任務(通常百萬、千萬級 Token )的開銷。

      這表明,FARS 仍處于「算力換智能」的階段,其表現更多來自計算密度,而非算法效率的極限壓縮。

      綜合來看, 一方面,FARS 已經用實測結果證明,端到端自動化科研流水線在吞吐層面是切實可行的。另一方面,其當前的 Token 與成本結構,距離「足夠便宜地大規模跑」還有工程空間。

      質量:它寫得快,那寫得好嗎?

      量大,從來不自動等于質優。FARS 寫出來的東西,到底處在什么水平?

      為此,研究團隊使用斯坦福大學開發的 AI 審稿系統Agentic Reviewer( paperreview.ai ),按照 ICLR 的評審標準,對這 100 篇論文進行了統一打分。

      根據開發者公開評估,Agentic Reviewer 在審稿一致性上,已達到人類審稿人的判斷水平。



      開發者在 ICLR 2025 審稿數據 上做了對比評測,使用的是 Spearman 相關系數。人類 vs 人類:0.41;AI vs 人類:0.42。開發者認為 agentic reviewing 正在逼近人類水平。

      從整體評分結果來看,FARS 產出的 100 篇論文中,平均得分為5.05(區間 3.0–6.3)。

      少量論文處于 3.0–4.5 的低分段,也有極少數突破 6.0 分。



      FARS 論文分數主要堆在 5 分附近,說明產出質量并不是隨機波動,而是已經形成相對穩定的「質量帶」。少量樣本進入 6 分以上區間,意味著系統偶爾能產出超強作品。

      這個成績,與人類戰績相比,又如何呢?

      作為參照,ICLR 2026 人類投稿的平均分為 4.21,而最終被接收論文的平均分為 5.39。

      對照來看,FARS 的平均分 5.05,已經明顯高于人類投稿的整體平均水平,但距離「平均中稿線」仍存在差距。

      可謂比下有余,比上未滿。



      FARS 生成的學術論文平均分超過人類投稿者的平均水平,但與平均中稿分數仍有差距。

      需要再次強調的是,本次自動化生產以短論文為主,并未以當前學術會議的評審標準作為優化目標。因此,無論是斯坦福大學 Agentic Reviewer 還是其他基于現有特定審稿標準的 AI 審稿結果,都只能作為一種參照,而非蓋棺定論。

      據團隊透露,除 AI 審稿外,目前也在同步開展人工質量評審,并將在評估完成后形成綜合質量報告。

      即便在這一審慎前提下,將前后兩部分數據合并觀察,整體信號仍然較為清晰:在接近人類評審尺度的評價體系中,FARS 已然一臺穩定的中分段輸出機器

      論文深讀:

      從「極速跟進」到「直面失敗」

      如果說前面的數據與評分只能給出一條宏觀刻度,那么具體論文樣本,才真正暴露出 FARS 的研究成色。

      已有網友拆解其中一篇 LLM-as-a-Judge 工作后評價,這類論文在摘要組織與問題切入上已經相當工整。

      考慮這是 AI 自動產出,完成度已經「超出預期」。框架圖、結果圖、分析基本都齊全,「像那么回事」

      也有人覺得編號為 FA0008 的項目「 make sense 」。



      接下來,我們選擇一成一敗兩篇代表作,一探究竟。

      先看「做成」的一篇 FA0042。它瞄準的是文本embedding 里一個老矛盾:

      雙向注意力質量高,但會破壞 KV-cache;因果注意力能流式推理,但表示能力吃虧。



      FA0042 的解法非常工程導向——訓練階段用雙向拿質量,推理階段用因果保效率。具體路徑是先訓一個雙向 teacher,再把能力蒸餾進 causal student。為了避免直接切雙向帶來的分布漂移,論文還引入了剛發布不久的 GG-SM 做漸進過渡。



      結果也確實「能打」, 這條工程折中路線被驗證是 work 的。



      MTEB-slice 主要結果



      流式推理延遲對比



      LoCoV1 長文檔檢索結果。student 模型以 0.284 的 NDCG@10 大幅領先所有 baseline(包括 teacher 的 0.212 ),出人意料。

      當然,short paper 氣質也很足:細粒度成對任務提升有限,長文檔檢索反超 teacher 的機制還沒完全講透。

      但更值得注意的是,螞蟻集團的 GG-SM 發布 3 天就被接入實驗流程,這種緊跟前沿的速度,本身就是 FARS 系統敏捷性的一個信號。

      再看一篇「沒做成」的 FA0121。

      它的文獻調研很給力,盯上了 DeepSeek 新提出的 Engram 稀疏架構,并抓到了一個很研究味的問題——

      hot-to-cold advantage flip , 即 Engram 中的門控( gate )在訓練過程中難以準確根據 n-gram embedding 的實際效用進行調整,存在高頻( hot )和低頻( cold )偏置。



      為了打破這種「馬太效應」,FARS 嘗試了一個直覺上非常硬核的方案:試圖通過「反事實門控監督( CGS )」修復 DeepSeek Engram 架構中的「冷熱偏置」問題。

      在特定訓練步驟中分別強制 gate 全開和全關,計算兩種情況下的 loss 差值來估計當前 n-gram embedding 的實際效用,以此作為輔助監督信號來訓練 gate。



      FA0121 方法示意圖



      主實驗結果

      思路很直覺。但結果很誠實——基本沒救回來。

      CGS 帶來的那點提升,甚至不如讓模型多訓練幾步來得實在。這說明,要解決 AI 的偏見,光靠「教練現場打分」是不夠的,得從更深層的制度(架構)上下功夫。

      論文給出的復盤也很到位:Gate 和 n-gram embedding 的訓練是一個相互耦合的系統動力學問題,不是簡單加監督就能補的。

      這篇工作的價值正在于:它沒有試圖掩蓋負面結果,沒有為了追求正面結果而篡改數據或強行解釋,而是通過一套嚴密的診斷性實驗(Diagnostic Experiments ),反思 CGS 的失敗。

      這種「算法誠實」是當前學術界稀缺的品質。



      輿論場:

      從「又一個 Demo」到「科研流水線雛形」

      隨著 FARS 「直播真人秀」數據披露,社區討論也迅速升溫,高頻指向一個關鍵詞——生產線。

      不少圍觀者很快抓住了真正的沖擊點:這次引發不安的,并不是某一篇論文寫得多驚艷,而是系統所展現出的連續科研運轉能力。

      當一個系統能夠穩定提出假設、自動完成實驗、并持續吐出成稿時,評價坐標其實已經悄然移動。問題不再是「 AI 會不會寫論文」,而是更具結構性的那一句—— AI 是否開始具備科研工業產能的雛形。

      這種敘事重心的變化,本身就意味著社區對 AI 科研系統的預期正在抬升。一些技術討論甚至認為,LLM 在 AI 方向論文寫作上的能力已「基本夠用」,剩余差距更多體現在工程細節層面。

      「 3 個月內就可能出現非常成熟可用的自動 paper pipeline。」



      換言之,大多數人幾乎已經默認:科研流水線時代,遲早會來。真正懸而未決的問題反而是,當科研開始規模化自動生產,人類的不可替代性究竟還剩下什么?

      對此,也有人給出答案:決定上限的,或許仍是研究者個人品味。



      當然,社區并非只有單一聲音。

      有人認為,與其關注單純 scale 出大量「普通 conference paper 」,不如將算力與模型能力投入到真正困難的開放問題上,這或許才是更具長期價值的方向。



      無限心智的起點

      FARS 的這 100 篇論文,并不是終點,更像是一枚被釘下的坐標點。

      它證明了一件很重要的事:端到端自動科研流水線,已經能夠在相對穩定的運行條件下,持續產出具備一定學術競爭力的 short paper,并且開始展現出基礎的自我糾錯與負結果報告能力。

      這意味著,自動化科研第一次以一種可連續運轉的系統形態,正式進入現實。

      但如果把放大鏡再壓近一層,當前階段的天花板同樣清晰可見。

      FARS 很會把一條合理路徑走通,卻還不夠擅長在復雜假設空間中做出真正具有突破性的研究取舍;能完成結構完整的論證,但在思想壓強和機制洞察上仍有提升空間;而在算力利用率上,系統也還停留在明顯的「算力換智能」階段。

      此刻的 FARS,更像一位極度勤奮、訓練有素且從不疲倦的初級研究員,距離那種能夠穩定打出頂會級工作的成熟研究者,仍有一段需要跨越的進化距離。

      不過,真正重要的或許并不是它此刻已經多強,而是那條「無限心智生產線」,已經可以穩定地跑起來。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      夫妻春節不回家送外賣1個月賺4萬,騎手站長:青島春節補貼最高8200元,月入2萬日均需跑約70單

      夫妻春節不回家送外賣1個月賺4萬,騎手站長:青島春節補貼最高8200元,月入2萬日均需跑約70單

      大風新聞
      2026-02-24 15:44:14
      特朗普發AI視頻,化身美國冰球運動員,赤手空拳毆打加拿大運動員,圓夢“拿下加拿大”;此前特朗普稱:我想讓加拿大成第51個州

      特朗普發AI視頻,化身美國冰球運動員,赤手空拳毆打加拿大運動員,圓夢“拿下加拿大”;此前特朗普稱:我想讓加拿大成第51個州

      大風新聞
      2026-02-24 15:02:04
      為換新手機,湖南15歲少女將家中總價值13萬的奢侈品賤賣僅9300元,女孩媽媽:對于是否是未成年人,回收平臺沒審核把關

      為換新手機,湖南15歲少女將家中總價值13萬的奢侈品賤賣僅9300元,女孩媽媽:對于是否是未成年人,回收平臺沒審核把關

      大象新聞
      2026-02-24 08:48:04
      別看景區人山人海,仔細一算全是窮游,人均消費露餡,消費降級了

      別看景區人山人海,仔細一算全是窮游,人均消費露餡,消費降級了

      眼光很亮
      2026-02-22 10:37:00
      北京凌晨收到消息!特朗普徹底慌了,用三個感嘆號警告中國別亂來

      北京凌晨收到消息!特朗普徹底慌了,用三個感嘆號警告中國別亂來

      頭條爆料007
      2026-02-24 11:51:23
      傅彪兒子近照曝光!過年和張一山聚餐,生活奢華難掩35歲滿頭白發

      傅彪兒子近照曝光!過年和張一山聚餐,生活奢華難掩35歲滿頭白發

      離離言幾許
      2026-02-24 10:04:27
      重罰快船?曝聯盟可能宣布小卡現合同無效 湖人勇士將瘋狂追求他

      重罰快船?曝聯盟可能宣布小卡現合同無效 湖人勇士將瘋狂追求他

      羅說NBA
      2026-02-24 08:36:13
      雷霆躺升聯盟第一!馬刺力克活塞豪取9連勝 文班21+17+6帽

      雷霆躺升聯盟第一!馬刺力克活塞豪取9連勝 文班21+17+6帽

      醉臥浮生
      2026-02-24 10:52:51
      福布斯發布:谷愛凌收入排名第一

      福布斯發布:谷愛凌收入排名第一

      第一財經資訊
      2026-02-24 10:49:08
      美媒披露黃海對峙內情:殲-16強勢壓制F-16,韓國才是敲打對象?

      美媒披露黃海對峙內情:殲-16強勢壓制F-16,韓國才是敲打對象?

      梁訊
      2026-02-24 12:29:28
      貝加爾湖墜車事件:活下來的江蘇爸爸,往后的每一天都是煎熬

      貝加爾湖墜車事件:活下來的江蘇爸爸,往后的每一天都是煎熬

      社會日日鮮
      2026-02-23 14:05:41
      特朗普張口得罪全球,美國緊急警告中國別捅刀,中方沉默震耳欲聾

      特朗普張口得罪全球,美國緊急警告中國別捅刀,中方沉默震耳欲聾

      梁訊
      2026-02-23 20:00:07
      日媒頭條報道谷愛凌奪冠,日網友:中國隊金牌數咋跟我們一樣了

      日媒頭條報道谷愛凌奪冠,日網友:中國隊金牌數咋跟我們一樣了

      大中國
      2026-02-22 21:34:55
      3月上海,AWE廚電美食節:赴一場科技與煙火的春日之約

      3月上海,AWE廚電美食節:赴一場科技與煙火的春日之約

      中國家電網
      2026-02-24 11:08:31
      同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區別大,難怪煮出來不一樣

      同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區別大,難怪煮出來不一樣

      阿龍美食記
      2026-02-23 17:00:18
      中國在猛攻日本經濟最后的支柱——汽車工業,結局很令人意外!

      中國在猛攻日本經濟最后的支柱——汽車工業,結局很令人意外!

      青青子衿
      2026-02-14 16:41:35
      馬筱梅生子!孩子小名曝光,張蘭公布生產細節,卻被質疑太偏心!

      馬筱梅生子!孩子小名曝光,張蘭公布生產細節,卻被質疑太偏心!

      古希臘掌管月桂的神
      2026-02-24 13:45:04
      國內飛三亞跌至最低200元

      國內飛三亞跌至最低200元

      第一財經資訊
      2026-02-24 13:38:37
      朝鮮勞動黨新一屆中央政治局常委選舉產生

      朝鮮勞動黨新一屆中央政治局常委選舉產生

      澎湃新聞
      2026-02-24 07:35:04
      中央三部門重磅定調:公務員不允許彈性延遲退休!

      中央三部門重磅定調:公務員不允許彈性延遲退休!

      淺深說
      2026-02-24 13:12:00
      2026-02-24 16:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12338文章數 142569關注度
      往期回顧 全部

      科技要聞

      AI顛覆發展最新犧牲品!IBM跳水重挫超13%

      頭條要聞

      巴拿馬當局已接管長江和記兩座港口 外交部回應

      頭條要聞

      巴拿馬當局已接管長江和記兩座港口 外交部回應

      體育要聞

      蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

      娛樂要聞

      楊洋傳遇上緬北劇組 開機就離開劇組?

      財經要聞

      縣城消費「限時繁榮」了十天

      汽車要聞

      入門即滿配 威蘭達AIR版上市 13.78萬元起

      態度原創

      教育
      本地
      數碼
      藝術
      健康

      教育要聞

      如何評價高二英語難度?中考英語130,高二文章完全看不懂

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      數碼要聞

      OPPO Enco Air5 Pro 3月2日開售:54小時續航,起售價279元

      藝術要聞

      2025年第八屆全國青年美展 | 油畫作品選刊

      轉頭就暈的耳石癥,能開車上班嗎?

      無障礙瀏覽 進入關懷版