網易首頁 > 網易號 > 正文申請入駐

228小時狂飆100篇論文、燒光114億Token：FARS殺瘋了

2026-02-24 14:30:08　來源: 機器之心Pro

北京舉報

分享至

編輯｜Sia

這個春節，AI 圈最硬核的一場「真人秀」，悄然完成了階段性收官。

主角不是動漫人物，也不是舞槍弄棒的機器人，而是一位 7×24 小時從不疲倦的 AI 科學家 FARS（ Fully Automated Research System ）。

這套由 Analemma（日行跡）打造的全自動研究系統，在長達 228 小時 28 分 33 秒的連續公開運行中，自己提假設、做實驗、寫論文，共生成 244 個研究假設，「肝」出 100 篇短論文（ short paper ）。

算下來，在這座流水線式的「科研工廠」中，每隔約 2 小時就有一篇論文產出。

讓 AI 自己寫 100 篇論文目標達成，花了 228 個小時。目前，計劃持續一個月的直播仍在進行中。直播地址：https://analemma.ai/fars

這種跳出傳統科研范式的工業級吞吐量，很快讓圍觀網友坐不住了。

首批深度「驗貨」的專業網友給出了一個頗為一致的判斷：結果超過預期、相當出色。

如果把它當作人類頂會論文，還不夠驚艷；但如果考慮到這是一個全自動系統的階段性產出，其完成度已經明顯超出很多人的事前預期。

「考慮到這只是一個 AI 的自主起步，能 7×24 小時穩定產出到這個質量，還要啥自行車？」

而且，真 work 沒有通篇幻覺。

至少在當前階段，FARS 已經完成了一次關鍵跨越。它首次證明，一條無人值守的科研「流水線」不僅能跑，而且能在相對穩定條件下，持續產出具備一定學術競爭力的 short paper 級工作。

「發論文這件事本身的稀缺性」被摧毀了。

恐怖的「工業節拍」，算力正在轉化為知識

FARS 并不是一個單體模型，而是一套多智能體系統，包括四個功能模塊：

Ideation（構思）：負責文獻調研與假設生成
Planning（規劃）：負責實驗方案設計
Experiment（實驗）：負責代碼編寫與執行
Writing（寫作）：負責論文撰寫

從實時運行界面可以直觀看到，FARS 以項目隊列的方式并行推進多個研究任務。每個課題依次穿過 Ideation → Planning → Experiment → Writing 四個階段，流程高度模塊化，呈現出明顯的「科研裝配線」特征。

FARS 實時運行界面：從假設生成到論文寫作，自動化科研流水線首次以可觀測形態完整展開。

為了讓它心無旁騖的做研究，Analemma（日行跡）還給它搭建了一個 160 張顯卡的計算集群，并允許它調用幾乎任何開源和閉源大模型，實驗條件遠超大部分高校實驗室。

而這條「流水線」的產能，已經到了讓人很難忽視的程度。在約228 小時（≈9.5 天）的連續運行周期內：

系統生成244 個研究假設
完成100 篇 short paper
累計消耗114 億 Token
總成本約10.4 萬美元（≈75 萬元人民幣）

全程無人干預。

進一步歸一化后，這套系統的「工業節拍」變得更加直觀：平均每隔約 2 小時 17 分就有一篇研究論文完成，平均每篇論文成本大約 1000 美元，花費 1 億多Token。

對比人類科研常見的 3–6 個月 / 篇的周期，這種吞吐差距幾乎是數量級級別的，成本也極為低廉。

不過，如果把目光從吞吐轉向效率，約 1.14 億 Token / 篇的消耗，已經明顯高于普通寫作生成（通常百萬級 Token ）以及常見復雜 Agent 任務（通常百萬、千萬級 Token ）的開銷。

這表明，FARS 仍處于「算力換智能」的階段，其表現更多來自計算密度，而非算法效率的極限壓縮。

綜合來看，一方面，FARS 已經用實測結果證明，端到端自動化科研流水線在吞吐層面是切實可行的。另一方面，其當前的 Token 與成本結構，距離「足夠便宜地大規模跑」還有工程空間。

質量：它寫得快，那寫得好嗎？

量大，從來不自動等于質優。FARS 寫出來的東西，到底處在什么水平？

為此，研究團隊使用斯坦福大學開發的 AI 審稿系統Agentic Reviewer（ paperreview.ai ），按照 ICLR 的評審標準，對這 100 篇論文進行了統一打分。

根據開發者公開評估，Agentic Reviewer 在審稿一致性上，已達到人類審稿人的判斷水平。

開發者在 ICLR 2025 審稿數據上做了對比評測，使用的是 Spearman 相關系數。人類 vs 人類：0.41；AI vs 人類：0.42。開發者認為 agentic reviewing 正在逼近人類水平。

從整體評分結果來看，FARS 產出的 100 篇論文中，平均得分為5.05（區間 3.0–6.3）。

少量論文處于 3.0–4.5 的低分段，也有極少數突破 6.0 分。

FARS 論文分數主要堆在 5 分附近，說明產出質量并不是隨機波動，而是已經形成相對穩定的「質量帶」。少量樣本進入 6 分以上區間，意味著系統偶爾能產出超強作品。

這個成績，與人類戰績相比，又如何呢？

作為參照，ICLR 2026 人類投稿的平均分為 4.21，而最終被接收論文的平均分為 5.39。

對照來看，FARS 的平均分 5.05，已經明顯高于人類投稿的整體平均水平，但距離「平均中稿線」仍存在差距。

可謂比下有余，比上未滿。

FARS 生成的學術論文平均分超過人類投稿者的平均水平，但與平均中稿分數仍有差距。

需要再次強調的是，本次自動化生產以短論文為主，并未以當前學術會議的評審標準作為優化目標。因此，無論是斯坦福大學 Agentic Reviewer 還是其他基于現有特定審稿標準的 AI 審稿結果，都只能作為一種參照，而非蓋棺定論。

據團隊透露，除 AI 審稿外，目前也在同步開展人工質量評審，并將在評估完成后形成綜合質量報告。

即便在這一審慎前提下，將前后兩部分數據合并觀察，整體信號仍然較為清晰：在接近人類評審尺度的評價體系中，FARS 已然一臺穩定的中分段輸出機器

論文深讀：

從「極速跟進」到「直面失敗」

如果說前面的數據與評分只能給出一條宏觀刻度，那么具體論文樣本，才真正暴露出 FARS 的研究成色。

已有網友拆解其中一篇 LLM-as-a-Judge 工作后評價，這類論文在摘要組織與問題切入上已經相當工整。

考慮這是 AI 自動產出，完成度已經「超出預期」。框架圖、結果圖、分析基本都齊全，「像那么回事」

也有人覺得編號為 FA0008 的項目「 make sense 」。

接下來，我們選擇一成一敗兩篇代表作，一探究竟。

先看「做成」的一篇 FA0042。它瞄準的是文本embedding 里一個老矛盾：

雙向注意力質量高，但會破壞 KV-cache；因果注意力能流式推理，但表示能力吃虧。

FA0042 的解法非常工程導向——訓練階段用雙向拿質量，推理階段用因果保效率。具體路徑是先訓一個雙向 teacher，再把能力蒸餾進 causal student。為了避免直接切雙向帶來的分布漂移，論文還引入了剛發布不久的 GG-SM 做漸進過渡。

結果也確實「能打」，這條工程折中路線被驗證是 work 的。

MTEB-slice 主要結果

流式推理延遲對比

LoCoV1 長文檔檢索結果。student 模型以 0.284 的 NDCG@10 大幅領先所有 baseline（包括 teacher 的 0.212 ），出人意料。

當然，short paper 氣質也很足：細粒度成對任務提升有限，長文檔檢索反超 teacher 的機制還沒完全講透。

但更值得注意的是，螞蟻集團的 GG-SM 發布 3 天就被接入實驗流程，這種緊跟前沿的速度，本身就是 FARS 系統敏捷性的一個信號。

再看一篇「沒做成」的 FA0121。

它的文獻調研很給力，盯上了 DeepSeek 新提出的 Engram 稀疏架構，并抓到了一個很研究味的問題——

hot-to-cold advantage flip , 即 Engram 中的門控（ gate ）在訓練過程中難以準確根據 n-gram embedding 的實際效用進行調整，存在高頻（ hot ）和低頻（ cold ）偏置。

為了打破這種「馬太效應」，FARS 嘗試了一個直覺上非常硬核的方案：試圖通過「反事實門控監督（ CGS ）」修復 DeepSeek Engram 架構中的「冷熱偏置」問題。

在特定訓練步驟中分別強制 gate 全開和全關，計算兩種情況下的 loss 差值來估計當前 n-gram embedding 的實際效用，以此作為輔助監督信號來訓練 gate。

FA0121 方法示意圖

主實驗結果

思路很直覺。但結果很誠實——基本沒救回來。

CGS 帶來的那點提升，甚至不如讓模型多訓練幾步來得實在。這說明，要解決 AI 的偏見，光靠「教練現場打分」是不夠的，得從更深層的制度（架構）上下功夫。

論文給出的復盤也很到位：Gate 和 n-gram embedding 的訓練是一個相互耦合的系統動力學問題，不是簡單加監督就能補的。

這篇工作的價值正在于：它沒有試圖掩蓋負面結果，沒有為了追求正面結果而篡改數據或強行解釋，而是通過一套嚴密的診斷性實驗（Diagnostic Experiments ），反思 CGS 的失敗。

這種「算法誠實」是當前學術界稀缺的品質。

輿論場：

從「又一個 Demo」到「科研流水線雛形」

隨著 FARS 「直播真人秀」數據披露，社區討論也迅速升溫，高頻指向一個關鍵詞——生產線。

不少圍觀者很快抓住了真正的沖擊點：這次引發不安的，并不是某一篇論文寫得多驚艷，而是系統所展現出的連續科研運轉能力。

當一個系統能夠穩定提出假設、自動完成實驗、并持續吐出成稿時，評價坐標其實已經悄然移動。問題不再是「 AI 會不會寫論文」，而是更具結構性的那一句—— AI 是否開始具備科研工業產能的雛形。

這種敘事重心的變化，本身就意味著社區對 AI 科研系統的預期正在抬升。一些技術討論甚至認為，LLM 在 AI 方向論文寫作上的能力已「基本夠用」，剩余差距更多體現在工程細節層面。

「 3 個月內就可能出現非常成熟可用的自動 paper pipeline。」

換言之，大多數人幾乎已經默認：科研流水線時代，遲早會來。真正懸而未決的問題反而是，當科研開始規模化自動生產，人類的不可替代性究竟還剩下什么？

對此，也有人給出答案：決定上限的，或許仍是研究者個人品味。

當然，社區并非只有單一聲音。

有人認為，與其關注單純 scale 出大量「普通 conference paper 」，不如將算力與模型能力投入到真正困難的開放問題上，這或許才是更具長期價值的方向。

無限心智的起點

FARS 的這 100 篇論文，并不是終點，更像是一枚被釘下的坐標點。

它證明了一件很重要的事：端到端自動科研流水線，已經能夠在相對穩定的運行條件下，持續產出具備一定學術競爭力的 short paper，并且開始展現出基礎的自我糾錯與負結果報告能力。

這意味著，自動化科研第一次以一種可連續運轉的系統形態，正式進入現實。

但如果把放大鏡再壓近一層，當前階段的天花板同樣清晰可見。

FARS 很會把一條合理路徑走通，卻還不夠擅長在復雜假設空間中做出真正具有突破性的研究取舍；能完成結構完整的論證，但在思想壓強和機制洞察上仍有提升空間；而在算力利用率上，系統也還停留在明顯的「算力換智能」階段。

此刻的 FARS，更像一位極度勤奮、訓練有素且從不疲倦的初級研究員，距離那種能夠穩定打出頂會級工作的成熟研究者，仍有一段需要跨越的進化距離。

不過，真正重要的或許并不是它此刻已經多強，而是那條「無限心智生產線」，已經可以穩定地跑起來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

OpenAI大佬爆料：本科生靠一篇博客殺進OpenAI！沒博士，0篇論文

新智元 2026-02-23 21:14:12
2 跟貼 2
AI模型燒掉的Token，對應多少GDP？AI的經濟貢獻現在有數了

機器之心Pro 2026-02-23 19:01:38
1 跟貼 1

多模態DeepResearch，成了！

機器之心Pro 2026-02-24 14:33:16
0 跟貼 0

期待科技公司更多“商戰” | 小白商業觀

經濟觀察報 2026-02-24 16:04:04
0 跟貼 0
春節AI暗戰

鈦媒體APP 2026-02-24 15:56:17
0 跟貼 0

AI 助手這么多，只有它是真踩過雷的

愛范兒 2026-02-24 16:02:13
0 跟貼 0

AI重構內容工業+海外變現驗證，漫劇會是2026年最強風口嗎？

華爾街見聞官方 2026-02-24 15:37:48
0 跟貼 0
小伙用紙做實驗，推翻老輩子的理論，紙包得住火！

閃拍玩家 2026-02-23 08:59:04
2 跟貼 2

作者很可能照單全收審稿人推薦的文獻——一本消化病學期刊的例子

醫咖會 2025-10-27 19:53:01
0 跟貼 0
一作者被拒稿，理由是與其他研究過于相似，才發現論文早已被他人發表

醫咖會 2026-02-05 19:22:40
0 跟貼 0
不成熟的實驗，最終只會害了自己

阿朵看劇 2026-02-22 15:33:45
20 跟貼 20
本碩博畢業于山東農業大學，西北農林科技大學副教授以通訊作者身份在一區Top期刊上發表研究論文

植物研究進展 2026-02-23 23:17:31
4 跟貼 4
這么奇特的實驗你見過嗎？

科學大搜索 2026-02-21 17:05:17
1 跟貼 1
空氣動力學？聽起來好像很高級，但是一點都不難

科技樹科普 2026-02-20 13:58:19
115 跟貼 115
劍走偏鋒！美海軍研新導彈，想一招廢掉中俄空中作戰體系

包明說 2026-02-22 17:05:12
16 跟貼 16
海南寒假“留校族”的青春圖譜丨教育周刊

北青網-北京青年報 2026-02-24 15:12:04
0 跟貼 0
實探"中國最大高速收費站"：車燈匯成流動的光帶

極目新聞 2026-02-23 18:57:24
4574 跟貼 4574
比灣灣本島更難打？東引島地下防御體系與反登陸作戰分析

小雨和雄大 2026-02-24 03:22:32
7 跟貼 7
阿根廷體系升級：梅西不再孤軍，全員作戰沖世界杯

舍子花 2026-02-22 01:32:06
4 跟貼 4
我也想要這樣的模型

橙子愛說劇 2026-02-23 17:43:50
1 跟貼 1
不但機械要厲害，控制的算法更厲害，網友瞬間不淡定了

姜江愛搞笑 2026-02-20 16:24:00
0 跟貼 0
時光服P3內容全曝光！提前上線追趕機制，甚至帶來兩把橙武

一起玩魔獸硬核哥 2026-02-22 11:04:27
0 跟貼 0
2026泊車終極修羅場！四大熱門車型三關死斗，硬件算法全曝光！

駕享來電 2026-02-21 08:32:30
7 跟貼 7
突發訃告！吳冠蕓教授逝世，享年101歲

梅斯醫學 2026-02-24 07:52:02
4 跟貼 4
韓國三次強行廢除漢字，反而確診“中國拼音”癥，韓國人又破防了

梁訊 2026-02-24 13:31:18
0 跟貼 0
馬年開工，開工大吉！

天府發布 2026-02-24 13:38:41
0 跟貼 0
300多只東北虎“輕斷食”？景區：每天斷食1個園，司機會帶游客找可投喂區

封面新聞 2026-02-23 16:29:03
1660 跟貼 1660
男子在五米墻上跳下來，技術零幀起手，一般人在上面站著都腿軟！

逗趣冒險家 2026-02-23 16:27:22
1 跟貼 1
學會這個接線技術，工資至少漲到8000元，很多電工都不會

凌雨肖大面包 2026-02-23 07:42:56
0 跟貼 0
體系圍著他轉，這就是梅西

秘密大爆炸 2026-02-20 10:07:36
1 跟貼 1
攝影界來了個“天才”！江蘇一網友把老虎拍得比山大，細看發現是“近大遠小” 的視覺錯位，網友：刷到你之前我簡直在亂拍

極目新聞 2026-02-23 16:30:17
962 跟貼 962
美國專家：漢字是全球唯一超越時空的文字，這一優勢碾壓英法俄語

聞識 2026-02-24 12:23:30
1 跟貼 1
哈爾濱冰雪大世界：正式閉園

大風新聞 2026-02-21 20:36:03
1869 跟貼 1869
美貿易代表威脅：和中歐日韓的協議依然算數都得履行

澎湃新聞 2026-02-23 22:58:16
164 跟貼 164
狗子前一秒懶洋洋地跑著，后一秒就跟自行車匹配上了，網友：長得就跟空氣動力學一樣

星沙時報 2026-02-23 15:08:12
6 跟貼 6
韓國要求俄使館撤下宣傳條幅，俄方：此為全體俄羅斯人所熟知，無意冒犯任何人

文匯報 2026-02-24 04:20:05
968 跟貼 968
為啥老人都覺得空調不能長時間吹？網友：我正常夏天不離開空調

帶你感受人間冷暖 2026-02-23 01:10:08
1 跟貼 1
三菱造船株式會社等20家日本實體被列入管控名單

新華社 2026-02-24 10:04:20
125 跟貼 125
你看日本木工是怎么接木棍的？不用榫卯技術也不用釘子，太先進了

小Q不是導盲犬 2026-02-24 07:58:03
0 跟貼 0
港股AI應用股走強智譜漲超15%

財聯社 2026-02-24 10:50:08
1 跟貼 1

夫妻春節不回家送外賣1個月賺4萬，騎手站長：青島春節補貼最高8200元，月入2萬日均需跑約70單

機器之心Pro

專業的人工智能媒體

12338文章數 142569關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

本地

數碼

藝術

健康

手機 / 數碼

房產 / 家居

228小時狂飆100篇論文、燒光114億Token：FARS殺瘋了

AI顛覆發展最新犧牲品！IBM跳水重挫超13%

巴拿馬當局已接管長江和記兩座港口 外交部回應

巴拿馬當局已接管長江和記兩座港口 外交部回應

蘇翊鳴總結米蘭征程：我仍是那個熱愛單板滑雪的少年

楊洋傳遇上緬北劇組 開機就離開劇組？

縣城消費「限時繁榮」了十天

態度原創

如何評價高二英語難度？中考英語130，高二文章完全看不懂

春花齊放2026：《駿馬奔騰迎新歲》

OPPO Enco Air5 Pro 3月2日開售：54小時續航，起售價279元

2025年第八屆全國青年美展 | 油畫作品選刊

轉頭就暈的耳石癥，能開車上班嗎？

巴拿馬當局已接管長江和記兩座港口外交部回應

巴拿馬當局已接管長江和記兩座港口外交部回應

楊洋傳遇上緬北劇組開機就離開劇組？