近日,美國華盛頓大學博士生邵如琳和合作團隊打造出一個名為 Deep Research Tulu(DR Tulu)的深度研究小助手。使用一次 OpenAI 的 Deep Research 服務可能需要大約 1.8 美元,而 DR Tulu 使用一次的成本卻不到 0.002 美元,這幾乎是千倍的效率提升,這意味著未來個人或者小團隊也能負擔得起高質(zhì)量、高可信度的 AI 研究服務。
DR Tulu 是一個擁有超級大腦且會熟練使用搜索引擎的科研助手。當你問它一個問題時,它不會只是簡單地給你一列網(wǎng)頁鏈接,而是會像一位真正的研究員那樣,先去思考如何解決你的問題,然后主動查找各種資料比如網(wǎng)頁和論文,最終為你整理出一份條理清晰、有根有據(jù)、帶著詳細出處說明的長篇答案。
![]()
(來源:資料圖)
DR Tulu 的表現(xiàn)大幅超越了所有其他公開可用的、專為搜索設計的 AI 模型,包括一些體型比它大的模型,證明了“小模型+好方法”也能做出大成就。
它的表現(xiàn)匹敵甚至超越了 OpenAI、Google 等公司的頂級商用深度研究系統(tǒng),比如 OpenAI 的 Deep Research、谷歌的 Gemini Pro + Search。要知道,這些系統(tǒng)背后的技術往往不公開,而且使用成本非常高昂。
同時,DR Tulu 會坦誠地承認自己的知識邊界,并主動查找和核實信息,從而盡可能減少回答中的"幻覺"。DR Tulu 還會在回答中提供詳細的文獻依據(jù),方便用戶交叉驗證。目前業(yè)界尚無成熟的訓練方法和數(shù)據(jù)來實現(xiàn)這一目標。DR Tulu 的這些能力源于一項新型訓練方法及其配套框架,使 AI 與評估器在訓練過程中協(xié)同進化、相互提升。
![]()
圖 | 邵如琳(來源:邵如琳)
為了讓 DR Tulu 成為一個優(yōu)秀的研究員,研究人員并沒有簡單地把它丟進一堆問題里去死記硬背,而是像訓練一位聰明的學徒以分為兩步走:
第一步是名師出高徒,研究人員請來幾位非常厲害的 AI 老師比如 GPT-5。這些老師本身就擅長查找資料和回答問題。研究人員讓 AI 老師們在回答成千上萬個問題的過程中,把它們?nèi)绾嗡伎肌⑷绾嗡阉鳌⑷绾谓M織答案的每一步都記錄下來。這些記錄下來的標準答案步驟,成為了 DR Tulu 學習的第一手教材。通過模仿這些步驟,DR Tulu 學會了當一名研究員的基本功。
第二步是在實戰(zhàn)中進化,光會模仿還不夠,為了讓它變得更強大,研究人員發(fā)明了一個名為帶有進化評分標準的強化學習的方法。
傳統(tǒng)方法就像老師拿著一份固定的評分表,用它來給學生的作業(yè)打分。學生可能會為了得高分,投機取巧地滿足這些死板的條目,而忽略了真正的理解和創(chuàng)造。
研究人員發(fā)現(xiàn),AI 在回答復雜問題的時候,好壞標準很難用幾張固定的評分表說清楚。于是,他們讓評分標準也跟著 AI 的學習一起進化。
具體來說,在訓練中 DR Tulu 會試著回答很多問題,并能得到多個版本的答案。然后,另一個 AI 也就是評分官會仔細對比這些答案,動態(tài)地發(fā)現(xiàn)新的優(yōu)點和缺點,并把它們作為新的評分標準。
這樣,評分標準就會越來越貼近 AI 當前的真實水平,能更好地鑒別出高質(zhì)量的回答。同時,這些標準總是基于最新搜索到的真實知識,而不是 AI 自己想象出來的內(nèi)容。這樣一來,DR Tulu 就能在不斷的挑戰(zhàn)和反饋中持續(xù)進步,學會搜索以及通過綜合信息來給出可靠的答案。
![]()
(來源:資料圖)
研究人員在四個涵蓋學術、醫(yī)療等領域的現(xiàn)有 Deep Research 基準上測試了 DR Tulu 的表現(xiàn)。結(jié)果顯示,DR Tulu 達到了當前最優(yōu)水平(SOTA),與市面上表現(xiàn)最佳的 OpenAI Deep Research 相當,而成本僅為其千分之一。
![]()
(來源:資料圖)
為了檢驗 DR Tulu 解決現(xiàn)實世界難題的能力,研究人員設計了一個新挑戰(zhàn):分析致病基因變異。這是一個非常專業(yè)的醫(yī)學遺傳學問題,需要從海量的科學論文和數(shù)據(jù)庫中查找信息,判斷一個特定的基因變異如何導致疾病,以及它是否適合采用某些前沿的治療方法比如基因療法。
為此,研究人員創(chuàng)建了包含 47 個此類問題的基因疾病問答數(shù)據(jù)集。DR Tulu 在這個它從未專門學習過的領域,表現(xiàn)出了較強的泛化能力即解決新問題的能力。它不僅能夠找到相關的科學證據(jù),還能將這些證據(jù)組織起來進行比較和綜合,清晰地解釋變異的致病機理。
雖然在最終答案上的準確性上略遜于使用最強商用大模型的系統(tǒng),但是在證據(jù)支持方面 DR Tulu 做得較為出色。對于專業(yè)用戶比如醫(yī)學用戶來說,這比一個看似正確但無法驗證的簡單答案更有價值,因為他們可以依據(jù) DR Tulu 提供的詳細引文去追溯和核實。
另據(jù)悉,研究人員針對 DR Tulu 進行了完全開放:訓練代碼、數(shù)據(jù)、模型參數(shù)等目前已經(jīng)全部公開。
參考資料:
代碼鏈接:https://github.com/rlresearch/dr-tulu
數(shù)據(jù)及模型鏈接:https://huggingface.co/collections/rl-research/dr-tulu
https://arxiv.org/abs/2511.19399
運營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.