網易首頁 > 網易號 > 正文申請入駐

2026開年王炸模型MiroThinker 1.5實測：谷歌沒做到的被它做到了

2026-01-19 19:58:45　來源: AI寒武紀

江蘇舉報

分享至

作為一個每天需要處理海量信息的自媒體從業者，我最近有一種深深的疲憊感。

我們原本以為AI是解藥，但現在LLM它們給我的感覺更像一個技藝高超的速記員，你問它任何問題，它都能秒回，文筆流暢，邏輯看似通順。但當你去核實細節時，往往會發現它在一本正經地胡說八道，要么給的全是我愿稱為“失焦”的流水賬式的內容，你說錯吧，倒是全是正確的廢話，包括ChatGPT 和 Gemini的深度研究功能

在投資決策、深度寫作、技術調研這些容錯率極低的場景下，“大概率正確”=“不可用”。

我們需要的不只是一個會說話的AI，而是一個嚴謹的科學家。它應該是不自信的，是多疑的，是在開口回答之前，先去翻閱成百上千份資料，交叉驗證后才敢下結論的。

最近，我在 GitHub上發現了一個名為 MiroThinker 的開源深度研究項目，這個項目最近發布了 1.5 版本，此前曾憑借成功預測 Polymarket 題目，連續登頂 Future X全球榜首，力壓諸多國際頂尖機構和閉源商業模型，堪稱2026年開年智能體領域的”黑馬“模型，僅使用 300 億（30B）個參數即可實現與萬億參數模型相當的性能。

它的思路讓我眼前一亮：它不拼參數規模，而是把技能點全點在了去偽存真上，這點很打動我，我抱著試一試的態度去體驗了一下，說實話還真有點東西，可以說完全超出了我的預期

廢話不多說，看我的實測

地址在這：

https://dr.miromind.ai/

實測

打開MiroThinker界面長這樣：

先小試牛刀，我拋出了一個爭議且沒有標準答案的問題。請看MiroThinker是如何一步步拆解的：

2026年人類會實現AGI嗎？如果會，是那家公司會率先宣布實現AGI，為什么

直接放結論：

在這個case中，MiroThinker 并沒有簡單地羅列新聞，而是進行了多輪檢索、交叉驗證、定義對齊，最終給出了一個基于概率的判斷，整個思考過程全部攤開給你看，你能清楚看到模型在做什么，層層遞進，邏輯嚴密

我們來拆解一下

1：結構化拆解

MiroThinker它像一個嚴謹的分析師，先把問題拆解成了三個具體的求證方向：

1. 學術界和預測市場怎么看？（宏觀概率）
2. OpenAI、xAI、Google的具體路線圖是什么？（微觀證據）
3. 現在的技術基準分是多少？（客觀現狀）

2：飽和式廣度檢索

注意看它的搜索路徑，它不是只搜了一次

為了回答這一個問題，它自主進行了近10輪的深度檢索

它不僅看了通用的新聞，還去翻閱了斯坦福的專家報告、Metaculus預測市場數據、甚至是由于OpenAI內部泄露的研究員路線圖

這種“不把底朝天不罷休”的檢索深度，確保了它掌握的信息比大多數人類研究員還要全面

3：對抗性交叉驗證

這是最顯功力的地方——去偽存真

它檢索到了馬斯克說“2026年實現”，但它沒有輕信，而是立刻找來“現有技術自動化率僅2.5%”和“長期記憶得分為0”的硬數據進行對沖

它通過對比由于商業利益驅動的公關話術和冷冰冰的技術指標，最終判斷：

2026實現概率低于（20-30%）。它沒有順著熱點炒作，而是幫你回歸理性

4：基于證據鏈的精準推演

看這個結論，太犀利了

它沒有止步于可能與不可能，而是給出了極具洞察的推演：如果2026年真的有人宣布AGI，大概率是馬斯克的xAI

為什么？因為它分析了各家的行事風格和行業最新現狀——OpenAI更謹慎（目標定在2028），而xAI有最激進的資本投入和馬斯克的個人風格

這不再是簡單的搜索總結，這是有邏輯、有觀點的深度研報

以上過程回放：

https://dr.miromind.ai/share/9c9efccf-77ff-4dbc-91c7-bac1695f904c

剛才只是小試牛刀，現在我給它拋出了兩個充滿噪聲的真實難題

場景一：在滿天飛的消息中，尋找確定性（財經/決策場景）

注意以下僅為技術展示，不構成投資金建議

實測case：假設我有10萬閑錢，想在當前A股環境下做一個月的短線。請基于最新的貨幣政策、市場情緒和資金流向，幫我梳理出風險與機會，并給出證據鏈

這個場景是金融領域最復雜的“預測+決策”問題。如果問普通AI，它大概率會給我生成一段萬金油式的“股市有風險，投資需謹慎”，再加上幾句正確的廢話

這是一個最讓AI頭疼的問題：既要有宏觀視野，又要落實到具體操作，還不能說假話

看看 MiroThinker 是怎么交卷的：

1：拒絕模棱兩可，直接鎖定核心矛盾

MiroThinker 直接抓住了當前A股的核心矛盾：央行適度寬松的定調 vs 兩融余額創歷史新高的杠桿風險

它在回答前就明確了：現在不是底部撿便宜，而是高位強勢期，策略必須變。

2：像情報官一樣挖掘“真金白銀”的動向

嘴上說的不算，真金白銀才是誠實的。MiroThinker 不僅看新聞，還去扒了龍虎榜和ETF資金流向它發現雖然大盤在漲，但資金在瘋狂加杠桿（兩融創新高），同時外資在掃貨半導體和有色

3：政策穿透力

A股是政策市。MiroThinker 展現了強大的政策穿透力。它敏銳地捕捉到了工信部《有色金屬行業穩增長工作方案》和國家航天局的行動計劃

它告訴你：為什么這兩個板塊能漲？因為國家在后面推。這種邏輯歸因，比單純看K線靠譜得多

4：給出可執行的“倉位配方”

給了一套風控模型

? 40%買保險/高股息做防守；
? 40%做有色/順周期吃波段；
? 20%玩科技/題材博彈性。

這哪里是AI，這簡直是一個老練的基金經理在手把手教你配置資產

5：嚴謹的風險提示（不是免責聲明）

它沒有一味唱多。它明確警告：半導體市盈率百分位95%+，容錯率極低。這種冷靜的潑冷水，在牛市氛圍中價值千金。它是在保護你的本金。

它沒給我財富密碼，但它幫我穿透了噪聲。它像一個冷靜的分析師，幫我把情緒剝離，只看證據

回放：

https://dr.miromind.ai/share/78e5d0a0-2053-4557-b841-4b0d5b06b530

場景二：內容查證場景，對抗“標題黨”的終極測試

實測case：“我是一個每天習慣喝 3 罐無糖可樂的上班族。我看新聞說世衛組織（WHO）把阿斯巴甜列為了‘致癌物’，搞得我很焦慮

請幫我查證：

1. WHO 原始報告中關于‘致癌劑量’的具體定義是什么？
2. FDA 或 JECFA（食品添加劑專家委員會）對此持什么態度？
3. 基于我的飲用量（每天3罐），我真的面臨顯著的致癌風險嗎？請用數據說話，不要給我模棱兩可的建議。”

這個例子展示了MiroThinker強大的信息查證、概念辨析和數據計算能力

第一步：概念辨析——不僅是搜新聞，更是讀懂新聞

面對“阿斯巴甜致癌”的全網恐慌，MiroThinker 沒有跟風營銷號

它第一步就做出了關鍵的概念切割：

IARC（國際癌癥研究機構）：只負責貼標簽（有沒有可能致癌），不負責談劑量。它列為 2B 類只代表“證據有限”，連泡菜和手機輻射都在這個類別里

JECFA（食品添加劑專家委員會）：才是負責定“安全標準”的。

這一步“定義校準”，直接把 90% 的無效焦慮過濾掉了

第二步：數據計算——拒絕模糊建議，直接上算術題

普通的 AI 可能會說：“建議您適量飲用”。什么叫適量？MiroThinker 拒絕廢話，直接運行python程序：

? 設定你的體重
? 設定每罐可樂的阿斯巴甜含量（200mg）。
? 對比 JECFA 的安全標準（40mg/kg）。

計算結果一目了然：你每天攝入 600mg，而安全上限是 2800mg。

它用數據告訴你：你目前只用掉了 21% 的“安全額度”

第三步：權威信源——FDA 的“硬剛”態度

為了讓你徹底放心，它還引入了“第三方證人”

它查到了 FDA（美國食品藥品監督管理局）的官方聲明，FDA 不僅維持了更寬松的標準（50mg/kg），甚至直接公開反對IARC 的分類結論

第四步：終極結論——給焦慮畫上句號

最后，它給出了一個不含糊的結論：

基于現有最權威的證據，你每天 3 罐的習慣，在癌癥風險上不屬于‘顯著危險’。”

看到這里，我手里的無糖可樂瞬間更香了

回放：

https://dr.miromind.ai/share/e45955fa-5c5e-462a-a93f-9b493cd606ae

在這個案例中，MiroThinker 展現的不是聊天能力，而是調查記者+數據分析師的能力。它不生產情緒，它只負責用嚴謹的邏輯和數據，把真相還給你

我把同樣的問題拋給了ChatGPT 深度研究，用時半小時，給我的報告我簡直讀不下去

我把ChatGPT結論貼出來，大家看看，還是像流水賬一樣的東西，前面一段很官方的敘述，感覺不到是在替你解決問題，解決困惑，嚴重缺乏MiroThinker那種邏輯嚴密層層遞進的分析最后得出嚴謹的結論的感覺

以上就是我的測試

MiroThinker 1.5的背后的技術

MiroThinker 1.5 的出現，揭示了一個被行業忽視的真相：大模型的未來，或許不在于把腦子練得更“重”，而在于把手練得更“勤”

底層哲學的質變：從“做題家”到“科學家”

傳統大模型（做題家模式）：

目前的 Scaling Law（縮放定律）本質上是在培養“做題家”。它們試圖把全人類的知識（包括錯誤和噪聲）通過死記硬背塞進萬億參數里

弊端：一旦遇到生物學、前沿科技等訓練集里沒有的未知問題，它們就會基于概率分布“編”一個看似合理的答案——這就是幻覺的根源。

MiroThinker（科學家模式）：

MiroThinker 1.5 放棄了全知全能的幻想，轉而擁抱“發現式智能”

核心：它被訓練成一個嚴謹的科學家。遇到難題，它的第一反應不是瞎猜，而是執行一個慢思考的研究閉環：提出假設 → 向外部世界查證 → 發現矛盾 → 修正假設 → 再查證 → 直到證據收斂。

結論：智能的增長不再依賴內部參數的無限膨脹，而是依賴外部交互（Interactive Scaling）的深度與廣度。

核心黑科技：Training-time Interactive Scaling（訓練時交互擴展）

許多“搜索AI”只是在模型外面掛了一個搜索插件，而 MiroThinker 1.5 將交互內化為了模型的本能

在 v1.5 的訓練階段，團隊引入了一套殘酷的獎懲機制，徹底改變了模型的行為邏輯：

Evidence-Seeking（主動求證本能）：

模型不再被獎勵“直接給出答案”，而是被獎勵“把問題拆解并找到證據”。如果模型給出了一個高置信度的結論卻缺乏信源支撐，它在訓練中會受到系統性的懲罰。

Iterative Verification（自我否定與修正）：

它打破了傳統思維鏈（CoT）的線性邏輯。傳統模型一旦第一步推錯了，后面就會步步錯（邏輯坍塌）。而 MiroThinker 被訓練成允許“反復橫跳”——在交互中發現證據沖突時，必須顯式地否定自己之前的假設，并修正路徑。

Anti-Hallucination（反幻覺機制）：

系統性過濾“捷徑”。如果模型試圖通過記憶或統計概率來猜答案（偷懶），而不是去查證，會被標記為低質量推理。

結果：MiroThinker 1.5 不需要把整個互聯網背在腦子里（所以參數只有 30B-235B），它學會了在需要的時候，快速、精準地向外部世界“借力”。

破解“上帝視角”：時序敏感訓練沙盒 (Time-Sensitive Training Sandbox)

為什么很多 AI 預測未來不僅不準，還經常“穿越”？因為它們在訓練時開了“上帝視角”——它們在學歷史數據時，已經看過了“未來的答案”。

MiroThinker 構建了一個嚴格受控的時序沙盒

拒絕劇透：訓練時，模型被強制戴上了“時間枷鎖”。當它回答一個 2023 年的問題時，系統嚴禁它訪問 2024 年的信息

動態真理：每一道題的“正確答案”不再是靜態的，而是隨著時間戳動態演化的。

因果律約束：這迫使模型必須在信息不完備、充滿噪聲的真實環境下，像人類一樣去推演未來，而不是簡單地復述歷史。

MiroThinker 1.5 證明了“高智效比”才是 AI 的未來。它不追求擁有一個最重的腦子（萬億參數），而是培養了一雙最勤快的手（高頻交互）

這也是他為什么它能用極低的推理成本（$0.07），跑出比肩巨型模型的實戰效果

就我的體驗來說，MiroThinker 1.5它的思考的過程和給出的結論都非常像人類，你能真實的感受它是給人看的，它或許不能直接給我財富密碼，但它給了我一種在復雜世界里保持理性、抓住重點的方法論，且它的效率比人類高出非常多，目前無論是GPT-5，Gemini，Claude ，還是DeepSeek的智能目前都表現出為一種鋸齒狀智能，MiroThinker 1.5本身的定位是擁抱發現式智能，也許這是解決問題的可行的路徑

體驗網站：

https://dr.miromind.ai/

Github代碼地址：

https://github.com/MiroMindAI/MiroThinker

MiroFlow開源框架：

https://github.com/MiroMindAI/MiroFlow

Hugging Face模型下載：

https://huggingface.co/miromind-ai/MiroThinker-v1.5-235B

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.