網易首頁 > 網易號 > 正文申請入駐

百度AI這次終于行了？對比評測“更靠譜、更能干”的ERNIE X1.1

2025-09-12 07:17:59　來源: AI先鋒官

北京舉報

分享至

作者｜畢樂天

來源｜AI先鋒官

AI的通病：愛“瞎說”，不“聽話”

你一定遇到過：

讓AI寫報告，它給你編一半。

給它復雜任務，它轉頭就忘。

這就是多數AI的現狀：不可靠。

針對這個問題，百度推出了文心大模型X1.1，一個號稱會“深度思考”的AI，專治“不靠譜”和“不聽話”。

X1.1強在哪？三點升級

和只會“背答案”的AI不同，X1.1更像一個會“解題”的學霸。它能分析、規劃、推理。

1. 更靠譜：事實性提升34.8%

大幅減少了胡編亂造的可能。查資料、寫報告，更放心。

2. 更聽話：指令遵循能力提升12.5%

能準確理解并執行復雜指令，不再輕易跑偏。

3. 更能干：智能體能力提升9.6%

接到一個大任務，它能自己規劃步驟、調用工具、最終完成。像一個AI項目助理。

體驗渠道：

“文心一言”官網或“文小言”App。

實戰測試：它到底行不行？

我們設計了三個挑戰，來檢驗它的真實能力。

挑戰一：當編劇，寫穿越故事

任務：創作“唐僧師徒穿越到2025年”的故事。

結果：故事邏輯嚴謹，框架完整。但在創意和腦洞方面，表現略保守，不如Kimi等模型天馬行空。

百度

kimi

結論：適合構建邏輯自洽的敘事，而非追求極致創意。

挑戰二：當實習生，策劃“火星團建”

任務：為公司策劃一場“火星探索”主題的團建活動。

測試結果：

文心X1.1：表現驚艷，像個項目總監。它沒有直接寫方案，而是先列出了思考步驟和任務規劃。然后，它自主調用了網絡搜索、思維導圖、代碼分析等多種工具，一步步完成資料搜集、框架搭建和預算分析。最后交付的是一份結構完整的項目計劃書。
其他多數模型：更像小組組員。它們通常會直接生成一大段文本，內容零散，缺乏規劃和工具協同，需要用戶自己去整理和深化。

結論：表現不像內容生成器，更像一個能獨立工作的項目助理。

挑戰三：當學霸，輔助寫論文

任務：為學術論文查找資料。

測試結果：

文心X1.1：表現得像個嚴謹的學術助理。它能直接調用“百度學術”這樣的專業數據庫，提供的文獻來源清晰、可追溯，最新的數據，有效避免了AI最常見的“一本正經胡說八道”問題。
其他模型：有些模型可能會依賴內部知識庫進行回答，雖有查找百度學士但都是很早之前的信息，存在信息過時或憑空捏造引用的風險，需要用戶花費大量時間進行事實核查。

結論：在學術研究等對準確性要求高的場景中，非常實用。

對比Kimi、GPT，它是什么水平？

X1.1的定位是“特長生”，而非“全能冠軍”。

核心優勢

邏輯強，事實準：工作和學習場景下的首選，尤其適合報告、分析等專業領域。
任務搞得定：能自主規劃并協同工具完成復雜任務，這是它最大的差異化優勢。
價格有競爭力：性能對標DeepSeek-R1，價格只要一半。后續的Turbo版價格又降了50%。

相對弱點

創意生成偏保守：在純粹追求趣味性和想象力的場景，表現不如以創意見長的模型靈動。

一句話總結：干活用它，娛樂找別人。

它能為我做什么？

學生 → 超級學霸助理

寫論文：幫你找真實文獻，杜絕引用風險。
復習：把課堂筆記一鍵生成思維導圖，提高效率。

職場人 → 免費AI實習生

工作流自動化：寫周報、做PPT大綱、分析數據、策劃活動，下達指令即可。
信息處理：快速閱讀長篇報告，提煉核心觀點。

普通用戶 → 可靠的知識伙伴

回答生活問題時，它會先“深度思考”，提供更全面、靠譜的答案。

結論

百度文心X1.1是一個強大、理性、高效的生產力工具。

它的核心價值是幫你“搞定工作”。

想試試？

電腦搜索：“文心一言”

親身體驗，最能說明問題。

掃碼邀請進群，我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學一些AI搞錢技能。

往期文章回顧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.