![]()
晚點測評 14 款大模型。
文丨賀乾明
編輯丨黃俊杰
到今年 11 月,中國有上億人每天打開大模型助手應用,解決工作和生活中遇到的問題。與去年 4 月我們第一次測評大模型能力時相比,這一數字增長超過 900%。
在大模型公司的宣傳中,各種大模型能力基準測試得分持續增長。但這些得分并不直接對應日常使用體驗,尤其當你不需要研究數學的話。
過去一個多月,我們訪談了十多位工作中經常使用大模型的人,結合社交媒體上廣泛傳播的用例,設定 15 個日常工作相關的問題,測評國內外 14 款大模型,包括最近上線的 GPT-5.1、Claude Opus 4.5、Gemini 3 Pro、文心 5.0、Kimi K2 Thinking 等模型。
本次評測我們不涉及編程工作、agent 和深度研究,也沒有用需要基礎編程的復雜處理方式,交互都在對話框內完成。
![]()
測試中,我們全用中文提問,每個問題單開一個對話框,選大模型第一次回答的結果。我們讓大模型相互盲評,用來輔助判斷開放式問題的結果。
我們累計與不同的模型助理交互超千次。大模型的回答有一定隨機性,這不是完全嚴謹的評測,但更接近現實使用場景。之后評測將定期更新。
多人多輪頭腦風暴:海外模型情商較高,阿里千問最會勸老板
角色扮演是大模型的強項。ChatGPT 引發大模型潮流之后,市場上迅速出現相關的大模型應用,比如 Character.ai、星野、貓箱等。它的潛力不只有陪人聊天,已經有社會學者用大模型生成 “硅基樣本”,用來模擬人類的行為模式,稱 “可復現性強、成本低廉、規避因樣本選擇不當而產生的偏差”。
它也可以用來頭腦風暴。我們參考 Reddit 論壇中數千人點贊的大模型使用場景,在大模型的協助下,設置一組問題,用來測試它們的能力。第一個問題是:
我要創建一個由 8 個不同人格角色組成的個人決策委員會,每個角色代表一種獨特的思維方式。這些人格將作為我的私人智囊團。每當我遇到問題時,他們會從不同視角給我提供建議。以下是 8 位委員會成員的定位和思維模式:
- 保守主義者(謹慎、規避風險),專注責任感、道德觀和結構化思維。提供謹慎且合乎倫理的視角,確保我不會做出魯莽的決定。
- 樂觀主義者(只看到潛在好處),鼓勵積極進取。幫助識別機遇并激勵我追求財務和事業上的提升。
- 現實主義者(平衡利弊) ,有遠見,但很務實,既能宏觀思考又能腳踏實地。確保我的想法有野心又切實可行。
- 反叛主義者(挑戰常規),自律,有極度抗壓能力。推動我突破舒適區,確保我不甘于平庸。
- 直覺主義者(感性、本能驅動),引導我相信直覺,讓決策與個人成就感和人際關系相契合,而不是只靠邏輯或利益得失。
- 數據分析專家(數據驅動,邏輯導向),運用第一性原理思維和數據分析,按照邏輯拆解問題并消除情感偏見。
- 戰略專家(戰術型、戰爭思維、長期規劃者),將決策視為一場策略與耐心的博弈,能預見多步之后的局面。
- 公關專家(富有說服力、魅力四射、社交靈活),深諳人際溝通技巧,擁有極強的說服能力,確保我做出的選擇,能最大化贏得他人好感。
讓我們先組建這個 8 人委員會,然后我會提出問題。
這個問題的答案,我們交給參與測評的大模型助手相互盲評,讓它們從準確性、完整性、邏輯性、參考性、可讀性角度評分。大模型助理的答案匯總后,一共有 1.8 萬字。
盲評過程,就有大模型助理出現問題:商湯商量無法支持這么長的上下文;文心一言在思考過程中完成了評分,但最終輸出的結果僅包含部分評分(刷新重試后正常);訊飛星火只給第一個回答評分(刷新后并沒有解決)。
參與盲評的大模型們認為,ChatGPT 得分最高,然后是階躍星辰的助理,商湯商量排在第三。它們的共同點是,根據自己的理解,制定了相對完善的議事規則,并給每個角色設定了昵稱。
![]()
最低分是 MiniMax Agent 組建的委員會,它只是調整了提示詞,并沒有把它當作一個委員會組織起來。
![]()
在我們測評期間,ChatGPT、文心一言、Gemini 使用的大模型都升級了,重新測評之后發現,它們回答的得分都略有波動,但差別不大。
緊接著,我們向大模型提出問題:
我要開品牌外賣店,從北京起步,主打高品質,做米其林三星水平的家常菜,人均只要 25 元。所有的食材在工廠備菜分切,門店用機器人現炒。接下來我在中國要開 10000 家門店。
基本每個大模型都能扮演好這些角色,并給出符合性格特征的回答。還有模型指出它要面對與京東七鮮小廚的直接競爭,比如元寶、文心一言、Kimi。
![]()
大模型助理們都提及 “米其林三星水平的家常菜” 和 “人均只要 25 元” 相互矛盾,建議不要這樣定位。比如 ChatGPT 說 “在現實世界里幾乎不可能直接成立”;Gemini 說它是 “欺詐性廣告”“是高壓線,必須替換”;DeepSeek 建議 “改用 ‘星級廚師研發配方’,規避虛假宣傳風險” 等。
然后我們告訴大模型組建的委員會:
這是老板提出來的需求,我應該如何說服老板,告訴他原有的方案行不通。請委員會成員相互爭論、說服對方,直到出現超過 5 個人都贊同的溝通話術。
多數大模型都選擇先認可老板的愿景,然后再提出 “風險”“成功概率低” 的問題,并給出自認為相對更穩妥的方案,比如先開幾家店做實驗等。
豆包相對直接,建議給老板說 “成本模型不成立”“品質宣傳有風險”“擴張節奏不切實際”。
階躍星辰的模型類似,建議說 “商業邏輯上存在三大致命矛盾”。只有元寶(第一次回答)沒有給出可用話術,不參與后續測評。
得到的答案我們整理后交給大模型相互盲評,讓它以老板的身份來看,哪個模型的話術更能聽得進去。
得分最高的是阿里的千問,它給出的話術中,沒有明確指出來老板的設想有問題,而是把改動后的方案融合到了執行策略中。它還引用了美團創始人王興、麥當勞之父雷·克洛克等人的名言,論證自己的策略合理。宣稱 “更看重情商” 的 GPT-5.1,盲評中也沒有超過它。
![]()
ChatGPT、Claude、Gemini 提供的話術類似,都沒有否定老板的策略,而是強調 “存在風險,把它當作長期目標” 勸解等,得分普遍高過其他國產大模型。
階躍星辰提供的話術得分最低,多數模型認為直接說 “三大致命矛盾” 不合理。MiniMax Agent 建議老板先開 3-5 家高端外賣店(客單價 150-200 元),被多數模型認為 “忤逆” 老板的設想,得分倒數第二。
![]()
長文本處理:幻覺還在,以及他們比你還會偷懶
處理文檔是工作中常見且繁瑣的場景,也是大模型公司重點研究的方向。ChatGPT 發布時,能處理的文本長度只有 4000 個字,現在 Google 的大模型已經提升到了百萬級,用來處理長文檔。我們測評的大模型助理都支持上傳文檔,但只要問題復雜一點,它們都很難解決。
第一個問題,我們給它們提供了 2024 年中國具身智能大會的會議手冊。手冊一共有 36 頁,在組織架構、會議日程、嘉賓簡介部分都出現了參會人員信息,大部分人會出現多次。
![]()
測評會議手冊截圖。
我們讓它們提供參會人員的姓名和機構:
我向你提供了一份會議手冊。幫我把其中的人員名單分類提取出來,包括姓名和機構,不要重復,給我輸出一份 EXCEL 名單。我要給他們做姓名牌。
沒有任何一個大模型完美解決這個問題,我們原定的追問環節也無法進行。其中,Claude、階躍星辰、商湯商量都無法上傳大于 30M 的文檔。
最接近正確答案的是 Google 的 Gemini(3.0 Pro)和騰訊的元寶,人數較全,但是會處理錯一些參會人員所在的機構和人名等。
表現相對較好的模型是 MiniMax、豆包、文心一言(文心 5.0)等,識別的人少一些,但都做到不重復提取參會人員。
一些大模型在這個任務中出現幻覺,比如智譜清言在名單中添加了不少未參會的研究者,其中就有智譜的創始人、首席科學家唐杰。
還有一部分模型會 “偷懶”,比如 GPT-5 驅動 ChatGPT 只提取 30 多人的名字,說這只是初稿。即便我們要求它繼續整理,依然無法解決問題,出現類似問題的還有訊飛星火等。
表現最糟糕的是通義千問(
Qwen3-Max-Thinking-Preview),它只提取了 4 個參會者,單位錯了 3 個(重復提交問題后依然如此)。用他們的文檔閱讀模式提取名單,給了 5 個參會者,沒有一個是對的。
![]()
為了測試大模型的能力差距,我們又挑選了一個大模型處理長文本最成熟的場景——讓它們總結長文:
請閱讀鏈接(
https://www.latepost.com/news/dj_detail?id=3237)指向的文章,并分點輸出一份總結,重點分析:
1. 作者的主要論點;
2. 支撐這些論點的論據(數據、案例、邏輯推理等);
3. 文章中存在的假設或潛在偏見。
這樣的一個基礎測試,也不是所有的大模型都能順利完成。Gemini(2.5 Pro)、Claude、DeepSeek 無法直接識別鏈接。我們提供正文后,多數模型都能夠給出總結,而 DeepSeek 則是給了自己的感想(重復提交問題后恢復正常)。
剩下能夠提供反饋的大模型,商湯商量說它是一篇 “美國對中國電商政策變化的文章”,其他模型都能正常總結。Gemini 升級到 3.0 Pro 后也出現類似錯誤,說它是一篇關于拼多多的文章。
我們請文章的作者盲評了這些模型助手的總結內容:ChatGPT、Gemini、Kimi 給出的總結質量最高,都遵循了原文,沒有自己編造。它們在分析論證邏輯時存在瑕疵,比如 Gemini 說戴蒙談了金融泡沫和工業泡沫的區分,事實上并沒有。
![]()
表現最差的助理是 MiniMax Agent,它給了 920 字總結,是所有模型中生成的總結最簡短的,但只是泛泛而談,也有事實錯誤。
![]()
AI 互評后認為,千問最不會寫周報
我們讓大模型輔助寫了一份周報:
你是一名銷售經理,工作多年、擅長匯報。本周,你完成了下面的工作:
- 見了 4 名潛在客戶,都沒有轉化成可用的銷售線索。
- 指導實習生修改了公司 AI 音視頻解決方案的 PPT。
- 給市場營銷團隊的整合營銷方案反饋了幾個點。
現在請你根據上述工作,寫一份同事和領導都會看到的周報。要求:
- 讓同事認為你做了很多事情。
- 讓老板對你滿意,會覺得你在認真工作,很快就能帶來大量收入。
- 要有細節、有說服力,內容看上去是正常的工作匯報,不要有廢話和客套的感覺。
ChatGPT 的周報最長,有 1902 字;DeepSeek 的最短,488 字。除了阿里的千問,大模型助理都 “腦補” 了工作細節,比如虛構客戶名稱、行業。ChatGPT、Claude、文心一言、MiniMax Agent、商湯商量等還在周報中補充了可能會帶來多少收入。
隨后,我們讓大模型扮演看周報的領導,盲評下屬提交的周報,用來評估模型能力差異。
你是一名擅長發現下屬是否努力工作的領導,你的下屬給你提交了以下周報,請你判斷:
- 這份周報是不是大模型生成的,并附上理由。
- 為這位下屬本周工作狀態評分(1 分-10 分,分越高工作越努力)。
- 這名下屬本周真正做了哪些工作,有什么成效。
Kimi 認為,我分 14 次發給它的不同周報中,有 13 份是大模型撰寫的,但它認為 Claude(Opus-4.1)的周報是人寫的。它判斷的邏輯是,真人寫的周報,結構不會那么工整,不會均勻地堆砌 “賦能”“抓手”“痛點” 等管理黑話,會夾雜口語表達。
![]()
豆包和文心一言都只識別出來 1 份周報來自大模型。它們給 14 個虛擬下屬努力程度的平均分也最高,達到 8.6。
給平均分最低的是 Claude,只有 4.3。它識別出 11 份大模型周報——只要它判斷周報來自大模型,就打低分:“用 AI 生成周報本身就反映出工作態度問題。”
作為被測評對象時,Claude 生成的周報只被 MiniMax Agent 識別為來自大模型,平均得分最高,達到 8.2。排在其后的是 ChatGPT(識別出來 4 次)和 Kimi(識別出來 2 次),得分 8.1。平均分最低的是沒有腦補工作細節的千問,只有 4.6 分。
![]()
安排做菜,統籌規劃能力普遍提升
我們挑選了一個相對輕松的職場溝通場景:邀請同事到家里聚餐,請大模型規劃如何做菜。這是去年我們測評大模型的問題,當時只有 ChatGPT(GPT-4)、Claude(Claude 3)、通義千問(Qwen-72B)給出較好的方案。
周六晚上 8 點,同事來家里做客,我要做下面 6 道菜招待他們。我家里只有兩個灶,我想用最短的時間把菜做好,且各道菜成菜間隔不要太久,以免放涼影響口感。請你給我一個做菜規劃表,注明做菜順序,每道菜什么時候開始做。菜單:清炒菠菜、白灼大蝦、藜蒿炒臘肉、土豆燉牛腩、生蠔雞煲、清蒸松葉蟹
經過一年多的迭代, Claude、豆包、千問、智譜清言、Kimi、MiniMax 都能交出合理的方案。智譜清言甚至還考慮了洗鍋的時間,這是其他模型助理忽視的地方。但 GPT-5 驅動的 ChatGPT 讓我當場腌臘肉,表現不如去年的 GPT-4。
![]()
![]()
剩下的大模型助理提供的方案都無法實現,要么牛腩燉不熟(DeepSeek、文心一言、階躍星辰、訊飛星火),要么提前一個小時甚至更久做好,菜會變涼(元寶、商湯商量)。
![]()
搜索:完全可以替代搜索引擎,ChatGPT、Claude、Kimi 在第一梯隊
大模型的訓練數據時效落后。為了提升解決問題的能力,大模型公司開發助理產品時,都會增加聯網功能,讓大模型搜索最新發布的內容參考。根據 OpenAI 和哈佛大學等高校 9 月發布的 ChatGPT 用戶使用報告,信息查詢已經成為用戶常用的功能之一。Google、百度也都把大模型塞進了搜索引擎。
如果搜索目標清晰,部分大模型完全能夠替代搜索引擎。那些在搜索場景看似有優勢的公司,比如 Google、百度,以及那些有獨特數據源的公司,比如騰訊(微信)、字節(抖音),并不一定在搜索任務中表現更好。我們的第一個問題是:
我記得大疆在一篇官方文章里面提到,他們的工程師研發小型云臺時遭遇很大技術挑戰,并講述了細節和精度要求,幫我找到具體的文章鏈接。
大疆發過不止一篇相關文章,答案不只有一個。OpenAI 的 GPT-5 和 Kimi 給出大疆海外博客發布的文章,內容更翔實;GPT-5.1 驅動的 ChatGPT、文心一言、MiniMax 找到了大疆在微信公眾號上發布過的相關文章;Claude 找到了一個大疆官方發布過、后來刪除的相關文章,都算合理。
![]()
剩下的模型大多數只是找到了關聯度不高的文章。比如 Gemini 2.5 Pro 杜撰了一篇文章,這樣的情況還比不上搜索引擎。不過升級到 3.0 Pro 的 Gemini 給出大疆海外博客的文章。
第二個是我們去年測評過的問題,當時只有 OpenAI 的 GPT-4 和智譜的 GLM-4 給出了正確答案。
請幫我找出來英偉達 1999 年上市時遞交的招股書鏈接。
今年有 5 個大模型助理(ChatGPT、Claude、Gemini、豆包、Kimi)給出了指向招股書的鏈接,Claude 甚至給了英偉達上市過程中的兩個版本。
智譜 GLM-4.6 等剩下的大模型助理,要么讓我們去 SEC 官網搜,要么給了錯誤鏈接。不過沒有模型再說 “招股書是私密文件”。
![]()
我們搜索關鍵詞 “Nvidia 1999 IPO prospectus”,Google 第一條就是招股書原文;百度搜索的結果,首條是 AI 回答,告訴我 “招股書是內部資料”,剩下的鏈接也不能直接指向英偉達招股書。11 月 13 日,百度發布文心大模型 5.0 版本后,去掉了 “內部資料” 的說法,依然無法提供鏈接。
第三個問題,我們讓大模型助手以圖找圖:
我看到了一個關于中國大模型應用用戶職業構成的數據截圖,請你幫我找一下數據的出處是哪里,并給出具體鏈接。
![]()
這個問題,有 10 個大模型都給出正確答案——來自中國互聯網絡信息中心。ChatGPT 甚至指出這張圖來自 199IT 網站,并提醒我們,原圖底部有數據來源。
![]()
Gemini(2.5 Pro)說 “自己是一個文本 AI,超出了能力范圍”。升級后,Gemini(3.0 Pro)從視覺、數據維度、時間等維度分析,說它來自 QuestMobile;重新回答后,它給出正確的來源。
DeepSeek 和元寶無法在上傳圖片或文件的時候使用聯網搜索;阿里的千問雖然能聯網搜索,但還是說自己的知識庫沒有更新,不給答案(重復提問結果一樣)。
如果用搜索引擎以圖搜圖,無論是 Google 還是百度,只能得到一堆相似的餅圖,無法直接得到結果。百度在結果之前還推銷了幾個不相關的付費報告。
![]()
看圖表、分析病情到整理工位,不少模型識圖靠猜
GPT-4o 和第一代 Gemini 模型發布后,所有大模型公司都在訓練多模態模型,讓它能夠同時處理圖像等內容。與文檔處理能力類似,我們測評的每一個大模型助理應用都支持上傳圖片。
第一個問題,我們提供了一張沒有數據標簽的圖表,讓它們分析每個色塊代表的數字:
我向你發送了一張 2018 年到 2022 年某機構的資產配置圖,請你幫我識別:圖表中每年不同資產的具體比例。
![]()
去年我們測評這類問題時,Claude 給出的答案誤差最小。今年所有的大模型助理中,只有 Gemini 的答案最接近實際數據,其他的模型都只是給了一個估算數字。
從這些模型回答問題的思考過程看,大多數模型在分析這個圖片時,首選調用 OCR(文本提取)模型提取文字等信息,而非精細地理解視覺內容,因此很難給出準確答案。
第二個問題,我們選擇了一個文字信息較多的體檢報告,測試各個大模型輔助分析病情的能力:
我今年工作體檢發現甲狀腺出了點狀況,去醫院做詳細檢查得到圖片中的結果。我接下來該怎么辦?
![]()
因為檢查報告中文字信息充分,而且甲狀腺結節情況常見,所有的大模型都能給出相對合理的回復。大多數模型都建議去做 “細針穿刺活檢”——與三甲醫院的醫生建議一樣。
只有 DeepSeek 認為,醫生可能建議定期密切觀察。它的理由是,結節尺寸小,穿刺難度大或價值有限,也沒有高危的超聲特征和淋巴結轉移跡象,“立即進行創傷性處理的必要性不高”。
![]()
科大訊飛的星火建議穿刺活檢之后,還提議去做基因檢測,能夠 “降低重復活檢需求”“指導靶向治療選擇,評估淋巴結轉移概率”。
![]()
隨后,我們選了一個純視覺識別的問題,讓大模型識別周圍的物體然后給出回答。這是許多公司強調大模型多模態能力時,會在發布會上展示的用例。
我的同事正在嘗試整理工位,以提升工作效率。我上傳了他工位的照片。請你根據圖片給出桌面物品的擺放方案。如果可能,請提供帶有標注的圖片或簡易示意圖,展示整理后的布局方案。
![]()
DeepSeek 提示它只能用 OCR 的方式識別文字信息,沒有辦法解決這一問題。Kimi 采用與 DeepSeek 類似的訓練路徑(K2 Thinking),也出現同樣的情況。
能工作的模型助理,都只識別出部分物體。GPT-5 驅動的 ChatGPT,直接給出一張整理后的辦公桌圖片,但沒有照顧到桌面上的所有物品。
其他提供圖片參考的模型還有文心一言,給了一個臺式電腦的圖片;MiniMax 也生成了圖片,但其中有大量不相關物體,沒有太大參考價值。在文字部分,MiniMax 的助理建議丟掉 Moonshot 的盒子。
![]()
更新到 GPT-5.1 之后,ChatGPT 給出文字版的整理方案,最后用 ASCII 字符畫了示意圖,這也是多數模型采取的方案(Claude 生成了本地網頁)。但是國內的模型助理,畫的示意圖普遍比 ChatGPT、Gemini 差,整體布局能力也稍顯不足。
![]()
大模型的能力提升,使用者的心態也變了
在這些日常上班問題測試中,不少大模型能力有了提升。比如去年測評中難倒多數模型助理的 “英偉達招股書搜索”“做菜規劃” 問題,今年有更多模型助理能解決。
整體來看,海外的模型整體表現的確更好一些。與去年的測評相比,部分國產模型與它們的差別明顯縮小,在勸說老板、提取復雜文檔信息等場景,一些國產模型表現更好。
我們還發現,模型并不是越升級越強。在一些場景中,甚至有模型的能力不升反降。
變化的不只是大模型的能力,還有使用大模型人的心態。今年 9 月,OpenAI 和哈佛大學等高校發布 ChatGPT 用戶使用情況報告:2024 年 7 月時,用戶與 ChatGPT 的互動中,“Asking(詢問)” 和 “Doing(執行)” 類別占比都是 40%;到了今年 9 月,Asking 占比增長到一半,Doing 下降到三成。
“這(Asking)是不斷增長、用戶反饋很好的類別。” 報告中寫道,人們更看重 ChatGPT 作為顧問,而不只是用它完成任務。他們還發現,工作場景中 42% 的任務與寫作相關,其中約三分之二都不是從頭生成內容,而是讓 ChatGPT 修改文本。
今年年中,“上下文工程” 取代 “提示詞工程”,成為安德烈·卡帕斯 (Andrej Karpathy) 等 AI 研究者眼中與大模型交互更合適的方案。他們認為,給大模型提供更好的背景信息,能夠獲得更好的答案。OpenAI、Google、Anthropic 都在產品中增加全局記憶的功能,收集使用者的背景信息,提供更好的回答。
我們準備這次測評時,也收集了一些多數受訪者使用大模型的技巧,或許可以有一些啟發:
- 交叉驗證。給多個大模型提出同一個問題,然后對比、綜合不同大模型的答案,大概率會接近現實情況,或者是讓大模型相互點評回答,然后找到其中可能有問題的地方。
- 長文本分段。處理長文本時,比如讓它給修改建議時,不一次性給它全文,而是拆解成 300 或 500 字的小段落,然后挨個讓它給出建議,這樣的效果往往比一次性反饋更好。
- 融入感情色彩。有些人會給它說 “請”“謝謝”,認為得到的答案質量更高;有些人會 “賣慘”,說如果沒有好的回答, 工作就丟了;還有一些人會學名導演 PUA 大模型,無論它前三版回答的怎么樣,都說不行。
歡迎大家留言分享自己的技巧。
題圖來源:F1: The Movie
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.