![]()
「沒收Kimi錢」
這兩天,我測試了Kimi新模型K2的寫作能力。
因為我和合伙人在開發一個寫作產品,我們之前把市面上主流的大模型,都測試過一遍。
寫作能力上,我的結論是:Gemini 2.5 Pro > Claude Sonnet 4 ≥ 各種縫合版 > Qwen 3 > Kimi K2 > DeepSeek R1
這個公眾號的絕大部分文章都用AI寫了初稿,我讓這些大模型全都重寫了兩遍,從寫作結果看優缺點。
完整的測試文檔在這個飛書鏈接,包含了測試過程和各個模型的寫作全文。
https://likczh6fsao.feishu.cn/docx/IPNxd1SZhoXjWkx6vW1c6vuTnYd?from=from_copylink
篇幅限制,這篇公眾號只談結論。
Kimi K2的寫作能力略遜于Qwen 3。它的邏輯能力不錯,和Qwen 3沒什么區別,能講清楚比較復雜的事情。文風卻接近DeepSeek,文筆有點飄,有一些靈機一動但不可控的表述。
K2寫作最大的問題是編造,它寫的東西有很多具體表述和數據是上下文里沒有的,并且編得很流暢,不仔細看看不出來,導致其很難用來嚴肅寫作。
比如我讓K2根據我的口述轉錄和提綱,寫作這篇文章的全文。
K2編造了大量我根本沒說過的話。
我的原話大意是,我問了幾個朋友,都不知道階躍有啥新聞。K2直接寫成「我問了十個AI創業者,九個搖頭,剩下一個反問:面壁智能不比他更有資格?」。
![]()
這是學新聞學的?
最離譜的是,它會編造有鼻子有眼的數據。它憑空編造了:「零一萬物做過一個AI編程助手,DAU剛過五萬,團隊解散。」,還說「智譜做過一個會議紀要工具,DAU三萬,負責人已經離職創業。」。
![]()
要不是我對這幾家公司還有點了解,知道轉錄里自己肯定沒這么說,這些話要是直接用了,大概率我都被起訴了。
K2的文筆也很飄,很像DeepSeek,有一些靈機一動但不可控的表述。比如它自己原創了一句「2024年上半年,VC們像扔手榴彈一樣把錢砸進來。」
![]()
確實很生動形象。但總體來說,這種不穩定的創造力,加上嚴重的編造問題,導致K2無法用在嚴肅寫作。
目前寫作能力最好的大模型,我體驗下來是Gemini 2.5 Pro。
Gemini 2.5 Pro的邏輯能力特別好。你讓它寫一篇2000字以上的長文,它一次性吐出來的稿子,句子和句子之間是邏輯連貫的。加上它100萬tokens的超長上下文,可以處理我的所有寫作需求。
當然,Gemini偶爾也會冒出一些AI味兒的句子,靈光一動但不穩定。
在穩定性上,Claude Sonnet 4 就做得很好。它的文筆非常平實、樸素,幾乎沒有怪話。但Claude的短板也很明顯,邏輯能力較差,寫2000字以上長文的時候,文章整體很流暢,但語句之間沒有邏輯聯系。
然后是Qwen 3,很像一個弱化版的Gemini 2.5 Pro。邏輯能力不錯,能完成復雜寫作任務。文筆也比較簡潔、樸實,偶爾有靈機一動的句子。但Qwen 3的問題是壓縮嚴重,經常把有用的細節壓縮沒了,導致文章只有邏輯骨架,缺少細節血肉。
回到Kimi K2上。
至少在寫作能力上,K2沒有帶給我驚喜。邏輯水平和Qwen 3接近,但幻覺更嚴重,上下文長度也較短(128k vs 256k),這決定了K2很難一次性處理特別復雜的寫作任務。
但我能因此說
我收回之前的偏見(沒收Kimi錢)
在2025年7月這個時間點,Kimi團隊做出了一個能力接近Qwen 3的模型,并且把這個萬億參數規模的大模型開源了。
我沒法說,一個愿意開源次先進大模型的公司,是沒有夢想的。即便我不會用K2來工作,但依然對做出K2的團隊保持敬意。
(本文配圖由ChatGPT o3生成,Gemini 2.5 Pro輔助寫作。)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.