這是蒼何的第 488 篇原創!
大家好,我是蒼何。
在 X 上看到宇宙知名模型服務商 OpenRouter,突然官宣上線了一個代號為 Pony Alpha 的匿名神秘模型,引發了熱議。
![]()
大家都在瘋狂猜測會不會是 DeepSeek V4 來了?
根據 OpenRouter 模型頁面顯示,Pony Alpha 具備 200 K 的上下文窗口,最大輸出 131 k。
![]()
據 OpenRouter 官方描述,代號為 Pony Alpha 的神秘模型為 Agentic workflows 做了大量優化,具有很高的工具調用準確率。
我也第一時間去體驗了這個模型,并在 Claude Code 上測了下。
![]()
這是我用 Claude Code 跑的我的產品薯圖的復刻,模型用的就是 Pony Alpha。
![]()
除了前端細節上能很好的完成前端頁面的復刻外,我覺得比較不一樣的是他的后端數據庫設計及架構能力,
比如在訂單表設計上會自動為我加上行級安全策略 RLS,啟動自定義規則讓不同用戶只能看到或修改自己有權限的行。
![]()
這就很牛逼了,也就是他自己去理解業務邏輯本身后,自己主動在數據庫設計的時候加上了這一條策略,做了數據權限控制。
并且能主動將配置存入數據庫,并從數據庫中獲取配置給到接口層。
![]()
我發現在解決后端 bug 問題上,這個模型能很好的定位問題。
這個是我用它生成的帶前后端完整功能的電商產品詳情頁管理工具,這個一次性完成的。
![]()
還有我的經典 case 模仿生成器,也是一次性就完成,無論從頁面前端效果還是功能可用上,完成的都比較高。
![]()
在多工具調用上,Pony Alpha 表現更為不錯,我一次同時調用了公眾號寫作 skill,配圖 skill,內容搜索 skill,根據需求就能生成一篇不錯的公眾號文章。
![]()
從初步的測試來看,Pony Alpha 模型的表現很不錯,特別是在后端架構設計,多工具調用準確率上比較突出。
會是什么模型呢?還挺好奇的。
大家也都在猜測會是什么模型?有人猜測是 grok 4.2 或者是 DeepSeek 新模型。
![]()
也有猜測是 llama 5 的(哈哈哈,不大可能):
![]()
還有猜測是 GLM 5 的:
![]()
目前在 OpenRouter 上是免費的,可以給大家盲測。我來了個溯源提問,Pony Alpha 守口如瓶,依舊猜測不到。
![]()
我關注的 Reddy 大佬也來發表了看法,猜測是 Grok 4.2 要來了,他的依據是該模型擅長角色扮演。
![]()
有國外老哥很自信的說這絕對是來自中國的模型。
![]()
不是,你猜 Claude 5 就有點不符合邏輯了吧,哈哈哈。畢竟 Claude 4.6 剛剛發布。
![]()
這個模型一度引起了國外開發者和極客們的興趣,紛紛都去測試。從大家的測試變現來看,代碼能力表現非常出色。
![]()
甚至有老哥說 Pony Alpha 要稱霸游戲世界了,一度讓我蠢蠢欲動啊。
![]()
有老哥直言,如果 Pony Alpha 是一個開源模型,那將非常恐怖。
![]()
我個人覺得不大會是 Claude 5,畢竟剛發布Claude 4.6 Opus,OpenAI 也發布了GPT 5.3 Codex。
不大可能是 DeepSeek V4,他們一版是先發到用戶群,說自己模型發了。
也不大可能是 Grok 4.2,在 agentic 和工具調用上,技術路線不大符合 Grok 的訓練路線。
我猜測大概率是 GLM-5,結合前段日子唐杰老師在 X 上那句被反復引用的 “GLM 快了”,
![]()
這也比較符合 GLM 一直在 coding、agent 能力提升上的進化方向。
其實從大家的熱議來看,有一個很有意思的點。
那就是大家也開始更多的關注中國的模型,出現了更多的 GLM、DeepSeek 這樣的名字。
這在前兩年,估計人們的第一反應是 GPT、Gemini 和 Claude 了。
這也表明在基座模型能力上,大家都起跑線也越來越接近了。
如果你也去體驗了 Pony Alpha,評論區聊聊你覺得它到底是誰?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.