張書樂 人民網、人民郵電報專欄作者
測試世界第一還不是無敵,
還需實戰和消費場景天下第一。
世界第一的紀錄,正在被中國大廠接連刷新。
一個大廠刷完,下一個大廠接著刷。
中國AI正在包攬全球AI競賽各個賽場上的前三甲。
現在的關鍵賽點,是到底這些AI,是柯南,還是毛利小五郎。
![]()
26日晚間,阿里正式發布千問旗艦推理模型Qwen3-Max-Thinking,在多項關鍵性能基準測試中,千問表現超過了GPT-5.2、Claude Opus 4.5 和Gemini 3 Pro等頂尖模型,刷新全球紀錄,進一步拓展了人工智能系統的推理性能邊界。
阿里方面表示,Qwen3-Max-Thinking總參數超萬億,進行了更大規模的強化學習后訓練,并通過推理技術的系列創新,最終完成模型性能的大幅飛躍。
其還大幅增強了自主調用工具的原生Agent能力,模型可像專業人士一樣邊用工具邊思考。
同時,模型幻覺也大為降低,為解決真實復雜任務打下基礎。
目前,普通用戶可通過千問PC端和網頁端試用新模型,千問APP也即將接入,所有用戶都可免費體驗。
此外,28日,全球最大開源社區Hugging Face最新數據顯示,阿里千問大模型開源數量突破400個,是全球AI開源社區采用率最高的模型。
麻省理工學院報告指出,2025年,中國研發的開源大模型全球下載量占比達17.1%,首次超越美國(15.8%),躍居世界第一。
值得注意的是,1月15日,阿里在杭州舉辦了千問產品發布會,宣布全面接入淘寶、支付寶、飛豬、高德、盒馬等阿里生態業務。
阿里千問 APP 化身智能體“顧問”,支持一句話點外賣、購物、買機票、訂酒店,引發廣泛關注。
![]()
Chatbot (聊天機器人)的戰爭已經基本結束。
下一步競爭的焦點是轉向“會干活”的AI Agent(智能體),愈發成為行業共識。
目前,阿里、騰訊、字節等大廠均已布局智能體。
值得注意的是,盡管前景廣闊,但行業智能體的規模化應用仍面臨多重障礙。
對于Qwen3-Max-Thinking的正式發布,最值得關注的點是什么?
如何看Qwen3-Max-Thinking的行業應用前景?
目前,國內同類產品的發展狀況和市場情況是怎樣的?
Qwen3-Max-Thinking的面世,是否有助于阿里千問市場拓展?
對此,網聯社梁偉和書樂進行了一番交流,本猴以為:
測試世界第一還不是無敵,還需實戰和消費場景天下第一。
具體到阿里千問這次破紀錄,也不能盲目樂觀。
推理能力需要實戰檢測,僅僅靠跑分不能證明領先。
![]()
推理水平到底是柯南,還是毛利小五郎,都需要大眾實踐來檢驗。
同時,這個記錄能保持幾天,會把哪家中國大廠所打破,還很難說。
真正的崛起,還是要如此前更新去切入電商場景那樣,通過大模型推理,讓精準消費距離和購物選擇的難度再一次扁平化,才是最強。
誠然,阿里的電商大數據,就是千問的私有數據池,也是友商攻不破的護城河。
不過,未來,阿里電商體系的地位,決定了千問核心競爭力的大小,唯有千問通過功能服務反哺阿里電商,才是真正的應用價值。
總體來說,2025年開始,中國人工智能從此前的通用模式的大模型之爭,走向垂直細分市場的智能體競技。
通過對細分功能如繪畫、作曲、寫作、編程等功能性服務,進行深度定制。
對于阿里千問來說,只有真正能作用于B端或C端,且顯著有效,才有市場價值。
或者說,此前融入阿里生態,是阿里為用戶直接制作了智能體,即過去的AI競爭是大模型的通用功能競爭。
當下的AI賽點是用大模型打磨出針對化服務的智能體。
此次千問推理模型,則是為智能體提供更好的智力支持,就看這個支持到底能讓智商有多大程度提高,則市場就會有多大的拓展空間。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.