![]()
作者|參商 西梅汁
編輯|星奈
媒體|AI大模型工場
![]()
國內大模型發展趨勢|10月份解讀
To C 端成必爭之地
百度和阿里不約而同地將AI眼鏡作為雙十一切入消費市場的重要產品。
百度在10月下旬宣布,其首款消費級AI眼鏡將于11月1日開啟預售。這款眼鏡深度整合了百度自研的文心一言4.0視覺增強模型,使其能實現實時物體識別、AR導航和多模態信息交互。這意味著AI從后臺走向前臺,成為用戶日常生活中的實時智能助手,例如在博物館參觀時能自動講解展品。
而這邊,阿里的夸克AI眼鏡則在10月24日率先開啟預售。此次的亮點則結合了阿里生態的應用,例如支持通過支付寶的“看一看”功能進行生物識別支付,這為智能支付提供了新的交互想象。同時,與高德地圖結合的近眼導航、淘寶的商品識價等功能,都體現了其致力于將AI能力融入具體生活場景的思路。
與百度、阿里聚焦于開拓AI眼鏡這一新形態不同,科大訊飛在10月底的全球1024開發者節上,則進一步強化了其在AI軟硬一體化方面的路徑。
科大訊飛發布了星火AIPC,強調其并非簡單疊加AI芯片,而是大模型能力與本地算力的深度融合,以支持更復雜的端側實時交互。同時,訊飛也展示了其在智能辦公本、翻譯耳機等成熟硬件產品線上的技術迭代,重點提升了在嘈雜環境下的降噪和語音識別能力。這種基于自身技術長板,將AI能力持續注入特定辦公、學習、翻譯場景的策略,是科大訊飛布局To C市場的鮮明特點。
巨頭們集體行動清晰地表明,AI大模型+硬件終端的模式已被視為下一代個人計算平臺的重要方向。消費級AI硬件也在試圖擺脫過去“功能單一、實用性不足”的標簽,向集成了感知、理解和決策能力的個人AI助理上全面升級。
大模型戰場換帥謀局,
大廠組織架構調整,押注 AGI長期主義
大模型戰場換帥,押注長遠。 十月,大廠通過人事調整聚焦AGI目標,創業公司加速商業化落地,以及資本市場對AI賽道持續看好但更加理性。
一個標志性事件是字節跳動Seed團隊的人事調整,原負責人朱文佳的匯報對象,從CEO梁汝波轉變為從谷歌DeepMind引進的研發負責人吳永輝。這一變動意味著吳永輝在組織架構上已成為字節大模型團隊的"一號位"。這背后,反映出字節對突破"智能上限"的迫切追求,團隊方向進一步向基礎研究集中。同時,全球電商巨頭亞馬遜也正式宣布裁減約1.4萬名公司職員,以精簡運營并加速人工智能部署。
與大廠強化基礎研究相呼應,頭部創業公司也在十月份明顯加快了商業化落地的步伐。李開復領導的零一萬物在10月宣布了新一輪高管任命,核心戰略是推動"一把手工程"。這意味著零一萬物將其ToB業務全面升級。為此,他們還任命了擁有深厚政企背景的沈鵬飛為聯合創始人,統籌國內ToB與ToG業務,并提拔了兩位技術和管理骨干為副總裁,組建起覆蓋市場、技術與國際業務的完整管理閉環。
不難看出,在激烈的AI競賽中,大廠正通過優化內部結構和人才策略,為AGI的長期競爭夯實基礎。
融資方面,資本向應用清晰的領域集中。曾憑借長文本能力引發關注的月之暗面,在10月被曝將完成新一輪數億美元的融資。而專注于AI視頻生成領域的愛詩科技,則更早地宣布完成了1億元人民幣的B+輪融資。其旗下的PixVerse等產品服務于C端大眾與專業創作者,用戶規模已突破一億,并在商業化上取得了年度經常性收入超過4000萬美元的進展。
總體來看,國內大模型領域的發展已經進入了一個更加務實和深入的新階段。無論是大廠調整架構押注未來,還是創業公司全力沖刺商業化,競爭的焦點正從"比拼模型參數"轉向"比拼場景落地與生態構建"。
告別Sora2獨占,國內AI視頻生成紛紛破局
OpenAI在9月底發布Sora2,這款被稱作"AI版抖音"的視頻生成模型僅兩天內便斬獲16.4萬次下載,登頂美國App Store總榜第三時,全球AI視頻賽道再次被點燃。而國內賽場并未出現單一的追隨者,反而迎來了一場以“破局”為主題的集體進擊。
長視頻生成能力成為這一輪技術競賽的核心戰場。與Sora2專注于25秒視頻生成不同,國內廠商更注重解決實際應用場景中的時長需求。
美團LongCat-Video采用Diffusion Transformer + 3D RoPE的創新架構設計,配合漸進式預訓練和強化學習策略,在保證視頻質量的同時大幅提升了生成效率。 而像生數科技這樣的創新企業,則通過「參考生」功能的全球上線,將AI視頻生成從單純的文本驅動拓展到多模態融合的新階段。
與此同時,AI視頻能力正加速融入現有生態。百度在搜索升級中,將文心助手的視頻生成功能無縫嵌入,用戶通過自然語言就能直接創作。這展現了巨頭將AI作為基礎設施賦能核心業務的戰略,推動技術從獨立工具變為普惠服務。
國內AI視頻生成已走出單純對標國際模型的階段,正通過聚焦長視頻、優化落地效率及深度融合應用,構建差異化的競爭力。同時在Sora2依然保持封閉時,國內廠商也在通過開源構建生態,或許正是實現彎道超車的關鍵策略。
國內主要大模型進展
字節跳動
10月28日,字節跳動Seed團隊(大模型與基礎研究)匯報線調整,朱文佳改向吳永輝匯報,吳永輝成為團隊絕對一號位。組織進一步聚焦“探索智能上限”,取消部分員工季度OKR,加大AGI研究投入,推動Top Seed人才計劃。
10月23日,字節跳動Seed團隊推出3D生成大模型——Seed3D 1.0,實現從單張圖像到高質量仿真級3D模型的端到端生成。Seed3D 1.0 基于創新的Diffusion Transformer架構,通過大規模數據訓練完成,可生成包括精細幾何、真實紋理和基于物理渲染(PBR)材質的完整3D模型。
10月21日,豆包海外版Cici在墨西哥、英國、印尼、馬來西亞、菲律賓等國Google Play/Apple Store免費榜登頂,10月墨西哥連續多日霸榜。Cici主打“免費”“能解數學題”,產品功能較國內豆包有所簡化,未開放音樂、視頻生成與內容分享,核心技術調用OpenAI GPT與Google Gemini。
百度
最近,根據LMArena 的最新排名顯示,百度文心最新模型 ERNIE-5.0-Preview-1022(文心 5.0 Preview)在文本榜單上一舉躍居全球并列第二、國內第一。
該模型取得了 1432 的高分,其與 OpenAI 的 gpt-4.5-preview-2025-02-27 以及 Anthropic 的 claude-opus-4-1-0805、claude-sonnet-4-5-20250929 三大國外頂級模型持平。
10月18日,百度健康在2025致敬醫者盛典上發布百度健康AI管家。這款產品首創 “AI+真人”雙保障模式,在模型訓練階段加入真人醫生海量標注,AI生成健康建議后還會自主推送真人醫生進行二次實時核驗。
10月16日,百度搜索旗下AI短劇生成平臺宣布啟動公測。百度方面稱,百度搜索AI短劇生成平臺具備自動生成、人機協作等不同模式,可輔助創作者完成80%以上的內容創作。創作者在AI創作的基礎上進行微調和優化,并生成短劇作品。百度稱將通過億元創作基金、百億流量扶持、長期IP變現等方式給創作者提供支持。
10月15日,百度搜索宣布全面升級文心助手AIGC創作能力,支持AI圖片、AI視頻、AI音樂、AI播客等8種模態創作,且能夠一鍵調用多工具解決多場景問題。截至目前,百度搜索用戶日均生成AIGC內容已破千萬。此外,百度搜索還發布行業首個開放式實時互動的數字人智能體。
阿里
10月30日,阿里媽媽“萬相臺AI無界”智能體助力雙11,百萬商品成交增長超30%,20萬商品成交翻5倍,推動電商經營從“經驗決策”邁向“智能經營”。
作為阿里旗下的數智經營平臺,阿里媽媽在今年3月宣布實現AI全鏈路經營能力升級后,其技術成果在本屆雙11迎來全面大練兵。
10月24日,阿里巴巴旗下夸克正在推進一項名為“C計劃”的重磅AI業務,旨在布局對話式AI應用,并可能與字節跳動的“豆包”展開競爭。該計劃由夸克核心團隊主導,并有多位通義實驗室高級成員參與,顯示出阿里在AI應用領域的長期投入和決心。
10月23日,夸克AI眼鏡開啟預售,阿里巴巴宣布,夸克AI眼鏡S1將于10月24日零點在天貓、京東、抖音等平臺開啟預售,定價4699元,支持免提通話、實時翻譯、會議轉錄等功能,12月交付。
同時,夸克AI眼鏡S1預售首日11小時登頂天貓智能眼鏡品類銷冠,銷售額碾壓競品三日總和,成為AI硬件爆款。
10月16日,阿里全新AI編程工具Qoder CLI(命令行界面)正式上線。該工具具備代碼生成與理解能力,并大幅降低內存消耗和命令響應時間,進一步提升開發效率。即日起,全球開發者可通過任意命令行終端使用Qoder CLI體驗代碼生成、調試和部署等任務。
Qoder CLI在全球頂尖的編程模型基礎之上進行了大量的工程設計,全面提升Agent能力:基于輕量級的Agent框架,可高效運行在普通筆記本電腦和云端沙箱實例,滿足不同場景的開發需求。測試顯示,Qoder CLI在空閑狀態下消耗的內存比同類工具低70%。
10月15日,天貓雙11預售開啟,成為首個“AI全面落地”的雙11。淘寶天貓推出6款AI導購應用(如“AI萬能搜”“AI幫我挑”“AI試衣”等),賦能商家與消費者,提升購物體驗與運營效率。平臺算力提升40倍,用戶行為序列感知從半年提升至10年,購買效率提升25%。
阿里十月動態,涵蓋電商、B2B、智能硬件、醫療健康、銀發經濟等多維度。無論是AI全面賦能雙11,還是夸克AI眼鏡等硬件新品發布,均體現阿里AI技術向產業、消費、生態全鏈路深度滲透的趨勢。
騰訊
10月31日,IDC《中國游戲云市場跟蹤研究,2025H1》報告顯示,騰訊云在游戲云用量規模維度持續穩居第一,并在整體收入維度增速領跑第一陣營。騰訊云依托混元大模型和AI實踐經驗,構建覆蓋游戲創意構思、美術創作、研發測試、發行上線、運營增長的全流程技術支撐體系,AI成為游戲開發新引擎。
10月29日,騰訊混元宣布推出國內首個交互式AI播客,用戶可在收聽時隨時打斷主持人和嘉賓發言,通過語音或打字提問。基于大模型意圖識別、長上下文理解、多輪對話和外部聯網檢索能力,播客可結合上下文給出準確答案。支持自定義播客風格、主持人數、音色,適用于財研報解讀、新聞速遞、知識教育等場景。微信公眾號、騰訊新聞、ima、騰訊文檔PDF已接入該能力。
10月23日,騰訊ima open day在北京舉行,發布ima 2.0版本,并于24日啟動內測。新版引入“任務模式”,支持報告、播客等內容生成,用戶可通過自然語言提問,結合知識庫、文檔、圖片、音頻等附件,由大模型自主拆解、規劃任務步驟并調用工具完成。
知識庫新增“AI要點”功能,可自動生成結構化摘要,支持多任務并行與協作共享。ima已深入科技、金融、教育、醫療、法律、政務等20+行業,知識庫文件總量達2億。
10月22日,騰訊混元世界模型1.1(WorldMirror)正式發布并開源,新增支持多視圖及視頻輸入,單卡即可部署,秒級創造3D世界。該模型解決了1.0版本僅支持文本或單圖輸入的局限,首次支持多模態先驗注入和多任務統一輸出的端到端3D重建,支持點云、深度、相機、表面法線和新視角合成等多種3D幾何預測。
10月15日,QQ瀏覽器手機端上線“AI公考通”功能。這是一款面向公考考生的免費智能選崗工具,針對公考人群普遍面臨的信息差難題,主打公告全、推薦準。
據介紹,AI公考通依托騰訊云Kafka和TDSQL-C構建的高性能數據管道,可以快速匯聚全國數萬個官方招考站點的海量信息,更新快、查得快。
科大訊飛
在10月24日至11月6 日舉辦的第八屆世界聲博會暨科大訊飛全球 1024 開發者節上,科大訊飛圍繞“更懂你的 AI”主題,集中發布了大模型、軟硬一體方案、開發者生態與行業應用三大板塊的十余項核心信息:
星火深度推理大模型X1.5 正式亮相:293B 總參數、30B 激活量的 MoE 架構,推理效率較 X1 翻倍;數學、代碼、多語言(130+ 語種)等六大能力對標國際主流,國產算力平臺實現 84% 長思維鏈訓練效率與 520% 非自回歸語音大模型推理成本下降 。
首個“多模態語音交互”機器人方案落地:與四川長虹聯合推出 1.6m 人形導購機器人“虹曦”,支持多人連續對話、中英混合、視覺-激光雷達導航、情緒屏交互,8h 續航,已在商業場景批量部署
訊飛輸入法 15.0 & AI 鍵盤:新增側滑“AI 鍵”,打字自動補句、語音輸入即時語義修正;接入星火高效率語音大模型,離線聽寫準確率提升 25%,中英混輸提升 55% 。
AI 輕辦公四大產品全線升級:智能辦公本、錄音筆、翻譯機、會議耳機新增“星火紀要、星火同傳、星火筆記”等原生能力,并開放 API / SDK 供開發者二次開發。
海爾-訊飛“純境零添加”適老電視首發:搭載 AI 知源大模型,方言交互、情緒感知、大字體 UI,入選國家三部委 2024 視聽系統典型案例。
星辰智能體平臺 2.0 & 原生支持RPA的開源框架Astron:提供 8 大行業模板、個性化聲像復刻、自動化執行與效果評估工具,開發者可“零代碼”拼裝企業級 Agent。
開發者生態最新數據與“星火點亮全球”計劃:開放平臺開發者達 968 萬(年增 200 萬),大模型企業開發者增長 125%;2025 AI 開發者大賽吸引 3.6 萬支團隊、生成 4,622 個垂直智能體;聯合 14 國伙伴啟動出海扶持,輸出多語言與國產算力方案。
300+“開箱即用”行業智能體集中展示:已落地“星火行業分析師”(國內首個通過工信部大數據分析師認證,得分 92 分,超 85% 人類考生)等多個標桿 AI 員工,覆蓋政務、金融、工業、教育、醫療等場景。
本屆開發者節凸顯科大訊飛在技術自主可控、場景深度落地、生態開放共贏三大戰略方向的突破。從星火大模型的多模態能力升級到 AI 硬件的全棧國產化,從行業大模型的精準賦能到全球化市場的加速布局,科大訊飛正通過 “算力 + 算法 + 數據” 的閉環生態,推動人工智能從技術創新邁向產業普惠。
MiniMax
十月,MiniMax在AI領域動作密集,從文本大模型M2開源登頂全球榜單,到視頻、語音、音樂多模態模型“全家桶”發布,再到海螺AI、星野APP應用迭代,均體現其“高性能+低成本+全模態”的技術路線與生態布局。
10月31日,MiniMax正式發布新一代AI音樂生成模型Music 2.0,致力于降低音樂創作門檻,讓普通人也能輕松制作專業級歌曲。該模型基于多模態AI架構,訓練數據涵蓋海量音樂作品,支持從人聲演唱到完整編曲的全流程生成,單首歌曲最長可達5分鐘,覆蓋流行、搖滾、爵士等多種風格。
Music 2.0最大亮點在于人聲表現細膩,可通過提示詞控制音色與情感,如“低沉男聲”或“漸入高潮的女聲”,并支持男女對唱與多聲部設計。編曲方面,能自動生成主歌、副歌、橋段結構,用戶還可指定“鋼琴主線+薩克斯獨奏”等復雜配置。音質達44100Hz采樣率、256kbps比特率,支持MP3/WAV格式,細節清晰、動態飽滿。
10月28日,MiniMax發布新一代視頻生成模型海螺2.3,在動態表現力、風格化呈現與人物表演細膩度方面實現顯著突破,支持復雜動作與微表情生成,性能對標Google Veo。同步推出Fast版本,B端工業級應用成本降低50%,實現“加量不加價”。
此外,MiniMax發布Speech 2.6語音模型,針對Voice Agent場景深度優化,首包響應時間壓至250ms,解決語音交互“卡頓感”,支持高魯棒性聲音復刻與自動文本規整。
10月27日,MiniMax發布并開源新一代文本大模型M2,激活參數10B(總參230B),在全球權威Artificial Analysis榜單總分位列全球前五、開源第一,性能逼近GPT-5、Claude 4.5等頂尖閉源模型。綜合成本僅0.53美元/百萬Token,不到Claude 4.5的8%,推理速度提升近一倍。模型專為編碼與智能體任務深度優化,上線5天即登頂OpenRouter全球調用量第7、編程場景第3。
商湯科技
近日,商湯日日新在空間智能領域實現重要突破,正式發布并開源SenseNova-SI系列模型。在多項權威評測的空間理解和推理任務上,SenseNova-SI 不僅大幅度領先同量級開源多模態大模型,還超越了 GPT-5 和 Gemini 2.5 Pro 等國際頂尖閉源模型的表現。
10月15日,商湯科技與寒武紀簽署面向新發展階段的戰略合作協議,重點推進軟硬件的聯合優化,并共同構建開放共贏的產業生態。
在芯片適配方面,雙方將積極推進最新型號的軟硬件產品適配,聯合打造面向算力市場的服務方案;在一體機解決方案上,雙方將聚焦企業服務等垂直行業場景,緊密結合各自軟硬件能力,打造面向垂直領域的一體機解決方案。
此外,雙方還將共同探索在優勢區域市場的深度協同,匯聚地方產業資源和行業服務優勢,構建更具活力和影響力的區域人工智能繁榮生態。
月之暗面
近日,月之暗面正式發布了Kimi-k2 thinking模型,其為具有通用Agentic能力和推理能力的思考模型,擅長深度推理,可以通過多輪工具調用,解決各類復雜的難題。盡管是完全開源,該模型目前在多項標準評估中的表現已超過OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5(思維模式)以及xAI的Grok-4,這標志著開放AI系統競爭力的一個歷史性拐點。
開發者可以通過 platform.moonshot.ai 和 kimi.com 訪問該模型;權重和代碼托管在 Hugging Face 上。開源發布包含了聊天、推理和多工具工作流的API。用戶可以直接通過其類似ChatGPT的網站以及Hugging Face空間試用Kimi K2 Thinking。
10月31日,月之暗面正式開源Kimi Linear混合線性注意力架構,引入Kimi Delta Attention(KDA)模塊,大幅壓縮KV緩存并提升解碼吞吐量。在百萬token上下文長度下,解碼吞吐量可達全注意力架構的6倍,KV緩存縮減75%,同時保持高精度。
Kimi Linear的核心是線性注意力模塊Kimi Delta Attention(KDA),通過更細粒度的門控機制擴展了Gated DeltaNet,從而能夠更有效地利用有限狀態RNN內存。論文中指出,Kimi Linear既可以滿足Agent對效率和測試時擴展的需求,同時也不會犧牲模型質量。Kimi在社交平臺X發布帖子稱,Kimi Linear隨時可以作為全注意力的直接替代品。
10月24日,據《科創板日報》等媒體報道,月之暗面近期將完成新一輪融資,金額達數億美元。領投方或為騰訊,五源資本大概率參投,美國資本亦有溝通。此輪融資對經歷DeepSeek沖擊、融資沉寂后的月之暗面至關重要,有望助力其重回大模型“牌桌”。
DeepSeek
10月20日,國產大模型公司DeepSeek宣布開源其最新研究成DeepSeek-OCR,一款參數量約30億(3B)的光學字符識別(OCR)模型。這款模型最大的亮點,在于首次通過“光學二維映射”技術,實現了長文本上下文的高效壓縮,在傳統OCR識別的基礎上,讓模型具備了更強的語義理解與結構感知能力。
據介紹,DeepSeek-OCR擁有約30億參數,在性能與體量之間實現了平衡。它采用“光學二維映射”技術,將圖像中的文字、段落位置、排版結構等視覺要素,一并編碼成二維空間信息,再通過語義映射壓縮算法,把這些信息轉化為模型可以理解的“上下文語義表示”。
10月23日,快手StreamLake今天宣布推出“工具+模型+平臺”三位一體AI編程產品矩陣,包括智能開發工具CodeFlicker、多個自研大模型KAT-Coder以及大模型平臺快手萬擎(Vanchin),為企業與開發者構建AI編程新生態。其中KAT-Coder-AirV1版本將面向所有用戶免費使用。
生數科技
10月21日,生數科技發布Vidu Q2“參考生視頻”功能,支持多圖參考生視頻、視頻延長(普通用戶免費延長30秒,付費用戶最長5分鐘),APP從AI創作平臺轉型為一站式AI內容社交平臺,API全面開放接入。
愛詩科技
10月17日,愛詩科技宣布完成1億元人民幣B+輪融資,由復星銳正、同創偉業、順禧基金等共同投資,光源資本擔任獨家財務顧問。這是繼9月10日完成超6000萬美元B輪融資(由阿里巴巴領投)后,兩個月內完成的又一輪大額融資,創下國內視頻生成領域連續融資紀錄。
美團
10月25日,美團開源了其首款視頻生成大模型——LongCat-Video。該模型面向多任務視頻生成場景,旨在以統一架構支持文生視頻、圖生視頻以及視頻續寫三種能力。
不同于以往針對單一任務訓練的模型,LongCat-Video通過多任務聯合訓練機制,在同一框架內即可處理零幀、單幀及多幀條件輸入。
此外,LongCat-Video重點突破了長視頻生成難題,原生支持輸出5分鐘級別的視頻。相比常見模型在長時序生成中易出現的畫面漂移、色彩偏移等問題,該模型通過在視頻續寫任務上的原生預訓練,保持了較高的時間一致性與視覺穩定性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.