<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      行業首個!商湯正式開源原生多模態架構NEO,訓練僅需1/10數據量

      0
      分享至


      智東西
      編譯 王欣逸
      編輯 程茜

      智東西12月2日消息,昨天,商湯科技正式發布并開源了全新多模態模型架構NEO,該架構由商湯科技和新加坡南洋理工大學AI技術實驗室S-Lab合作研發,是行業首個可用的、實現深層次融合的原生多模態架構,基于NEO架構的NEO模型僅用3.9億訓練數據,就達到了模塊化架構下頂級VLM(視覺-語言模型)模型的性能,數據量僅需其他同等性能模型的1/10。


      從基準測試來看,NEO模型在多模態能力綜合評估、跨學科和復雜推理等多項指標中碾壓上海AI Lab推出的Mono-InternVL-1.5、清華大學、上海AI Lab聯合商湯推出的HoVLE等原生VLM模型,還在多項視覺理解任務中追平通義千問的視覺語言模型Qwen2-VL、上海AI Lab聯合商湯推出的InternVL3等基于模塊化架構的頂級VLM模型。

      當前,業內主流的多模態模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式,本質上仍以語言為中心,圖像與語言的融合僅停留在數據層面,視覺編碼和語言解碼分離,模型學習效率低下,在復雜多模態場景下處理任務受限。


      為此,商湯科技拋棄了傳統的模塊化結構,推出從零設計的NEO原生架構。NEO架構在注意力機制、位置編碼和語義映射進行了底層創新,構建一個統一的原生基元,讓模型具備統一處理視覺與語言的能力。

      NEO架構相關論文已發布在arXiv上,題為《從像素到文字——邁向大規模的原生視覺語言原始基元(From Pixels to Words — Towards Native Vision-Language Primitives at Scale)》,商湯科技聯合創始人、執行董事及AI基礎設施和大模型首席科學家林達華博士,南洋理工大學S-Lab負責人、副教授劉子緯等均在該論文的作者行列。


      開源地址:https://github.com/EvolvingLMMs-Lab/NEO

      論文地址:https://arxiv.org/abs/2510.14979

      一、同參數全面領先原生VLM,數據僅為同等性能模型的1/10,復雜文本理解存在局限

      基于NEO架構,研究人員推出了兩個參數的VLM模型:NEO-2.2B和NEO-9B,這兩個模型利用Qwen3-1.7B和Qwen3-8B兩個基礎語言模型作為基礎語言模型,添加了原生視覺組件。

      在基準測試中,研究人員把NEO-2.2B、NEO-9B和同級別VLM模型進行對比,包括模塊化架構的VLM模型InternVL3、Qwen2.5-VL等,以及原生VLM模型Mono-InternVL-1.5、HoVLE等。為了進行公平、可控的科學對比,研究人員專門構建了一個模塊化VLM基線模型Encoder-Based作為對照。

      從通用視覺語言的理解能力來看,與模塊化VLM相比,NEO在2B和8B參數規模下表現都不錯,NEO-2.2B和NEO-9B在多模態能力綜合評估、跨學科和復雜推理等多個關鍵指標優于模塊化VLM Encoder-Based;在同參數規模下,NEO幾乎全面領先其他原生VLM。

      值得一提的是,NEO僅使用約3.9億訓練數據,而InternVL3等模塊化架構的頂級VLM模型至少使用了60億訓練數據,是NEO所需數據的15倍。


      視覺任務測試中,在圖表理解和文檔結構理解任務上,NEO-2.2B和NEO-9B都表現出接近頂級模塊化模型水平。

      不過,NEO的密集文本識別和理解能力仍存在不足,幾乎落后于所有模塊化模型,在原生模型的對比中也不占優。NEO-9B在文檔問答和圖像中的文本問答能力的得分略低于NEO-2.2B。

      研究人員指出,密集文本識別和理解能力不足是由于訓練數據中此類高質量、知識密集型樣本的不足,而NEO-9B的得分低于NEO-2.2B則是由于當前訓練數據集的覆蓋范圍和知識密度有限。


      此外,NEO在邊緣部署方面具有優勢,特別是在0.6B-8B的參數區間內,便于計算資源有限或實時性要求嚴格的場景應用。

      二、原生圖塊嵌入,雙向注意力并存,具備復雜場景擴展能力


      NEO架構通過在注意力機制、位置編碼和語義映射三個關鍵維度的底層創新,讓模型天生具備了統一處理視覺與語言的能力:

      1、原生圖塊嵌入(Native Patch Embedding): 這一方法摒棄了離散的圖像tokenizer,通過獨創的圖塊嵌入層(Patch Embedding Layer ,PEL)自底向上構建從像素到詞元的連續映射。

      2、原生三維旋轉位置編碼(Native-RoPE):NEO架構解耦了三維時空頻率分配,為三個維度設定了不同的旋轉基頻率。視覺維度采用高頻頻率,便于模型理解空間布局和細粒度對齊;文本維度采用低頻頻率,兼容了預訓練語言模型的旋轉位置編碼(RoPE)設置。由此,訓練后的模型具備向視頻處理、跨幀建模等復雜場景擴展的潛力。

      3、原生多頭注意力(Native Multi-Hea′d Attention):針對不同模態特點,NEO在統一框架下實現了文本token的自回歸注意力和視覺token的雙向注意力并存。基于此,模型可以無視線性化順序,直接根據原生三維旋轉位置編碼(Native-RoPE)的二維坐標來學習任意兩個空間區域的語義和幾何關系,以支撐復雜的圖文混合理解與推理。

      三、三階段訓練,平穩過渡視覺能力與復雜文本指令

      NEO模型的訓練分為三個階段逐步推進:預訓練、中期訓練和監督微調。


      在預訓練階段,訓練的主要工作是學習基礎視覺概念和上下文關系,并在預訓練語言模型的指導下,初步建立圖像與文本之間的對齊。NEO架構采用了Pre-Buffer(NEO中新增的視覺層)和Post-LLM(NEO中的語言大腦)分離式預訓練,這一階段Post-LLM被凍結,Pre-Buffer需要從頭開始學習視覺感知能力,這保護了語言模型不被低質量的圖像-文本對破壞,實現跨模態學習。這一階段使用了約3.45億的網絡和合成的圖像-文本對的數據。

      中期訓練階段的核心目標是強化視覺與語言能力的對齊,提升模型對高分辨率圖像、復雜場景、小物體和OCR文本的感知能力。這一階段的訓練數據來自InternVL-1.5的預訓練語料庫,包含4000萬樣本數據,整個架構使用相同的損失函數進行更新,以鞏固視覺-語言對齊。

      在監督微調階段,NEO能夠遵循復雜指令、進行多輪對話和執行多樣化任務,更適用于實際應用。研究人員使用約400萬高質量、多來源的指令數據,涵蓋視覺問答、多模態對話、數學推理、知識問答等多種任務。

      階段式訓練不僅防止了視覺訓練破壞已有的語言能力,確保穩定優化,還能實現模型能力從基礎的視覺概念到復雜指令的平滑過渡。

      結語:正探索NEO規模化和突破數據瓶頸,拓展多模態應用邊界

      NEO系列模型實現了模型數據訓練的高效性,其性能在同等參數規模原生VLM模型中處于領先地位。在圖表和文檔結構化理解上,NEO模型具有明顯優勢和競爭力。受制于訓練數據和計算資源,NEO模型仍表現出了媲美頂尖模塊化VLM的實力。

      NEO模型還存在密集文本識別和理解能力的不足、依賴外部知識的短板。不過,研究人員指出這并非是架構的缺陷,而是訓練數據集的覆蓋范圍、知識密集型樣本、高質量數據的不足。

      研究人員稱,未來他們將會探索更大規模的NEO模型,解決知識和文本理解短板,開發稀疏架構,探索視頻、具身智能等新應用場景。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一個巨大的半導體泡沫!寒武紀,摩爾線程,沐曦營收70億,市值1.2萬億

      一個巨大的半導體泡沫!寒武紀,摩爾線程,沐曦營收70億,市值1.2萬億

      爆角追蹤
      2025-12-17 19:24:09
      打的就是精銳!烏軍在波克羅夫斯克附近重創俄羅斯一整個精銳師

      打的就是精銳!烏軍在波克羅夫斯克附近重創俄羅斯一整個精銳師

      知法而形
      2025-12-17 22:17:48
      4次撲點 6冠加身!俄羅斯門將封神之作:巴黎全隊致敬英雄

      4次撲點 6冠加身!俄羅斯門將封神之作:巴黎全隊致敬英雄

      葉青足球世界
      2025-12-18 08:41:33
      赴日外國游客突破3900萬人次再創歷史新高 中國游客影響有限

      赴日外國游客突破3900萬人次再創歷史新高 中國游客影響有限

      顫抖的熊貓
      2025-12-17 22:12:26
      澤連斯基還是跪了,其實結果早已注定

      澤連斯基還是跪了,其實結果早已注定

      阿爾法34號
      2025-12-18 09:05:34
      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      杭城村叔
      2025-12-17 21:01:23
      12月21冬至,比牛羊肉還補的是這“3樣”,營養全易消化,不上火

      12月21冬至,比牛羊肉還補的是這“3樣”,營養全易消化,不上火

      阿龍美食記
      2025-12-17 19:54:39
      稅務局回應大廳凳子被指形似刑具:大家反饋坐著很舒服,專門定做的,采購經過正規審批,價格比市場便宜

      稅務局回應大廳凳子被指形似刑具:大家反饋坐著很舒服,專門定做的,采購經過正規審批,價格比市場便宜

      觀威海
      2025-12-18 10:18:04
      馬斯克預測某車企:必死!

      馬斯克預測某車企:必死!

      電動知家
      2025-12-17 16:25:04
      海南封關首日實探三亞免稅城:免稅價疊加消費券,蘋果手機最高可減1000元

      海南封關首日實探三亞免稅城:免稅價疊加消費券,蘋果手機最高可減1000元

      極目新聞
      2025-12-18 12:08:09
      陳慧琳演唱會穿三角褲衩,五十多了合適嗎?人老心不老

      陳慧琳演唱會穿三角褲衩,五十多了合適嗎?人老心不老

      蕾爸退休日記
      2025-12-16 22:37:37
      南京博物院館藏明代《江南春》現身拍賣市場,捐贈者后人起訴博物館:為何多幅名畫“消失”

      南京博物院館藏明代《江南春》現身拍賣市場,捐贈者后人起訴博物館:為何多幅名畫“消失”

      澎湃新聞
      2025-12-17 08:16:28
      姆巴佩獨造3球,年度65球比肩三大傳奇,皇馬3-2險勝魚腩晉級16強

      姆巴佩獨造3球,年度65球比肩三大傳奇,皇馬3-2險勝魚腩晉級16強

      釘釘陌上花開
      2025-12-18 05:57:26
      11月中國訪日游客:56.3萬人次, 同比增長3%

      11月中國訪日游客:56.3萬人次, 同比增長3%

      新浪財經
      2025-12-17 20:01:07
      柬埔寨街頭為什么拆除中文招牌?

      柬埔寨街頭為什么拆除中文招牌?

      懷疑探索者
      2025-12-17 20:34:23
      太突然!菲律賓20艘漁船“鐵索連環”闖黃巖島,馬科斯這招真的狠

      太突然!菲律賓20艘漁船“鐵索連環”闖黃巖島,馬科斯這招真的狠

      潮鹿逐夢
      2025-12-18 11:08:23
      故宮一件我一件的含金量又上升了,南京博物館藏品細節越挖多了!

      故宮一件我一件的含金量又上升了,南京博物館藏品細節越挖多了!

      你食不食油餅
      2025-12-18 02:04:53
      美國現在也攔不住泰國,大難臨頭了洪森才明白,中方的做法最正確

      美國現在也攔不住泰國,大難臨頭了洪森才明白,中方的做法最正確

      博覽歷史
      2025-12-17 17:04:35
      4300萬粉絲網紅劉二狗賬號被封

      4300萬粉絲網紅劉二狗賬號被封

      三言科技
      2025-12-18 08:48:13
      高標準梯田(農田)荒廢的背后 完全不切實際一場鬧劇

      高標準梯田(農田)荒廢的背后 完全不切實際一場鬧劇

      原某報記者
      2025-12-17 14:31:27
      2025-12-18 14:39:00
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      10926文章數 116928關注度
      往期回顧 全部

      科技要聞

      新一代AI創業大賽頒獎典禮暨AI投資論壇

      頭條要聞

      絲芭傳媒再發文:將舉報鞠婧祎涉嫌嚴重經濟犯罪行為

      頭條要聞

      絲芭傳媒再發文:將舉報鞠婧祎涉嫌嚴重經濟犯罪行為

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      內娛解約大戰:鞠婧祎和絲芭,誰是狼人

      財經要聞

      重大改革,身關14億人的政策徹底變了!

      汽車要聞

      開箱日產大沙發 精致辦公or躺平追劇 哪個更適配?

      態度原創

      藝術
      本地
      手機
      家居
      公開課

      藝術要聞

      卡洛斯·杜蘭:不只是薩金特的老師!

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      手機要聞

      日版App Store大改 引入第三方應用商店與支付選項

      家居要聞

      高端私宅 理想隱居圣地

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本狠狠干| 免费人成在线观看网站| 国产精品被熟女| 欧美精品人妻| 无码专区—va亚洲v天堂麻豆| 日本高清不卡aⅴ免费网站| 国产婷婷精品av在线| 屁屁影院国产第一页| 亚洲AV无码一区东京热久久 | 精品黑人一区二区三区国语馆| 九色91| 熟女性饥渴一区二区三区| 伊人久久无码中文字幕| 亚洲日韩国产精品第一页一区 | 最近中文字幕免费手机版| 丝袜熟女720p| 中文字幕一区av97| 久久久久久久97| 国产精品午夜无码AV天美传媒| 久久草网站| 久久久无码一区二区三区| 色窝窝无码一区二区三区| 无码欧洲| 金寨县| 熟女丝袜潮喷内裤视频网站| 露脸国产精品自产拍在线观看| 久久久久中文字幕| 自拍口爆| 久久国产色av免费观看| 熟妇的奶头又大又长奶水视频| 久久久久久久久久久久无码| 蜜臀av在线观看| 成熟丰满熟妇高潮xxxxx| 超碰人人艹| 国产97色在线?|?日韩| 一本无码av中文出轨人妻| 一个色的导航| 亚洲乱码中文字幕| 日韩在线不卡免费视频一区| 欧美精品中文字幕亚洲专区| 无码伊人66久久大杳蕉网站谷歌|