<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      細說|文心5.0 :2.4萬億參數、原生全模態架構

      0
      分享至

      今天是百度世界大會,文心 5.0 發布

      對于這個模型,要點歸結如下:

      • ? 2.4 萬億參數 :MoE架構,激活參數低于 3%

      • ? 原生全模態 :不同的路線選擇, 我覺得這是最大的發布,會細說

      • ? 40 余測試領先 :語言與多模態的綜合能力,與 Gemini-2.5-Pro、GPT-5-High 等模型持平

      語言能力 BenchMark “原生全模態”

      這次發布最大的信息點,是原生全模態這個架構

      要理解全模態,得從多模態說起

      這個詞,大家不陌生,最基礎的就是 AI 能看圖,后續還有能聽聲音、能看視頻,乃至能畫圖,這是怎么做的呢?

      最開始:假裝多模態

      最開始是純工程技巧,看圖靠 OCR、看視頻靠識別字幕、聽聲音靠 ASR(語音轉文字,然后再理解)


      OpenAI 的手搓規范: 讓 GPT 假裝學會多模態 接下來:學會多模態

      再之后,來到了「多模態」時代,廠商們也各自推出了「多模態模型」,一種做法是采用“后期融合”(Late Fusion),或者...我愿稱之為稱之為“拼好模”的策略

      簡單來說,就是為不同的信息模態(如文本、圖像、音頻)分別訓練獨立的編碼器(Encoder)。這就像是為不同的語言分別找了專家翻譯(差不多就這個意思)。一個圖像專家負責把圖片“翻譯”成機器能理解的數字特征,一個文本專家負責處理文字


      這事兒,最典型的就是當年的 GPT4-Vision,圖片到代碼

      舉個例子,當模型接到一個圖文任務時,它會先把這些專家的“翻譯稿”收集起來,再交給一個更高層的模塊進行整合,最終輸出結果。當然了,在多次“翻譯”和“整合”的過程中,信息不可避免地會產生損耗和偏差

      到現在:成為全模態(還在進行)

      原生全模態,則是想從根上解決問題,讓大模型能夠融合的處理各種信息


      換句話說:只有融合了全模態,才能把 AI 真當個人用

      這個方向,從原生多模態開始,Google 的 Gemini 是第一個大規模商業化并強調 原生多模態(natively multimodal) 概念的主流大模型,支持多模態的輸入,和文字的輸出。再之前,OpenAI 的 GPT-4V、Google 自己的 PaLM 等都是后期融合方式

      百度也在這個方向進行了探索,理論上還更進一步,就是這個文心 5.0,是按原生全模態來做的,架構上支持全模態的理解和輸出(文字、圖像、聲音和視頻)

      原生全模態 不同于業界多數的多模態模型采用后期融合的方式,文心 5.0 的技術路線是采用統一的自回歸架構進行原生全模態建模,理解與生成一體化。 ——王海峰,百度首席技術官

      這里面有幾個硬骨頭要啃:

      第一個:理解生成一體化
      多模態的理解和生成,在技術上是兩種不同的任務,需要模型在學習生成一張圖片的同時,也在提升它對圖片的理解能力,反之亦然

      第二個:統一架構下的訓練效率
      把不同模態的數據硬塞進一個統一的自回歸架構,需要極強的工程能力,也需要非常多的試錯(這個免不了)

      第三個:推理成本優化
      這事兒我還去專門問了,以百度這個為例,干了很多臟活累活辛苦活,包括不僅限于多模態編碼器分離異步訓練、動態自適應顯存卸載、FP8 混合精度訓練等

      沒辦法...搞模型的也是得為了用,控制好計算與推理成本,才能讓東西有上線的可能

      當然,理想和現實總有差距,大家都在往這個方向嘗試,但迄今為止,誰都沒完整放出來

      期待 全模態輸入+全模態輸出(能輸出各類內容) 目前 全模態輸入+多模態輸出(輸出圖片+文字)

      順便說下 MoE

      這里額外提一下,國內最早公開大規模落地 MoE 架構的,是“悟道”團隊(北京智源研究院)2021年,他們訓練了一個 1.75 萬億參數的模型


      悟道2.0...這是許多東西,開始的地方

      這兩年 MoE 也是體量模型的主流,從 Mistral-8x22B (還有人記得這個么)到 DeepSeek 671B、到 Kimi K2 和 MiniMax M2(這倆萬億參數),反正一個比一個大


      去年初的 Mistral,恍如隔世...

      百度這個文心5.0,參數又翻了一倍,到了2.4 萬億,應該是目前業界已公開參數的模型中,體量最大的

      能力表現

      這塊分為兩部分,先說說多模態帶來能力提升,再說說官方給到的評分榜單

      多模態能力

      音視頻理解
      先給大家洗洗耳朵,這首歌我聽了好多遍

      真的,這首《遇害》,我聽了好多好多遍,希望你也喜歡


      多圖/視頻比較
      這里有一個非常獨特的 case:圖片找不同


      在【找不同】的場景下,如果大模型是工程做法,則難以完成,比如:先把圖片轉化成文字描述,像這樣

      • [第一張圖片:一只貓在玩球,背后是xxxx]

      • [第二張圖片:一只貓在玩球,背后是xxxx]

      工程做法中,大模型會把這兩個描述塞進上下文里,然后對這兩個這兩個描述詞進行比較。自然的,完成不了【找不同】的這個任務

      但你會發現,如果 AI 能過全模態的進行理解,是會把我的文字提問、兩張圖的信息,都進行處理,并得到正確的結果



      細節捕捉&推理
      我們都知道,華強喜歡吃西瓜

      但華強不是孔融,西瓜肯定得拿大的

      那么,劈開的瓜中,是左邊大,還是右邊大?


      這里我也校驗了一下,確實是左邊瓜大


      評分榜單

      語言的相關榜單,對比 Deepseek-V3.2-Exp/Gemini-2.5-Pro/GPT-5(high),從左往右依次為:

      • (平均值)

      • 知識:SimpleQA、ChineseSimpleQA

      • 指令遵循:IFEval、MultiChallenge

      • 學科綜合:MMLU-Pro、Hulmanity's Last Exam

      • 邏輯推理:ZebraLogic、BBEH

      • 數學:AIME 2025、HMMT 2025

      • 代碼:LiveCodeBench v6(24.08-25.05)、HumanEval+、MBPP+

      • 智能體:TAU2-Bench、ACEBbench-en、ACEBbench-zh、BFCL V4、terminal-benc@1.0、BrowseComp-zh、SpreadSheetBench

      • 多語言:MMMLU-Lite、Multi-IF

      語言相關榜單

      音頻理解的相關榜單,對比 GPT-4o Audio/Gemini 2.5 Pro,從左往右依次為:

      • 音頻理解:MMAU、TUT2017、CochScene

      • 文本語音對話:OpenAudioBench-AlpacaEval、OpenAudioBench-Llama Questions、OpenAudioBench-Reasoning QA、OpenAudioBench-TriviaQA、OpenAudioBench-Web Question

      • 語音識別(數值越低越好):LibriSpeech(avg)-EN、Fleurs-EN、Fleurs-ZH、AISHELL-2-ZH

      音頻理解相關榜單

      視覺理解的相關榜單,對比 Gemini-2.5-Pro,GPT-5(high),從左往右依次為

      • (平均值)

      • 理科&推理:MathVista、MathVerse、MathVision、MMMU、VLM are Blind、VisuLogic、VisualPuzzle

      • 文檔理解:ChartQA、AI2D、DocVQA(val)、OCRBench、CharXiv-RQ、CharXiv-DQ

      • 通用視覺問答:SimpleVQA、HallusionBench、MMStar、BLINK、CV-Bench、CountBench

      視覺理解相關榜單 最后

      講個冷知識,百度是第一批整大模型的

      在 2019 年 3 月,百度弄了文心1.0


      https://arxiv.org/abs/1904.09223

      在 ChatGPT 誕生后,百度也是發布了文心一言


      2023年3月16日

      后續幾年,節奏似乎就放緩了..

      到了 2025,有點抬頭的意思了,能感到是開始重新做了投入,包括PaddleOCR-VL和這次的模型發布,就給人一種感覺(也不知道對不對)

      百度回歸牌桌

      聲明:包含AI生成內容

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美軍玩砸了,后悔搶中國原油,新令開啟“熬鷹游戲”,看誰先眨眼

      美軍玩砸了,后悔搶中國原油,新令開啟“熬鷹游戲”,看誰先眨眼

      野史日記
      2025-12-26 08:42:08
      嘉興市原市長李軍調任浙江省海洋經濟發展廳黨組書記,曾在湖南工作27年

      嘉興市原市長李軍調任浙江省海洋經濟發展廳黨組書記,曾在湖南工作27年

      上觀新聞
      2025-12-26 20:49:34
      極目政情丨蘇州市委書記范波(湖北洪湖人),添新職!

      極目政情丨蘇州市委書記范波(湖北洪湖人),添新職!

      極目新聞
      2025-12-26 16:00:36
      外交部:中方堅決反對日本在網絡領域的危險舉動

      外交部:中方堅決反對日本在網絡領域的危險舉動

      界面新聞
      2025-12-26 15:24:02
      悲催!廣州一工廠從廣州搬遷到湖南,不去的人根本都不提怎么安排

      悲催!廣州一工廠從廣州搬遷到湖南,不去的人根本都不提怎么安排

      火山詩話
      2025-12-26 17:09:42
      打回原形!CBA第一后衛被張鎮麟打爆,想超過徐杰還差的很遠

      打回原形!CBA第一后衛被張鎮麟打爆,想超過徐杰還差的很遠

      宗介說體育
      2025-12-26 13:05:24
      網購“10-9”枚鹵蛋實得1枚顧客最新發聲:蛋已吃,并獲10倍賠償;律師:商家強詞奪理涉嫌欺詐

      網購“10-9”枚鹵蛋實得1枚顧客最新發聲:蛋已吃,并獲10倍賠償;律師:商家強詞奪理涉嫌欺詐

      極目新聞
      2025-12-26 19:33:46
      爆砍56+16+15+2!抱歉哈登:你從歷史第一變成了歷史第二

      爆砍56+16+15+2!抱歉哈登:你從歷史第一變成了歷史第二

      籃球大視野
      2025-12-26 18:37:16
      約基奇56+16+15掘金加時三殺森林狼 華子44分被驅逐穆雷35+10

      約基奇56+16+15掘金加時三殺森林狼 華子44分被驅逐穆雷35+10

      醉臥浮生
      2025-12-26 14:42:17
      江蘇省委常委、省紀委書記張忠最新署名文章:激勵干部在中國式現代化新征程上挺膺擔當

      江蘇省委常委、省紀委書記張忠最新署名文章:激勵干部在中國式現代化新征程上挺膺擔當

      無錫發布
      2025-12-26 10:54:58
      多地黨委主要領導調整!其中有一人是中央委員

      多地黨委主要領導調整!其中有一人是中央委員

      上觀新聞
      2025-12-26 13:52:06
      大家斷崖式衰老都是在多少歲? 網友的回答很扎心了,滿是無奈

      大家斷崖式衰老都是在多少歲? 網友的回答很扎心了,滿是無奈

      另子維愛讀史
      2025-12-26 16:31:13
      美媒扒愛德華茲離場前爆笑細節:指著3個裁判一頓痛罵 沒放過一人

      美媒扒愛德華茲離場前爆笑細節:指著3個裁判一頓痛罵 沒放過一人

      Emily說個球
      2025-12-26 16:07:48
      姜昆“美國唱紅歌”事件再度升級,郭德綱和寧靜的話,一針見血

      姜昆“美國唱紅歌”事件再度升級,郭德綱和寧靜的話,一針見血

      得得電影
      2025-12-26 13:58:03
      東安控股集團發布通告:因經營困難,鄭州中原保時捷等3家店暫停營業,全體員工放假,暫按最低生活標準發薪

      東安控股集團發布通告:因經營困難,鄭州中原保時捷等3家店暫停營業,全體員工放假,暫按最低生活標準發薪

      大風新聞
      2025-12-26 18:01:04
      價格飆升,多地零售價突破10元/斤!年初一斤僅一兩元,網友:雞蛋都快配不上它了……

      價格飆升,多地零售價突破10元/斤!年初一斤僅一兩元,網友:雞蛋都快配不上它了……

      每日經濟新聞
      2025-12-26 10:01:26
      一家五口駕車在江門施工棧橋墜江遇難 老家村委會負責人:車上有7歲小孩和六旬老人

      一家五口駕車在江門施工棧橋墜江遇難 老家村委會負責人:車上有7歲小孩和六旬老人

      紅星新聞
      2025-12-26 13:15:16
      南京博物館事件后,全國博物館紛紛關閉:施工關閉、臨時關閉

      南京博物館事件后,全國博物館紛紛關閉:施工關閉、臨時關閉

      爆角追蹤
      2025-12-26 11:02:32
      價值50萬元!陜西360克“無主黃金”,至今仍沒找到主人

      價值50萬元!陜西360克“無主黃金”,至今仍沒找到主人

      封面新聞
      2025-12-26 15:09:05
      加時18分歷史首人!約基奇56+16+15刷7紀錄 小丑皇登全美熱搜第一

      加時18分歷史首人!約基奇56+16+15刷7紀錄 小丑皇登全美熱搜第一

      顏小白的籃球夢
      2025-12-26 14:55:39
      2025-12-26 21:20:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      225文章數 12關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      寶馬網紅銷冠推行"一口價"賣車:來回談價累 8天賣11輛

      頭條要聞

      寶馬網紅銷冠推行"一口價"賣車:來回談價累 8天賣11輛

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態度原創

      健康
      親子
      游戲
      公開課
      軍事航空

      這些新療法,讓化療不再那么痛苦

      親子要聞

      62歲懷二胎后續:妹妹發視頻曝光真相,醫生擔心,惡心的一幕出現

      EA又翻車了!最新大作被扒用了AI 藝術錯誤太明顯

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲视屏| 丰满大爆乳波霸奶| 精品国产v| 少妇被粗大的猛烈进出69影院一 | 国产精品毛片一区视频播| 亚洲国产av无码精品无广告 | 久九九精品免费视频| 在线 欧美 中文 亚洲 精品| 欧美又粗又大xxxxbbbb疯狂| 国产九九在线观看| 无码?人妻?在线| 日韩深夜福利视频在线观看| 国产后入又长又硬| 97人人模人人爽人人少妇| 人妻在线网站| 差差差不多30分轮滑网站在线看| 成人精品区| 亚洲国产成人精品女人久久久| 日本丰满少妇高潮呻吟| 无码成a毛片免费| 亚洲欧洲激情| 自贡市| 欧美综合激情网| 日韩无码一区二区三区| 精品人妻少妇一区二区三区在线| 天天噜噜噜在线视频| 一边添奶一边添p好爽视频| 亚洲综合久久一区二区| 最新亚洲av日韩av二区| 97久久天天综合色天天综合色hd| 无码免费中文字幕视频| www.成人人妻| 亚洲丝袜在线播放| 久久99精品久久久大学生| 成人国产片女人爽到高潮| 天天躁久久躁日日躁| 日韩中文字幕人妻无码| 99啪啪| 亚洲中文字幕免费| 亚洲 制服 丝袜 无码| 性中国videossexo另类|