這是蒼何的第 449 篇原創(chuàng)!
大家好,我是馬大哈蒼何。
有幸受邀來參加百度 2025 世界大會了,不幸的是身份證掉了。
本來應(yīng)該從從容容、游刃有余,現(xiàn)在是匆匆忙忙、連滾帶爬
![]()
這次百度連著發(fā)了不少新東西,其中印象深刻的是文心 5.0 的發(fā)布,且是原生全模態(tài)大模型。
![]()
也就意味著文心 5.0 能支持文、圖、視、音的聯(lián)合輸入與輸出,實現(xiàn)原生的全模態(tài)統(tǒng)一理解與生成。
![]()
為什么我覺得這個還挺拿出來說說的,我現(xiàn)在先不說,我想先放幾個 case 給你先看看。
這是上傳一段《狂飆》的「老莫,我想吃魚」的片段,它居然能自動分析出是哪一部劇。
![]()
然后我輸入:
幫我分析這段影視劇片段的演技,聯(lián)系上下文分析這段情感的爆發(fā)表現(xiàn)如何,
最后給我寫一段100字的小紅書分享文案。 ![]()
文心說強哥不是真的想吃魚,而是想搞事了,還分析了下張頌文老師表演的情緒,好家伙。
表明文心 5.0Preview 不僅能識別畫面內(nèi)容,還能理解視頻背后的情感與敘事意圖。
我還挺來勁的,又丟了 2 個梅西和 C 羅點球的視頻給文心 5.0Preview,并放了一個對比提示詞,順帶分析下是誰在點球。
這是2個球員點球的視頻,對比2個視頻中球員的點球動作,(如射門技巧、過人方式)
分析他們的點球射門風格,然后猜測分別是哪個明星球員。這是帶字幕的梅西點球視頻:
這是不帶字幕的 C 羅點球視頻:
這是文心 5Preview 的思考:
![]()
可以看到它居然知道視頻里提到了梅西減慢速度,這有可能是從視頻字幕上做的識別,也有可能是從語音組的識別。
就很強,但這還不是最強的,最強的是它識別 C 羅的手段,一度讓我懷疑它們是不是內(nèi)置了個柯南?
![]()
從球衣的顏色、號碼和比賽場景等多個維度分析,甚至還結(jié)合了射門的腳法,最終確定這就是 C 羅。
![]()
可以看到,在綜合推理方面更強,它不容易被單一模態(tài)誤導(dǎo),能從多角度解釋畫面合理性并復(fù)現(xiàn)完整情節(jié)
測完這個 case,我就在群里說了一句話:文心的這個對比視頻后分析真牛逼!
![]()
下一個 case 是進行族譜修復(fù)測試,今天我爸爸的一個朋友加了我說找到了我們家族的族譜。
![]()
真的好感動,原來知道根的感覺是這么讓人熱淚盈眶,我們不能也不該忘了自己的祖先。
但我打開,全部都是這樣的很有年代感和滄桑感的復(fù)印件:
![]()
我現(xiàn)在想著把這張圖片丟給文心 5Preview,然后讓他幫我生成我能看的懂的族譜:
這個是一張族譜圖,請幫我分析下說了啥,以及從族譜中能看出是哪一個家族嗎?并幫我根據(jù)內(nèi)容重新生成一張族譜圖。 ![]()
然后生成了一份我能看的懂的族譜:
![]()
我又根據(jù)這個思路把阿姨發(fā)我的全部族譜進行了翻譯,才真正看懂了族譜,并把我們家族的歷史徹徹底底的了解了一遍。
從蕭何到梁武帝蕭衍,到唐朝,到宋朝,祖上都特別的文脈軍功起家,可以說文脈源遠流長。
到我這輩,雖說沒在官場報效國家,但也好在能寫寫文章,給全世界的人都能看到,輸出價值,也算沒辜負「文脈」。
這是我們真正的根,將來不管我們走到哪里,都不能忘記的。
然后我又測了它的文本生成和寫作能力,我給了這么一個提示詞:
你現(xiàn)在是“時空歷史檔案館”的一名高級AI研究員。你的任務(wù)是處理一份剛剛從“數(shù)據(jù)遺跡”中搶救出來的、關(guān)于“克拉肯市”的殘缺檔案。這份檔案描述了一個奇特的、圍繞著巨型海洋生物“海克拉”而建的城市。你需要根據(jù)檔案內(nèi)容,完成一系列的修復(fù)與重構(gòu)工作。以下是你要處理的【原始檔案材料】(約600字):“克拉肯市(Krakenburg)的命脈,既非黃金也非電力,而是‘海克拉’——那頭棲息在城市下方深海海溝中、如山脈般巨大的遠古生物。城市的奠基者們發(fā)現(xiàn),海克拉的皮膚會分泌一種名為‘深海凝膠’的生物質(zhì),這種凝膠在接觸空氣后會迅速硬化,形成一種比鋼鐵更堅韌、卻又溫潤如玉的建筑材料。于是,一座完全由‘凝膠’構(gòu)筑的城市在海上拔地而起。城市社會結(jié)構(gòu)因此分為兩大階層:‘采膠人’和‘塑形師’。‘采膠人’是勇敢的潛水員,他們穿著老舊的、由黃銅和皮革制成的潛水服,下潛到數(shù)百米的深海,用特制的刀具小心翼翼地從沉睡的海克拉皮膚上刮取凝膠。這是一項極其危險的工作,海克拉的每一次呼吸都能引發(fā)致命的洋流,任何驚擾都可能導(dǎo)致它的蘇醒。因此,采膠人形成了一個紀律嚴明、信奉“與海克拉共生”教條的封閉社群,他們居住在城市下層,被稱為“深潛者公會”。‘塑形師’則是克拉肯市的藝術(shù)家和工程師。他們居住在城市上層,享受著陽光和尊敬。他們掌握著將液態(tài)凝膠塑造成宏偉建筑、精美藝術(shù)品乃至生活用具的秘方。塑形師們認為,海克拉只是一種取之不盡的自然資源,應(yīng)該被更高效地利用。他們不斷研發(fā)新的、更具侵略性的采集工具,希望能實現(xiàn)凝膠的“工業(yè)化”開采,這與采膠人“不過度驚擾”的信條產(chǎn)生了根本性的沖突。近年來,隨著城市人口的擴張,對凝膠的需求日益增長。塑形師公會中的激進派系“齒輪兄弟會”私下研發(fā)了一種“聲波鉆探機”,宣稱可以在不直接接觸的情況下,從海克拉體內(nèi)“震”出更多凝膠。這一計劃被深潛者公會視為對海克拉的褻瀆和致命挑釁。兩個階層的矛盾已經(jīng)從過去的口角,升級到了街頭的械斗。城市上空的凝膠尖塔和下層的黃銅管道之間,緊張的空氣一觸即發(fā)。一份古老的預(yù)言在采膠人之間流傳:當海克拉流下眼淚時,城市將重歸深海。”---請根據(jù)上述【原始檔案材料】,嚴格按照以下要求,完成一份完整的“檔案重構(gòu)報告”。報告必須包含四個部分,并嚴格遵循每個部分的格式和內(nèi)容指令。1. 第一部分:檔案摘要 (Part 1: Archive Summary)* 任務(wù): 將上述檔案材料總結(jié)成一段嚴格限制在180到200字之間的摘要。* 指令:摘要必須清晰地概括出克拉肯市的世界觀設(shè)定、兩大階層及其核心矛盾禁止在摘要中使用“海克拉”這個詞,必須用其他描述性詞語代替(例如“巨型海洋生物”、“城市之基”等)。2. 第二部分:核心沖突分析 (Part 2: Core Conflict Analysis)* 任務(wù): 用一個無序列表(Markdown的 `-` 或 `*`)的形式,列出并分析導(dǎo)致兩大階層沖突的三個主要原因。* 指令:每個原因的分析都需要先用【原因】標簽開頭,再進行闡述。分析必須入到哲學(xué)、資源和技術(shù)三個層面。3. 第三部分:創(chuàng)意故事補完 (Part 3: Creative Story Completion)* 任務(wù):以“一個年輕的采膠人學(xué)徒”為第一人稱視角,撰寫一篇大約400字的短篇故事。* 指令:* 故事必須發(fā)生在“齒輪兄弟會”的“聲波鉆探機”首次秘密實驗的那個晚。* 故事中必須包含以下三個元素:“父親的老舊潛水頭盔”、“凝膠散發(fā)出的微光”、“來自深海的低沉共鳴聲”。* 故事的整體基調(diào)應(yīng)為懸疑和不安。* 絕對不許出現(xiàn)任何對話,必須純靠主角的感官和內(nèi)心活動來推進故。4. 第四部分:后續(xù)情節(jié)構(gòu)思 (Part 4: Plot Outline)* 任務(wù):基于檔案內(nèi)容和你的創(chuàng)意故事,設(shè)計三個可能的后續(xù)情節(jié)發(fā)展方向。* 指令:必須以設(shè)問句的形式提出,每個設(shè)問句代表一個情節(jié)走向。例如:“如果聲波鉆探機導(dǎo)致了意想不到的后果,那會是什么?”最終輸出要求:
請將以上四個部分整合在一個回復(fù)中,并使用Markdown的二級標題(##)來區(qū)分每個部分,標題分別為“## 檔案摘要”、“## 核心沖突分析”、“#、“## 后續(xù)情節(jié)構(gòu)思”。
這是個巨長的傻逼指令,說實話,要是個正常人,接到指令第一句話是來一句 MMP。
但 AI 就是好,還是老實工作,還不抱怨:
![]()
寫作能力有了很大進步,真人味道更多了,最終完成效果還不錯。
![]()
文心 5.0Preview 的圖片理解能力表現(xiàn)很贊,除了圖片輸入理解,也還能做圖片輸出。
比如這個提示詞:
幫我制作一張圖片,國風水墨風格,一個長長黑發(fā)的男人,金色的發(fā)簪,
飛舞著金色的蝴蝶,白色的服裝,高細節(jié),高質(zhì)量,深藍色背景,背景中有若隱若現(xiàn)的水墨竹林。出來這個效果挺好。:
![]()
文字、視頻、圖片都 OK 了,最后看看音頻。我上傳一段播客錄音,然后讓它幫我輸出成轉(zhuǎn)為逐字稿。

居然一字不落的全部識別到位,這場景就多了啊。
最后試試代碼能力,讓生成一個 breakout 游戲:

代碼能力有了很大進步,不過輸出有些不穩(wěn)定,復(fù)雜任務(wù)耗時有些長。
經(jīng)過上面全部 case 的測試驗證,對原生全模態(tài)大模型有了更深的理解。
它不同于后期融合方式的多模態(tài)模型,需要在訓(xùn)練伊始便融合語言、圖像、視頻、音頻等多模態(tài)數(shù)據(jù)。
這樣才能更好支持文、圖、視、音的聯(lián)合輸入與輸出,實現(xiàn)原生的全模態(tài)統(tǒng)一理解與生成。
采用了超稀疏混合專家架構(gòu),文心 5.0 的總參數(shù)規(guī)模超過 2.4 萬億個。
而且基于思維鏈和行動鏈的端到端多輪強化學(xué)習(xí)訓(xùn)練,實現(xiàn)了長程任務(wù)增強的智能體能力。
![]()
講真的,以前覺得修族譜是件特麻煩、特遙遠的事。
沒想到一個 AI 工具,就把幾代人的故事給重新串了起來。
原來,找到自己的根,可以這么簡單,這么酷。
唯有族譜,能讓百姓流芳百世。
我們應(yīng)該也給文心 5.0 更多期待,給永不下桌的百度更多期待。
就像給一直努力的我們自己更多期待一樣。
這一期的分享就到這啦,如果喜歡,歡迎點贊轉(zhuǎn)發(fā)給需要的朋友。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.