作者|子川
來源|AI先鋒官
這個夏天最爽的事情,莫過于熱熱鬧鬧的外賣大戰(zhàn)!
實(shí)在是太省錢啦!
當(dāng)大家還在推測這場補(bǔ)貼大戰(zhàn)還要持續(xù)多久之時,美團(tuán)忽然把方向盤一打。
宣布:我要發(fā)布個開源大模型啦!
![]()
就在昨天,美團(tuán)發(fā)布了其首款開源大模型LongCat-Flash,這是一款擁有5600億個總參數(shù)的MoE(混合專家)模型。
![]()
為什么會推出這款來源大模型?
美團(tuán)CEO王興在不久前的年報電話會上,曾給出清晰的戰(zhàn)略框架。
王興將美團(tuán)的AI戰(zhàn)略闡述為三個層次:第一層是工作中的AI ,用以提升內(nèi)部員工的生產(chǎn)力;第二層是產(chǎn)品中的AI ,用AI升級現(xiàn)有服務(wù)并推出全新的AI原生產(chǎn)品;最后是自研大語言模型 。
LongCat-Flash正是第三層戰(zhàn)略的直接體現(xiàn)。
在這個戰(zhàn)略藍(lán)圖下,美團(tuán)核心本地商業(yè)CEO王莆中曾公開確認(rèn)稱,正打造的“ 專屬生活小秘書 ”,就是那個最核心的AI原生產(chǎn)品。
而且,尤其值得關(guān)注的是,LongCat-Flash的訓(xùn)練,并非基于英偉達(dá)GPU完成。
在其官方報告中,美團(tuán)使用了“數(shù)萬個加速卡”的模糊表述。
由于一些原因,該硬件廠商的具體名字不方便透露。
意義重大。
產(chǎn)品方面,據(jù)介紹,LongCat-Flash采用 Shortcut-connected MoE 架構(gòu)和 “零計(jì)算專家” 雙重機(jī)制,使總參數(shù) 5600 億的模型在推理時僅僅激活 18.6B–31.3B 參數(shù)。
能實(shí)現(xiàn)每秒 100 tokens 以上的單卡推理速度, 比DeepSeek-V3 還快 50%。
別看美團(tuán)是外賣公司,但其開源的LongCat-Flash模型紙面實(shí)力一點(diǎn)都不弱。
![]()
它在Agent工具調(diào)用、指令遵循的表現(xiàn)超過國內(nèi)數(shù)一數(shù)二的DeepSeek-V3.1、Qwen3 MoE-2507,甚至比閉源的Claude4 Sonnet還要好。
不過LongCat-Flash在通用領(lǐng)域、編程等場景的能力和、Kimi-K2、Qwen3 -2507還有一定差距。
價格上,LongCat-Flash屬于物美價廉,據(jù)美團(tuán)龍貓團(tuán)隊(duì)介紹,輸出成本低至 5 元/百萬 Token。
那效果到底如何,我們來測試一番,作為初來乍到的模型,當(dāng)然得把之前模型踩過的坑都再踩一遍,看它能不能hold得住。
首先,是一道曾難倒無數(shù)模型的比大小問題——9.11和9.8誰大?
![]()
遺憾,開局不利,LongCat-Flash回答錯誤,比大小失敗。
接下來,是另一個經(jīng)典的坑——數(shù)字母。
我們讓它數(shù)“Strawberry”這個詞中有幾個字母“r”,為了防止數(shù)據(jù)被提前訓(xùn)練,我們特意在原詞基礎(chǔ)上多加了一個“r”。
![]()
在加了一個字母“r”的情況下,LongCat-Flash依舊回答正確,扳回一局!
為了驗(yàn)證它是否是真的會數(shù)字母,換一個詞”assessments“,讓它數(shù)里面有幾個字母“s"。
![]()
這次就沒有回答正確,”assessments"有5個字母“s”,而它給出的回答是4次。
再來看看下一道題,一根8米的繩子,可以通過寬2米,長2米的門嗎?
![]()
還是翻車,依舊回答錯誤,LongCat-Flash給出的回答是“一根8米的棍子無法直接通過寬2米,長2米的門”。
很遺憾,在這些曾用于刁難其他模型的經(jīng)典測試題中,LongCat-Flash的表現(xiàn)并沒有想象中的那么好
不過,這并不能代表該模型的全部實(shí)力,直接進(jìn)入下一趴,和其他模型來場PK。
此次派出的選手分別是Deepseek R1和Qwen3 -2507,看看LongCat-Flash能否真的辣么厲害。
為了防止它們這三兄弟“開掛”,測試過程中不開搜索。
測試題一:高三摸底試卷題
![]()
這道題是一道多選題,正確答案是:A、B、D,看看哪位選手能做對,為了測試的準(zhǔn)確性,將題目轉(zhuǎn)換成了LaTeX格式。
LongCat-Flash:
![]()
Deepseek R1:
![]()
Qwen3 -2507:
![]()
Qwen3 -2507和Deepseek R1都回答準(zhǔn)確,出個了正確答案:ABD,反觀LongCat-Flash回答錯誤,露了一個A。
測試題二:天氣卡片
提示詞:
Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions
經(jīng)典老題,測試模型的美感,看誰生成的更加好看。
LongCat-Flash:
Deepseek R1:
Qwen3 -2507:
從上面的視頻不難看出,LongCat-Flash生成的效果真不賴,不過如果要說誰生成的效果更好看,那自然是Qwen3 -2507。
測試題三:3D山脈
提示詞:創(chuàng)建一個 3D HTML 山脈場景,包含懸崖、河流和晝夜光照變化。支持拖動和縮放、動畫過渡、真實(shí)感漸變色,并可切換等高線顯示。
這道題主要是測試模型的編程能力,因?yàn)闇y試了很多模型,發(fā)現(xiàn)有很多模型面對這道題,生成的效果都不咋樣,看看它們是否能交出一個滿意的答卷。
LongCat-Flash:
Deepseek R1:
Qwen3 -2507:
這次測試不知道為什么,連續(xù)生成了3次,DeepSeek R1都沒有生成完整的山脈,而LongCat-Flash和Qwen3 -2507則是生成出來了,但LongCat-Flash生成的效果更好。
測試題四:邏輯推理題
提示詞:給
甲、乙、丙三人各發(fā)一個正整數(shù),并告訴他們他們?nèi)说臄?shù)字之和為14。甲對乙和丙說:我知道你們兩人的數(shù)字一定不相等。
乙想了想,對甲說:我們兩人的數(shù)字之差一定比丙大。
丙聽完甲和乙的話后,依舊沉默不語。
若甲乙丙三人都很聰明,且只要他們能推斷出三人的數(shù)字分別是什么,那個人會在第一時間說出。(不考慮甲、乙見到丙沉默之后是否知曉)
那么,丙的數(shù)字是多少?
先說答案:4。
LongCat-Flash:
![]()
Deepseek R1:
![]()
Qwen3 -2507:
![]()
全部回答準(zhǔn)確。
雖然此次測試沒有基準(zhǔn)測試那么全面,但也可以看出各個模型的優(yōu)缺點(diǎn)。
目前美團(tuán)的LongCat-Flash模型已經(jīng)上線Hugging Face、GitHub等開源平臺,技術(shù)報告同步發(fā)布。
同時,美團(tuán)也提供了LongCat-Flash模型的網(wǎng)頁版體驗(yàn)鏈接。
傳送門:longcat.ai/
感興趣的小伙伴可以去試一試。
掃碼邀請進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
往期文章回顧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.