聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
大模型競技場LMArena官宣拿下1.5億美元A輪融資。
估值升至17億美元,妥妥的新年開門紅!
![]()
這波融資由Felicis和加州大學投資公司UC Investments領投,Andreessen Horowitz、The House Fund等機構跟投。
資本用真金白銀投票,足以見得AI時代大模型評估這個賽道有多香~
而這支90后華人含量99%團隊的走紅之路,還得從2023年ChatGPT橫空出世后說起。
從學術探索到商業(yè)崛起
LMArena的前身是曾經(jīng)火爆AI圈的Chatbot Arena,最早由LMSYS這個自發(fā)的開源組織創(chuàng)建。
組織的核心成員全是來自UC伯克利、斯坦福、UCSD、CMU等頂尖高校的學霸。
他們的開源推理引擎SGLang在業(yè)內(nèi)首次實現(xiàn)了在96塊H100上跑出幾乎媲美DeepSeek官方報告吞吐量的開源方案。
目前SGLang已經(jīng)實現(xiàn)大規(guī)模部署,被xAI、英偉達、AMD、谷歌云、甲骨文云、阿里云、美團、騰訊云等企業(yè)和機構采用。
不過,比起硬核技術,他們最主要也更出圈的工作是對大模型進行評估
在ChatGPT、Claude一眾模型剛剛面世之際,他們率先創(chuàng)辦了Chatbot Arena這么一個第三方眾包基準測評平臺。
LMSYS的創(chuàng)辦人之一、SGLang主導者鄭憐憫曾對我們透露,當時之所以創(chuàng)建Chatbot Arena,是因為他們自己訓練了小羊駝Vicuna的開源模型。
![]()
當時他們覺得自己模型還不錯,但市面上已有的各種基準測試很難真正區(qū)分出模型是“真好”還是“假好”。
團隊認為,評估模型最好的方式就是將其放到網(wǎng)上,讓用戶試用并投票。于是乎他們就搞了個眾包測試平臺Chatbot Arena,通過實際的用戶交互來評估模型性能。
結果沒想到的是后來Chatbot Arena已獨立成一家公司,而小羊駝Vicuna等大模型的研發(fā)已經(jīng)停滯。
![]()
早期的Chatbot Arena搞的是雙盲測試,讓用戶在不知道模型身份的情況下盲選最優(yōu)回答,這種模式吸引了大量AI愛好者來打卡。
后來,全球各地一有新模型更新都會在里面偷偷測一把,Chatbot Arena逐漸成為模型測評首選的排行榜。
這樣的影響力讓Chatbot Arena在AI領域嶄露頭角,獲得資本市場的認可。
它獨立出來成為一家商業(yè)公司lmarena.ai,專注于AI模型評估。
2025年5月,被曝獲種子輪1億美元投資,估值達到6億美元。
動態(tài)競技場
lmarena.ai的主要項目就是如今全球大模型的動態(tài)競技場LMArena。
![]()
核心評估規(guī)則圍繞匿名對戰(zhàn)、Elo式評分和人機協(xié)同框架展開,方式也比較有意思。
用戶只要輸入問題,系統(tǒng)就會隨機匹配兩個模型來做匿名回答。
這時候大家不用管模型是誰,只需要根據(jù)回答的好壞投票選出更優(yōu)的那個,系統(tǒng)在投完票之后才會揭曉模型的真實身份。
在評分上,平臺基于Bradley–Terry模型設計了Elo評分機制,每個模型都有初始分數(shù),贏了就加分,輸了就扣分,隨著對戰(zhàn)次數(shù)越來越多,分數(shù)會慢慢穩(wěn)定下來,最終形成實時更新的排行榜。
除此之外,平臺還采用了人機協(xié)同的評估模式,用人類的真實投票來反映大家對模型的偏好,再通過算法去平衡各個模型的出場次數(shù)、任務類型和樣本分布,避免有的模型因為曝光多就被高估,或者因為曝光少就被低估,確保整個評估過程公平客觀。
就這樣,LMArena成了各家新模型“出道”時的必測榜單。當前Gemini 3 Pro以1490分位居榜首。
![]()
去年拿到1億美元種子輪融資后,LMArena的發(fā)展迅速超出預期。
在短時間內(nèi)不僅累計了涵蓋文本、視覺、網(wǎng)絡開發(fā)等跨模態(tài)的5000萬張投票,完成了400余種開放及專有模型的評估,還產(chǎn)出了覆蓋文本、多模態(tài)、專家及職業(yè)等多個類別的14.5萬個開源戰(zhàn)斗數(shù)據(jù)點。
現(xiàn)在,LMArena計劃將新籌集的資金用于平臺運營,確保平臺穩(wěn)定且高效運行,提升用戶體驗。同時擴大技術團隊,為平臺發(fā)展注入更多專業(yè)技術力量。
參考鏈接:https://news.lmarena.ai/series-a/
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.