一場AI界的《創造101》火了!LMArena讓你盲投選出最強AI,三年從校園項目逆襲,剛剛融1.5億美元,估值飆到17億美元。眾包投票挑戰專家權威,爭議四起,卻已成行業標桿。你的票,就能決定下一個AI頂流!
一場AI界的《創造101》火了!
ChatGPT、Claude、Gemini、Grok等一眾AI「練習生」整齊站好,緊張等待公演。
這不是選秀節目,而是真實發生在lmarena.ai上的AI大亂斗。
這個曾經的校園開源小項目,最近剛融到1.5億美元,估值17億美元。
頂級AI實驗室如OpenAI、Google、xAI、Microsoft,都搶著把自家模型送來「試鏡」。
現在,AI強弱不再是大公司自己說了算,決定權掌握在全球網民手上。
這場「AI創造營」到底怎么玩?誰會成為下一個出道頂流?讓我們一起揭秘。
LMArena的「選秀起源」
從校園項目到硅谷舞臺
一切要從2023年說起。當時,加州大學伯克利分校Sky Computing Lab里,一群研究生和教授搞了個開源小項目,叫Chatbot Arena。
創始人包括伯克利計算機科學教授Ion Stoica(Databricks聯合創始人)、研究生Anastasios Angelopoulos(現CEO)和Wei-Lin Chiang(現CTO)。
![]()
他們最初只是想做一個簡單實驗:讓網友匿名比拼不同AI聊天機器人,看哪個回答更好。
沒想到,這個項目一上線就火了,迅速變成AI圈最受歡迎的眾包基準平臺。
短短三年時間,Chatbot Arena就積累了海量用戶。2025年5月,它正式轉為營利性公司,更名為LMArena,并完成1億美元種子輪融資,估值6億美元。
轉折點發生在2026年1月6日——就在昨天!
LMArena宣布完成1.5億美元新一輪融資,由Felicis和加州大學投資臂聯合領投,Andreessen Horowitz、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners等明星機構跟投。
公司估值直接飆升到17億美元,總融資額超過2.5億美元!
如今,LMArena已經擁有超過500萬月活躍用戶,覆蓋150個國家,每月產生超過6000萬次對話。
這些用戶像是投票的「全民制作人」。連最頂級AI實驗室,都把自家最新模型悄悄送來PK。
![]()
從一個學術小實驗,到硅谷新貴,LMArena用三年時間完成了許多選秀冠軍都羨慕的逆襲。
但真正讓它火起來的秘密武器,正是那個簡單卻上癮的「盲盒PK」投票機制。
盲盒PK與網民投票
「全民制作人」的權利游戲
選秀節目的高潮,是舞臺公演和現場打投。LMArena的「公演舞臺」也一樣刺激:它叫Arena模式,核心就是一個字——盲!
打開lmarena.ai,進入戰斗模式,隨便輸入一個問題,系統開始隨機匹配兩個匿名AI模型,同時給出答案。
你不知道是誰生成的,只能憑感覺投票。投完票,網站才會揭曉:哦,原來左邊是Gemini-3-Pro,右邊是Grok-4.1!
這種形式很像拆盲盒——公平又上癮。
總得票數也算入評分體系。LMArena用Elo評分系統實時計算,每贏一次加分,輸了扣分。
![]()
7天前的總分榜單,Gemini-3-pro穩居榜首
總得分匯總之后,還會公開不同類別的榜單:文本對話、網頁開發、視覺理解文本生成圖像、圖像編輯、搜索、甚至文本/圖像生成視頻。
在熱門類別里,Gemini-3-Pro在文本和視覺領域遙遙領先,Grok-4.1-thinking緊追不舍,而圖像編輯里GPT-Image-1.5和Gemini的變種輪流霸榜。
怎么一場「選秀比賽」能引得這些頂級模型下場?CEO Anastasios Angelopoulos揭開真相:
領先的AI公司用我們,是因為他們自己都很難判斷模型到底好不好。
還沒公開發布的新模型,都會偷偷托管到LMArena先測試一下,拿網友反饋快速更新迭代。
網友也不只是實驗的小白鼠,甚至還有點爽——不用懂技術,上手幾分鐘就能當「全民制作人」,把喜歡的AI投上C位。
數百萬張票匯成熱搜排行,誰上誰下,全看網友心情。
「黑幕」質疑與「付費導師」的對決
選秀節目再火,也逃不過「黑幕」質疑和粉絲撕X。LMArena同樣不例外——它一出道就卷入各種爭議,有人喊「太民主了」,有人罵「太亂了」。
吐槽最多的,是眾包投票容易被操縱。
2025年,一篇論文直接曝出黑幕:Meta在Llama 4發布前,偷偷提交了36個私有變體模型,反復測試「刷分」,成功gaming 排行榜。
![]()
研究者來自Cohere、Stanford、MIT等機構,直指頂級實驗室能通過多次私測優化,中小玩家根本玩不起。
類似指控還有:某些大公司被懷疑刷票或優先托管新模型,讓排行榜看起來「偏心」。
還有人認為,網民投票不夠專業。隨便一個網友的票,怎么能跟專家比?
這就牽扯出最大競爭對手——Scale AI。Scale的評價方式完全不同:他們花大錢雇傭付費專家,比如律師、教授、醫生,來給AI答案打分。
2025年9月,Scale直接推出「Seal Showdown」平臺,公開叫板 LMArena,宣稱自己的方法更有代表性、更嚴謹,避免了眾包的噪音和偏見。
![]()
聯合創始人Ion Stoica去年接受采訪時說過:
最高質量的評估——黃金標準——就是讓人們在自己熟悉的話題上投票。
他們認為,用戶對自家問題最懂,能給出最誠實的反饋;付費專家反而可能有偏見或不接地氣。
而且,全球150國用戶的多樣性,讓排行榜更全面,避免了單一文化霸權。
爭議歸爭議,LMArena的排行榜還是成了行業事實標準——大公司照樣搶著上。
但選秀不會止步于打投,LMArena已經在憋大招。
從排行榜到「AI經紀公司」
選秀冠軍出道后,最興奮的莫過于「后續規劃」:開演唱會、拍綜藝、接代言,還是轉型演員?
LMArena也一樣它不滿足于只辦比賽,已經在準備進化成AI界的「全能經紀公司」。
新一輪1.5億美元融資,主要就是砸在這上面。
公司公告明確表示,資金將用于大規模擴充計算資源、招聘頂級工程師,并推出企業級AI評估服務。
![]()
以后,LMArena不光讓網友玩盲測,還會為OpenAI、Google、xAI這樣的大廠提供付費專業評估,幫他們跑模型、收集反饋、生成報告,甚至深度定制基準測試。
LMArena在強化學習方向同樣野心勃勃。聯合創始人Ion Stoica早前就透露過,公司正考慮用海量用戶投票數據來訓練AI模型——這就是傳說中的RLHF(Reinforcement Learning from Human Feedback,人類反饋強化學習)。
把「好回答」當獎勵、「差回答」當懲罰,讓AI像練習生苦練舞蹈一樣,不斷優化自己。
投資者、Felicis合伙人Peter Deng在采訪中直言:
一旦成為事實上的基準層,產品自然會擴展。真正價值在于與AI實驗室的深度合作——結合他們的內部數據和我們的比較外部數據。”
這場「AI創造營」才剛剛開播,高潮還在后頭。
LMArena用三年時間證明了一個瘋狂的事實——在AI時代,眾包的力量能碾壓傳統專家,民主投票能成為最鋒利的標尺。
更重要的是,它把我們從旁觀者變成了主角。你的每一張票,不只決定了今天的排行榜C位,還可能在悄無聲息中塑造明天的超級AI。
ChatGPT、Grok、Gemini……誰能持續霸榜,誰又會突然被黑馬反超,全看我們這些「全民制作人」的心情。
AI的未來不再遙遠,它就藏在你的下一票里。
參考資料:
https://www.theinformation.com/articles/ai-evaluation-startup-lmarena-valued-1-7-billion-new-funding-round?rc=epv9gi
文章來源:新智元。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.