網易首頁 > 網易號 > 正文申請入駐

網民票選AI王者，LMArena一夜變17億美元獨角獸！

2026-01-29 17:57:59　來源: 算法與數學之美

北京舉報

分享至

一場AI界的《創造101》火了！LMArena讓你盲投選出最強AI，三年從校園項目逆襲，剛剛融1.5億美元，估值飆到17億美元。眾包投票挑戰專家權威，爭議四起，卻已成行業標桿。你的票，就能決定下一個AI頂流！

一場AI界的《創造101》火了！

ChatGPT、Claude、Gemini、Grok等一眾AI「練習生」整齊站好，緊張等待公演。

這不是選秀節目，而是真實發生在lmarena.ai上的AI大亂斗。

這個曾經的校園開源小項目，最近剛融到1.5億美元，估值17億美元。

頂級AI實驗室如OpenAI、Google、xAI、Microsoft，都搶著把自家模型送來「試鏡」。

現在，AI強弱不再是大公司自己說了算，決定權掌握在全球網民手上。

這場「AI創造營」到底怎么玩？誰會成為下一個出道頂流？讓我們一起揭秘。

LMArena的「選秀起源」

從校園項目到硅谷舞臺

一切要從2023年說起。當時，加州大學伯克利分校Sky Computing Lab里，一群研究生和教授搞了個開源小項目，叫Chatbot Arena。

創始人包括伯克利計算機科學教授Ion Stoica（Databricks聯合創始人）、研究生Anastasios Angelopoulos（現CEO）和Wei-Lin Chiang（現CTO）。

他們最初只是想做一個簡單實驗：讓網友匿名比拼不同AI聊天機器人，看哪個回答更好。

沒想到，這個項目一上線就火了，迅速變成AI圈最受歡迎的眾包基準平臺。

短短三年時間，Chatbot Arena就積累了海量用戶。2025年5月，它正式轉為營利性公司，更名為LMArena，并完成1億美元種子輪融資，估值6億美元。

轉折點發生在2026年1月6日——就在昨天！

LMArena宣布完成1.5億美元新一輪融資，由Felicis和加州大學投資臂聯合領投，Andreessen Horowitz、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners等明星機構跟投。

公司估值直接飆升到17億美元，總融資額超過2.5億美元！

如今，LMArena已經擁有超過500萬月活躍用戶，覆蓋150個國家，每月產生超過6000萬次對話。

這些用戶像是投票的「全民制作人」。連最頂級AI實驗室，都把自家最新模型悄悄送來PK。

從一個學術小實驗，到硅谷新貴，LMArena用三年時間完成了許多選秀冠軍都羨慕的逆襲。

但真正讓它火起來的秘密武器，正是那個簡單卻上癮的「盲盒PK」投票機制。

盲盒PK與網民投票

「全民制作人」的權利游戲

選秀節目的高潮，是舞臺公演和現場打投。LMArena的「公演舞臺」也一樣刺激：它叫Arena模式，核心就是一個字——盲！

打開lmarena.ai，進入戰斗模式，隨便輸入一個問題，系統開始隨機匹配兩個匿名AI模型，同時給出答案。

你不知道是誰生成的，只能憑感覺投票。投完票，網站才會揭曉：哦，原來左邊是Gemini-3-Pro，右邊是Grok-4.1！

這種形式很像拆盲盒——公平又上癮。

總得票數也算入評分體系。LMArena用Elo評分系統實時計算，每贏一次加分，輸了扣分。

7天前的總分榜單，Gemini-3-pro穩居榜首

總得分匯總之后，還會公開不同類別的榜單：文本對話、網頁開發、視覺理解文本生成圖像、圖像編輯、搜索、甚至文本/圖像生成視頻。

在熱門類別里，Gemini-3-Pro在文本和視覺領域遙遙領先，Grok-4.1-thinking緊追不舍，而圖像編輯里GPT-Image-1.5和Gemini的變種輪流霸榜。

怎么一場「選秀比賽」能引得這些頂級模型下場？CEO Anastasios Angelopoulos揭開真相：

領先的AI公司用我們，是因為他們自己都很難判斷模型到底好不好。

還沒公開發布的新模型，都會偷偷托管到LMArena先測試一下，拿網友反饋快速更新迭代。

網友也不只是實驗的小白鼠，甚至還有點爽——不用懂技術，上手幾分鐘就能當「全民制作人」，把喜歡的AI投上C位。

數百萬張票匯成熱搜排行，誰上誰下，全看網友心情。

「黑幕」質疑與「付費導師」的對決

選秀節目再火，也逃不過「黑幕」質疑和粉絲撕X。LMArena同樣不例外——它一出道就卷入各種爭議，有人喊「太民主了」，有人罵「太亂了」。

吐槽最多的，是眾包投票容易被操縱。

2025年，一篇論文直接曝出黑幕：Meta在Llama 4發布前，偷偷提交了36個私有變體模型，反復測試「刷分」，成功gaming 排行榜。

研究者來自Cohere、Stanford、MIT等機構，直指頂級實驗室能通過多次私測優化，中小玩家根本玩不起。

類似指控還有：某些大公司被懷疑刷票或優先托管新模型，讓排行榜看起來「偏心」。

還有人認為，網民投票不夠專業。隨便一個網友的票，怎么能跟專家比？

這就牽扯出最大競爭對手——Scale AI。Scale的評價方式完全不同：他們花大錢雇傭付費專家，比如律師、教授、醫生，來給AI答案打分。

2025年9月，Scale直接推出「Seal Showdown」平臺，公開叫板 LMArena，宣稱自己的方法更有代表性、更嚴謹，避免了眾包的噪音和偏見。

聯合創始人Ion Stoica去年接受采訪時說過：

最高質量的評估——黃金標準——就是讓人們在自己熟悉的話題上投票。

他們認為，用戶對自家問題最懂，能給出最誠實的反饋；付費專家反而可能有偏見或不接地氣。

而且，全球150國用戶的多樣性，讓排行榜更全面，避免了單一文化霸權。

爭議歸爭議，LMArena的排行榜還是成了行業事實標準——大公司照樣搶著上。

但選秀不會止步于打投，LMArena已經在憋大招。

從排行榜到「AI經紀公司」

選秀冠軍出道后，最興奮的莫過于「后續規劃」：開演唱會、拍綜藝、接代言，還是轉型演員？

LMArena也一樣它不滿足于只辦比賽，已經在準備進化成AI界的「全能經紀公司」。

新一輪1.5億美元融資，主要就是砸在這上面。

公司公告明確表示，資金將用于大規模擴充計算資源、招聘頂級工程師，并推出企業級AI評估服務。

以后，LMArena不光讓網友玩盲測，還會為OpenAI、Google、xAI這樣的大廠提供付費專業評估，幫他們跑模型、收集反饋、生成報告，甚至深度定制基準測試。

LMArena在強化學習方向同樣野心勃勃。聯合創始人Ion Stoica早前就透露過，公司正考慮用海量用戶投票數據來訓練AI模型——這就是傳說中的RLHF（Reinforcement Learning from Human Feedback，人類反饋強化學習）。

把「好回答」當獎勵、「差回答」當懲罰，讓AI像練習生苦練舞蹈一樣，不斷優化自己。

投資者、Felicis合伙人Peter Deng在采訪中直言：

一旦成為事實上的基準層，產品自然會擴展。真正價值在于與AI實驗室的深度合作——結合他們的內部數據和我們的比較外部數據。”

這場「AI創造營」才剛剛開播，高潮還在后頭。

LMArena用三年時間證明了一個瘋狂的事實——在AI時代，眾包的力量能碾壓傳統專家，民主投票能成為最鋒利的標尺。

更重要的是，它把我們從旁觀者變成了主角。你的每一張票，不只決定了今天的排行榜C位，還可能在悄無聲息中塑造明天的超級AI。

ChatGPT、Grok、Gemini……誰能持續霸榜，誰又會突然被黑馬反超，全看我們這些「全民制作人」的心情。

AI的未來不再遙遠，它就藏在你的下一票里。

參考資料：

https://www.theinformation.com/articles/ai-evaluation-startup-lmarena-valued-1-7-billion-new-funding-round?rc=epv9gi

文章來源：新智元。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

算法與數學之美

分享知識，交流思想

5374文章數 64616關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

旅游

家居

健康

本地

手機 / 數碼

房產 / 家居

網民票選AI王者，LMArena一夜變17億美元獨角獸！

“機器人只跳舞，沒什么用”

女子爬山失聯10天后遺體被找到 丈夫：她登頂神情恐懼

女子爬山失聯10天后遺體被找到 丈夫：她登頂神情恐懼

勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

黃曉明新戀情！與小22歲美女同游新加坡

上海樓市放大招，地產預期別太大

750km超長續航 2026款小鵬X9純電版將于3月2日上市

態度原創

2026馬年的中國境外留學市場會提速嗎？

重慶酉陽櫻花漫古城，吊腳飛檐藏春歸，這才是中式浪漫天花板！

藝居辦公 溫度與效率

轉頭就暈的耳石癥，能開車上班嗎？

津南好·四時總相宜

女子爬山失聯10天后遺體被找到丈夫：她登頂神情恐懼

女子爬山失聯10天后遺體被找到丈夫：她登頂神情恐懼

勇士爆冷惜敗鵜鶘梅爾頓28分賽季新高

藝居辦公溫度與效率