<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      給大模型排名次,兩個博士一年干出120億獨角獸

      0
      分享至



      作者丨漫地

      編輯丨關雎

      頭圖丨Angelopoulos(右)Chiang(左)

      最近,美國加州大學伯克利分校(UC Berkeley)學術研究項目孵化出的創業公司LMArena,成為了估值17億美元(約人民幣120億元)的獨角獸。而它僅僅成立一年。

      其憑借構建的全球最大規模的用戶偏好大模型實時數據集,來滿足市場對AI可靠性評估的迫切需求,而這也讓LMArena在資本市場上獲得高度認可。

      在短短一年時間內,LMArena完成了由Andreessen Horowitz(a16z)、Felicis Ventures等頂尖風投領投的兩輪融資,包括種子輪1億美元,A輪1.5億美元的資金。

      然而,其商業模式的可靠性正面臨爭議。一個搞AI測評的初創公司,憑什么躍升成為獨角獸?





      學術機構里跑出來的創業公司

      LMArena脫胎于大型模型系統組織(Large Model Systems,LMSYS )。該組織起源于2023年,由加州大學伯克利分校、斯坦福大學、加州大學圣地亞哥分校、卡內基梅隆大學等多所大學合作發起。它于2024年9月注冊為非營利性公司,旨在孵化早期開源和研究項目。

      也是在2023年,一起在加州大學伯克利分校電子工程與計算機科學系攻讀博士學位的Anastasios N. Angelopoulos和Wei?Lin Chiang,受LMSYS資助,創立了Chatbot Arena,這即為LMArena的前身。

      作為一個學術附屬項目,Chatbot Arena擁有一個較為純粹的初心:構建一個公開透明的評估平臺,它能夠真正地反映大型語言模型在現實世界中的應用情況。

      大家都知道,我們日常使用的生成式人工智能所依托的大模型需要不斷地被訓練,而人們在使用過程中真實的使用體驗和建議,可以最大程度地幫助大模型提升回答質量。“哪些人工智能模型對我來說最好用?” 作為用戶,你也許也有這樣的疑惑。

      2023年5月,Chatbot Arena被正式推出。Chatbot Arena平臺上會展示不同人工智能對同一問題的回答,每個用戶都可以通過匿名的方式選擇自己更喜歡的答案,對不同的人工智能模型進行投票。

      2025年1月,Chatbot Arena注冊為商業化實體LMArena,由Anastasios N. Angelopoulos任首席執行官、Wei?Lin Chiang任首席技術官,Ion Stoica是聯合創始人兼顧問。



      Ion Stoica(左)Angelopoulos(中)Chiang(右)

      三個人可謂強強聯合。

      Ion Stoica是UC伯克利大學的計算機系教授,同時領導著該校的天空計算實驗室((SkyLab)。他還是位連續創業者,先后參與創辦了Anyscale、Databricks、Conviva Networks等公司。

      Angelopoulos 對于可信賴的人工智能系統、黑箱決策和醫療機器學習方面的研究頗深,他曾在谷歌 DeepMind 擔任學生研究員,并計劃在Stoica 那里開始博士后研究,專注于在高風險環境下評估人工智能。

      Chiang則同樣是在 Stoica 領導的天空計算實驗室研究分布式系統和深度學習框架,此前曾在谷歌研究、亞馬遜和微軟從事研究工作。

      目前,LMArena已經吸引了數百萬參與者,截至2025年4月,已記錄超過300萬次比較,評估了400多個模型,其中包括商業化的GPT-4、Gemini、Bard以及開放權重的Llama和Mistral模型,很大程度幫助了用戶以及企業理解這些模型的能力和局限性。

      通常而言,大模型是基于互聯網上開放的可用數據進行訓練的,而大多數大模型基準測試也都是靜態的。如果模型通過“記憶”污染數據就能在基準測試上獲得高分,那么大模型的研發團隊可能會過度優化模型以擬合這些有缺陷的指標,而非提升其實用性和解決真實世界問題的能力。這就像學生為了應付考試而死記硬背,卻忽略了真正理解知識。

      所以,LMArena利用實時評估來緩解這個問題,通過持續不斷地收到來自真實用戶的新反饋來進行修正。這些反饋會被梳理成開放的排行榜和技術文章,為大模型的性能提供重要意見,指導LLM的改進和持續開發。此外,LMArena還與開源和商業模型供應商合作,將他們的最新模型投放到平臺社區進行預測試,使得這些模型在正式發布前可以進行調整。

      具體來看,其運作流程是通過用戶在LMArena上操作,就像是在一個類似豆包、Chatgpt等生成式人工智能平臺。用戶可以提出問題,平臺則通過大模型生成兩個不同風格或者版本的答案,用戶可以在答案下方的反饋區對更偏好的答案進行選擇“左邊更好”、“右邊更好”、“平局”、“都不好”。



      圖:Chatbot Arena界面

      但是這樣的一個平臺,在人工智能領域似乎“技術含量”并不高。它靠什么一年內完成兩輪融資躍升為估值17億美元的獨角獸?



      做人工智能領域的評估者

      在人工智能應用滲透進日常生活的時代里,如果說AI本身的運行性能決定了它能跑多快,那它生產出來的內容是否值得被信賴,則決定了它能走多遠。

      “這就是我們為什么投LMArena的理由”,位于硅谷的著名風險投資基金 a16z合伙人Anjney Midha說到。LMArena的兩輪融資中都有a16z的身影。

      在Anjney Midha看來,當模型變得足夠可靠,無疑會給各行各業帶來顛覆性的效果。比如醫院可以信任大模型的診斷結果、法院也可以信任大模型的分析裁判結果。而目前政府機構也已經開始參與到可靠性的人工智能領域中來,受監管的行業也在試點部署。

      所以,行業的需求信號已然很清晰——對于要運行重要領域內容的人工智能而言,中立客觀的評估必不可少。

      而這樣的需求便是一個巨大的機會。如果大模型的“實戰檢驗”未來可以成為人工智能領域的權威認證,那么LMArena目前已經構建的規模最大、基于人工智能輸出的人類偏好實時數據集,則無疑將成為其在人工智能評估領域的先發優勢。

      投資人的錢總會流向更可能帶來更大回報的項目。LMArena最近的A輪融資,由知名的風投機構Felicis Venture和UC Investments(加州大學投資部門)共同牽頭,a16z、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners和Laude Ventures也參與其中。

      而在去年5月份的種子輪融資中,該公司籌集了1億美元,由a16z和UC Investments領投。





      “AI測評生意”夠可靠嗎?

      目前,市場上對大模型做測評的企業數量并不少。從測評榜單這種形式來看,AI大模型排行榜呈現出“各司其職”的多元格局,每家有自身的特色。

      LMArena被譽為業內的“黃金標準”或“人氣榜”,其核心在于利用用戶參與這種眾包形式,人類主觀偏好明顯。它采用匿名雙盲測試,讓用戶在不知模型身份的情況下對話并投票,再通過類似國際象棋的Elo系統進行排名。這種方法最直接地反映了各個模型的綜合用戶體驗和對話流暢度,但可能更偏愛回答風格“討喜”的模型。

      與之形成鮮明對比的是由學術界推動的LiveBench,其背后平臺由圖靈獎得主、Meta首席AI科學家楊立昆(Yann LeCun) 聯合Abacus.AI、紐約大學等機構共同推出的。Abacus.AI 是一家人工智能及機器學習研究商,它幫助LiveBench成長為一個每月更新的“防作弊系統”。其排名依據全部來自最新的數學競賽、Kaggle數據集或arXiv論文,且有標準答案,旨在從根本上杜絕模型通過記憶舊數據“刷分”,專門檢驗模型在陌生問題上的真實推理和泛化能力,因此被視作衡量LLM模型“硬實力”的試金石。

      此外, OpenRouter Rankings直接基于平臺上的實際API調用量進行排名。OpenRouter的商業模式可以概括為“聚合調度+增值服務”。它本身不研發模型,而是作為一個中間層,整合了來自60多家供應商的400多個AI大模型(包括OpenAI、Google、Anthropic等主流廠商以及眾多開源模型),然后通過統一的API向開發者提供服務,收取5%-5.5%的服務費 。其發布的模型用量排行榜在開發者和投資圈內也備受關注。



      除了這些美國企業開發運營的國際榜單,還有像OpenCompass(上海人工智能實驗室2023年12月開源)、SuperCLUE這樣的國內榜單,它們重點關注模型在中文理解、文化背景及符合國內法規方面的能力,為本土化應用提供了關鍵參考。但是這些榜單大多是由政府研究機構和高校和在線社區主導,相對而言,中國在對LLM大模型評測方面的商業化程度較為空白。

      回到LMArena本身的運作模式來看,其測評內容的可靠性其實本身也有諸多爭議。

      美國的數據標注公司Surge AI質疑LMArena的運作,稱其完全依賴于不受控制的志愿者在平臺上進行的游戲化勞動——隨機的互聯網用戶花兩秒鐘快速瀏覽一下,然后點擊他們最喜歡的答案。而實際上,這些用戶自身并沒有任何動力去認真思考作答。沒有質量控制下的大模型系統打分能做到準確有效嗎?

      比如,針對一個關于蛋糕模具的數學問題,LMArena生成了兩個答案供用戶選擇。但最后,用戶投票支持了一個數學上不正確的答案,因為這個答案看起來似乎“更合理”。



      圖:LMArena的投票者獎勵錯誤的數學計算

      而LMArena的領導層也曾在公開場合談到,他們采用了各種方法來克服用戶輸入數據質量低下的問題。他們承認,用戶更喜歡大模型生成的帶有表情符號和冗長的內容,而不是實質性高質量的內容。所以這種測評模式很可能無法真正篩選出能生產高質答案的大模型。

      LMArena此輪融資雖猛,但是當潮水褪去,是否能留在牌桌上,還有待時間觀察。

      本文為創業邦原創,未經授權不得轉載,否則創業邦將保留向其追究法律責任的權利。如需轉載或有任何疑問,請聯系editor@cyzone.cn。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      閆學晶兒子被持續舉報!畢業大合影曝光,疑似侵占名額進入中戲

      閆學晶兒子被持續舉報!畢業大合影曝光,疑似侵占名額進入中戲

      萌神木木
      2026-01-13 11:25:49
      一字跌停,2.5萬股民“踩雷”!知名酒企被強制退市,股價蒸發8成

      一字跌停,2.5萬股民“踩雷”!知名酒企被強制退市,股價蒸發8成

      紅星新聞
      2026-01-13 16:51:07
      大V建議沒錢取暖的河北農村老人可以到海南云南兩廣旅居過冬

      大V建議沒錢取暖的河北農村老人可以到海南云南兩廣旅居過冬

      西虹市閑話
      2026-01-13 13:46:51
      萊納德35+5快船擊敗黃蜂3連勝,哈登32+4+10鮑爾25+9+5

      萊納德35+5快船擊敗黃蜂3連勝,哈登32+4+10鮑爾25+9+5

      湖人崛起
      2026-01-13 13:48:32
      大陸已發26道通牒,賴清德兒子躲在美國,洪秀柱:統一指日可待

      大陸已發26道通牒,賴清德兒子躲在美國,洪秀柱:統一指日可待

      知鑒明史
      2026-01-12 18:17:05
      央視車被堵外面,人民日報下場,白襯衫守護,呆呆成為歷史第一人

      央視車被堵外面,人民日報下場,白襯衫守護,呆呆成為歷史第一人

      李健政觀察
      2026-01-13 09:41:59
      青海獨家回應:4名評標專家“餓暈”當天經歷了什么

      青海獨家回應:4名評標專家“餓暈”當天經歷了什么

      中國新聞周刊
      2026-01-13 18:25:10
      大連8米高夢露雕像悄然被撤,商場人員:我也是今天上班才知道,集團有新的規劃

      大連8米高夢露雕像悄然被撤,商場人員:我也是今天上班才知道,集團有新的規劃

      極目新聞
      2026-01-12 13:00:56
      周定洋獲500萬頂薪!媒體人熱議:絕對超值,最后一份大合同

      周定洋獲500萬頂薪!媒體人熱議:絕對超值,最后一份大合同

      奧拜爾
      2026-01-13 16:55:27
      樂樂茶退出鄭州市場,曾因“臟臟包”一炮而紅,如今一年關店132家

      樂樂茶退出鄭州市場,曾因“臟臟包”一炮而紅,如今一年關店132家

      魯中晨報
      2026-01-13 12:25:33
      29歲網紅口子姐去世后續!早年黑料被扒,自曝得梅毒只是冰山一角

      29歲網紅口子姐去世后續!早年黑料被扒,自曝得梅毒只是冰山一角

      李健政觀察
      2026-01-13 11:00:10
      剛剛,上海宣布大利好

      剛剛,上海宣布大利好

      中國基金報
      2026-01-13 11:53:34
      美國國務院要求美國公民立即離開伊朗

      美國國務院要求美國公民立即離開伊朗

      新華社
      2026-01-13 08:09:03
      日本米價再創新高,每公斤38.8元,民眾不得已把主食改為面條

      日本米價再創新高,每公斤38.8元,民眾不得已把主食改為面條

      極目新聞
      2026-01-13 10:19:55
      美媒曝特朗普政府對伊朗行動選項“遠超傳統空襲”

      美媒曝特朗普政府對伊朗行動選項“遠超傳統空襲”

      界面新聞
      2026-01-13 16:40:00
      2架客機在哈薩克斯坦上空險相撞

      2架客機在哈薩克斯坦上空險相撞

      界面新聞
      2026-01-13 19:53:29
      重慶合川“搖人按豬”女孩粉絲破190萬!60秒以上視頻廣告報價2400元,商標被多方申請注冊,網友提議→

      重慶合川“搖人按豬”女孩粉絲破190萬!60秒以上視頻廣告報價2400元,商標被多方申請注冊,網友提議→

      封面新聞
      2026-01-13 16:17:06
      回顧許家印被抓捕現場,奮力反抗,怒吼不已,被抓捕人員抬出去

      回顧許家印被抓捕現場,奮力反抗,怒吼不已,被抓捕人員抬出去

      干史人
      2026-01-08 22:47:00
      滿手都是商業航天,贏麻了!剛剛,陳小群捐款1000萬

      滿手都是商業航天,贏麻了!剛剛,陳小群捐款1000萬

      金石隨筆
      2026-01-13 00:15:25
      京滬最快高鐵G25來了,中途只停靠南京南站

      京滬最快高鐵G25來了,中途只停靠南京南站

      現代快報
      2026-01-13 13:37:03
      2026-01-13 20:04:49
      創業邦 incentive-icons
      創業邦
      關注創新經濟及其推動者。
      15731文章數 112000關注度
      往期回顧 全部

      科技要聞

      每年10億美元!谷歌大模型注入Siri

      頭條要聞

      美記者問伊朗是否被要求退出金磚國家軍演 外交部回應

      頭條要聞

      美記者問伊朗是否被要求退出金磚國家軍演 外交部回應

      體育要聞

      他帶出國乒世界冠軍,退休后為愛徒返場

      娛樂要聞

      周杰倫以球員身份參加澳網,C位海報公開

      財經要聞

      "天量存款"將到期 資金會否搬入股市?

      汽車要聞

      限時9.99萬元起 2026款啟辰大V DD-i虎鯨上市

      態度原創

      本地
      數碼
      教育
      游戲
      公開課

      本地新聞

      云游內蒙|到巴彥淖爾去,赴一場塞上江南的邀約

      數碼要聞

      NVIDIA加劇NAND缺貨潮!一套Vera Rubin多用1152TB SSD

      教育要聞

      影子老師 | 春季開學,專業入校支持,全國30城服務早鳥預定開始

      白嫖門票!爐石競技模式牧師“灌注”被移除,新寵物伊瑟拉登場

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品白嫩初高生免费视频| 欧美喷潮最猛视频| 亚洲精品无码乱码成人| 制服丝袜人妻| 欧美熟妇xxxxx| 国产一区二区三区四区五区vm| 国产一区二区三区精品综合| 日逼AV| 岛国无码av| 香蕉免费一区二区三区| 黄床大片免费30分钟国产精品 | 精品国产午夜福利在线观看| 4hu44四虎www在线影院麻豆 | 在线综合人妻| 99精品视频在线观看| 国产鲁鲁视频在线观看 | 亚洲精品美女久久7777777| 国产精品夜夜春夜夜爽久久小| 51av视频| 国产一区二区波多野结衣| 91熟女视频| 免费**毛片在线播出| 亚洲精品av一区在线观看| 日本饥渴人妻欲求不满| 国产av永久无码天堂影院| 男人j进女人p免费视频| 亚洲精品美女久久久久9999| 婷婷射精av这里只有精品| k频道国产在线观看| 五月天婷婷一本到伊人| 国产精品一区二区 尿失禁| 特克斯县| 少妇的丰满3中文字幕| 尤物一区| 亚洲无码200p| 国产无码免费| 人妻精品久久久久中文字幕19| 成全高清在线播放电视剧| 国产精品一品二品有码| 国产成人免费午夜在线观看| 国产成人精品A视频|