<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      誰是AI之王?聊聊備受爭議的AI評測與崛起的LMArena

      0
      分享至

      撰稿 |張珺玥

      編輯 |陳茜

      在大模型激戰(zhàn)的當(dāng)下,究竟誰更強?是OpenAI的GPT,還是Anthropic的Claude?是谷歌的Gemini,還是中國的DeepSeek?

      當(dāng)AI模型排行榜開始被各種刷分作弊之后,誰家大模型最牛這個問題就變得非常主觀,直到一家線上排行榜誕生,它叫:LMArena。

      在文字、視覺、搜索、文生圖、文生視頻等不同的AI大模型細(xì)分領(lǐng)域,LMArena上每天都有上千場的實時對戰(zhàn),由普通用戶來匿名投票選出哪一方的回答更好。最近以來,很多AI研究者都紛紛發(fā)聲,認(rèn)為大模型競賽的下半場,最重要的事情之一就是重新思考模型評估。

      因為當(dāng)技術(shù)創(chuàng)新趨于飽和,真正拉開差距的,可能將不再是誰的參數(shù)更多、推理更快,而是誰能更準(zhǔn)確地衡量、理解模型的智能邊界。

      在大模型評測上,傳統(tǒng)的Benchmark(基準(zhǔn)測試)究竟存在什么問題,是已經(jīng)過時了嗎?LMArena的競技場模式為什么會被視為一種新的標(biāo)準(zhǔn)?它的技術(shù)機制、公平性和商業(yè)化隱藏著怎樣的挑戰(zhàn)?而下一代的大模型評測,又可能會走向哪里?

      (本文為視頻改寫,歡迎大家收看以下視頻)

      01

      題庫泄露、數(shù)據(jù)污染傳統(tǒng)Benchmark為何失靈?

      在LMArena之前,AI大模型是怎么被評估的呢?方式其實非常“傳統(tǒng)”。研究者們通常會準(zhǔn)備一組固定的題庫,比如MMLU、BIG-Bench、HellaSwag等等。這些名字普通人看起來很陌生,但在AI學(xué)術(shù)界幾乎家喻戶曉。

      這些題庫涵蓋學(xué)科、語言、常識推理等多個維度,通過讓不同模型作答,再根據(jù)答對率或得分來對模型進行比較。


      比如MMLU,全稱是“Massive Multitask Language Understanding”,它涵蓋了從高中到博士級別的57個知識領(lǐng)域,包括歷史、醫(yī)學(xué)、法律、數(shù)學(xué)、哲學(xué)等等,模型既需要回答像“神經(jīng)網(wǎng)絡(luò)中的梯度消失問題如何解決”的技術(shù)問題,也需要回答“美國憲法第十四修正案的核心內(nèi)容是什么”的社會科學(xué)問題,學(xué)科跨度很大。

      BIG-Bench更偏向推理和創(chuàng)造力,比如讓模型解釋冷笑話、續(xù)寫詩歌或完成邏輯填空。HellaSwag則專門用來測試模型對日常情境的理解能力,比如“一個人正在打開冰箱,接下來最可能發(fā)生什么?”等等。


      這些Benchmark在過去二十年幾乎主導(dǎo)了整個 AI 研究領(lǐng)域。它們的優(yōu)點顯而易見:標(biāo)準(zhǔn)統(tǒng)一、結(jié)果可復(fù)現(xiàn)學(xué)術(shù)論文只要能在相關(guān)公開數(shù)據(jù)集上刷新分?jǐn)?shù),就意味著“性能更強”。而AI的上半場也正是在這種“比成績”的節(jié)奏下高速發(fā)展起來的。

      但這些早期的Benchmark是靜態(tài)的,多以單輪問答、選擇題形式為主,題目結(jié)構(gòu)簡單、評測維度明確,便于統(tǒng)一打分和橫向比較。

      然而,當(dāng)模型的能力越來越強、訓(xùn)練數(shù)據(jù)越來越龐大時,這些Benchmark的局限開始顯現(xiàn)。


      首先是“題庫泄漏”,很多測試題早就出現(xiàn)在模型的訓(xùn)練語料里。于是,一個模型在這些測試上得分再高,也不代表它真的“理解”了問題,只能說明它“記住”了答案。

      其次,Benchmark永遠測不出模型在真實交互中的表現(xiàn),它更像是一場封閉的考試,而不是一次開放的對話。


      華盛頓大學(xué)助理教授、英偉達首席研究科學(xué)家,同時也是LMArena早期框架搭建參與者朱邦華在采訪中表示,正是因為傳統(tǒng)的靜態(tài)Benchmark所存在的過擬合、數(shù)據(jù)污染等問題,才催生出了Arena這種新的模型測評方式的出現(xiàn)。

      朱邦華 華盛頓大學(xué)助理教授 英偉達首席研究科學(xué)家: 當(dāng)時比較流行的幾個Benchmark,比如Math500、MMLU,有幾個問題。
      大家非常容易overfit(過擬合),比如一共就有幾百個問題,我如果都有g(shù)round truth(標(biāo)準(zhǔn)答案),而且我都有訓(xùn)練在ground truth(標(biāo)準(zhǔn)答案)上,雖然有一些所謂的contamination detection method(污染檢測方式),但其實這個是比較難真的百分之百做到detection(檢測)。所以這種static benchmark(靜態(tài)基準(zhǔn)),一是數(shù)量很少,二是大家可能覆蓋面不太夠,它可能就有最簡單的數(shù)學(xué),最簡單的一些基礎(chǔ)知識,然后最簡單的一些代碼生成,像HumanEval這種。
      當(dāng)時的Benchmark數(shù)量少,同時coverage(覆蓋面)也不太好的情況下,Arena就作為一個非常獨特的Benchmark出現(xiàn)了,因為它每一個問題都是unique(獨特的),它可能是世界各地的人問, 可能是俄羅斯或者越南的人在問你這樣一個問題,同時他問的問題真的就是隨時隨地、當(dāng)時當(dāng)?shù)厝ハ氲囊粋€問題,所以這個事就很難去在當(dāng)時overfit(過擬合),尤其是在當(dāng)時大家都沒有Arena數(shù)據(jù)的時候。


      02

      從伯克利實驗室到全球擂臺賽LMArena如何運作?

      2023年5月,LMArena的雛形誕生于由全球頂尖學(xué)府組成的非營利性開放研究組織LMSYS。核心成員包括Lianmin Zheng、Ying Sheng、Wei-Lin Chiang等人。

      當(dāng)時他們剛剛發(fā)布了開源模型Vicuna,而斯坦福大學(xué)在此之前也推出了另一個類似的,叫Alpaca。因為這兩個模型都是基于大型語言模型進行微調(diào)的開源項目,于是LMSYS的團隊想知道,從性能和表現(xiàn)上來看,究竟誰更勝一籌?


      當(dāng)時并沒有合適的評測方法能回答這個問題。LMSYS團隊嘗試了兩種方法:

      一是嘗試讓GPT-3.5作為評委,對不同模型生成的答案打0到10分,這種方法后來演化成MT-Bench(Model-Test Benchmark)。

      另一種方式是采用人類比較(Pairwise Comparison),即隨機挑選兩個模型,針對同一個問題分別生成回答,再讓人類評審選擇哪一個更好。

      最終,第二種方式被證明更可靠,并由此誕生了Arena的核心機制。


      基于此,他們首先搭建了一個實驗性網(wǎng)站Chatbot Arena,也就是今天的 LMArena的前身。在傳統(tǒng)的基準(zhǔn)測試?yán)铮P褪窃陬A(yù)設(shè)題庫中答題,而在Chatbot Arena上,它們則要“上場打擂臺”。

      當(dāng)用戶輸入一個問題后,系統(tǒng)會隨機分配兩個模型,比如GPT-4和Claude,但用戶并不知道自己面對的是誰。兩邊模型幾乎同時生成回答,用戶只需投票:左邊好,還是右邊好?等投票完成后,系統(tǒng)才會揭示它們的真實身份。這個過程被稱作 “匿名對戰(zhàn)”。


      投票結(jié)束后,系統(tǒng)基于Bradley–Terry模型實現(xiàn)Elo式評分機制,分?jǐn)?shù)會根據(jù)勝負(fù)實時變化,從而形成一個動態(tài)排行榜。

      Elo排名機制最早來自國際象棋。 每個模型都有一個初始分?jǐn)?shù),每次贏一場就漲分,輸一場就扣分。隨著對戰(zhàn)次數(shù)增加,分?jǐn)?shù)會逐漸收斂最終形成一個動態(tài)的模型排行榜。


      這種機制的妙處在于,它讓評測變成了一場“真實世界的動態(tài)實驗”,而不再是一次性的閉卷考試。除此之外,LMArena不僅僅只是“讓模型打架”,它背后還有一個獨特的“人機協(xié)同評估框架”

      這個框架的邏輯是用人類投票去捕捉“真實偏好”,再通過算法去保證“統(tǒng)計公平”。平臺會自動平衡模型的出場頻率、任務(wù)類型和樣本分布,防止某個模型因為曝光量大而被“高估”。 換句話說,它讓評測既開放又可控。更重要的是,Chatbot Arena的所有數(shù)據(jù)和算法都是開源的,任何人都可以復(fù)現(xiàn)或分析結(jié)果。


      作為LMArena早期搭建的核心參與者,朱邦華告訴我們,LMArena的技術(shù)本身并不是新算法,更多的是經(jīng)典統(tǒng)計方法的工程化實現(xiàn)。它的創(chuàng)新點不在于模型本身,而在于系統(tǒng)架構(gòu)與調(diào)度機制。

      朱邦華 華盛頓大學(xué)助理教授 英偉達首席研究科學(xué)家: 一方面,雖然這個Bradley–Terry Model本身沒有什么太多技術(shù)上的新的東西,但是你怎么選模型這個事是比較新的,是大家摸索出來的。
      現(xiàn)在假設(shè)有100個模型,我想了解到底哪個更好,你其實需要一些active learning(主動學(xué)習(xí))。假設(shè)我選了一些模型出來,已經(jīng)知道它們大概怎么樣了,那接下來選模型就應(yīng)該選一些更不確定的模型,然后去做比較。怎么去dynamically(動態(tài))選出更適合來對比的模型,是我們當(dāng)時探索比較多的事兒。當(dāng)時我們做了一些相關(guān)的系列研究,又去做了一些實驗性研究,去比較一下怎么去調(diào)這些不同的參數(shù),能讓更好的模型被選出來,這是LMArena成功的一個因素。
      我個人覺得這種項目可能還有一些時機和運氣的成分在里面。因為當(dāng)時大家都需要很好的評估基準(zhǔn),這時人類偏好又完全沒有被saturated(飽和)。那時的人類偏好確實比較真實地反應(yīng)模型本身的能力,所以在那個時候,我覺得Arena作為這個行業(yè)的gold benchmark(黃金基準(zhǔn))是非常合理的。


      圖片來源:LMArena

      LMArena這種“匿名對戰(zhàn) + 動態(tài)評分”的方式,被認(rèn)為是從靜態(tài)Benchmark向動態(tài)評測的一次躍遷。它不再追求一個最終分?jǐn)?shù),而是讓評測變成一場持續(xù)發(fā)生的“真實世界實驗”。

      它就像是一個實時運行的AI智能觀測站。在這里,模型的優(yōu)劣不再由研究者定義,而是由成千上萬用戶的選擇來共同決定。

      2023年12月底,前特斯拉AI總監(jiān)、OpenAI早期成員Andrej Karpathy在X(推特)上發(fā)了一條關(guān)于LMArena 的推文,稱“目前他只信任兩個 LLM 評測方式:Chatbot Arena和r/LocalLlama”,給Chatbot ArenaI社區(qū)中收獲到了第一批“流量”。


      2023年底到2024年初, 隨著GPT-4、Claude、Gemini、Mistral、DeepSeek等模型的陸續(xù)接入Chatbot Arena,平臺的訪問量迅速增長。研究者、開發(fā)者、甚至普通用戶,都在這里觀察模型的“真實表現(xiàn)”。

      到了2024年底,平臺的功能和評測任務(wù)開始擴展,除了語言模型的對話任務(wù),團隊還逐漸涉及到了大模型的“細(xì)分賽道”,陸續(xù)上線了專注代碼生成的Code Arena、專注搜索評估的Search Arena、專注多模態(tài)圖像理解的Image Arena等子平臺。


      圖片來源:LMArena

      為了體現(xiàn)評測范圍的擴展,平臺也在2025年1月正式從Chatbot Arena更名為LMArena(Large Model Arena)。幾個月前,谷歌Nano Bnana的爆火也是讓更多普通用戶關(guān)注到了LMArena。至此,LMArena從一個研究者間的小眾項目,徹底成為AI圈乃至公眾視野中的“大模型競技舞臺”。

      不久前爆火的谷歌最新文生圖模型Nano Banana,它其實最早以神秘代號出現(xiàn)、并引發(fā)“破圈式”關(guān)注的地方就是LMArena。

      最近網(wǎng)友們發(fā)現(xiàn)谷歌又故技重施,傳聞已久的Gemini 3.0被發(fā)現(xiàn)已經(jīng)出現(xiàn)在了LMArena上。 根據(jù)網(wǎng)友們的測試反饋,Gemini3.0 Pro的代號應(yīng)該是lithiumflow,而Gemini 3.0 Flash是orionmist。據(jù)說能“讀表”、能作曲和演奏,能力再一次全方位飛升。


      不難看出,在正式發(fā)布新模型前,讓它們在LMArena上跑一跑,似乎已經(jīng)成為了谷歌的慣例操作。而實際上,各家模型其實早就已經(jīng)把LMArena當(dāng)作了“常規(guī)賽場“,用來測試普通用戶最真實的反饋。

      除了Google,OpenAI、Anthropic、Llama、DeepSeek、混元、千問……幾乎所有的頭部模型都在LMArena“打擂臺”。

      03

      刷榜、偏見與資本

      LMArena光環(huán)之下的“公平性”危機

      LMArena 的火爆,讓它幾乎成了大模型評測的“非官方標(biāo)準(zhǔn)”,但和所有新的實驗一樣,隨著光環(huán)越來越大,它也受到了越來越多的質(zhì)疑。

      首先是公平性問題在 LMArena 的匿名對戰(zhàn)機制中,用戶的投票結(jié)果直接決定模型的Elo排名,然而,這種“人類評判”的方式,并不總是中立的。

      不同語言背景、文化偏好甚至個人使用習(xí)慣,都會影響投票結(jié)果。 一些研究發(fā)現(xiàn),用戶更傾向于選擇“語氣自然”“回答冗長”的模型,而不一定是邏輯最嚴(yán)謹(jǐn)、信息最準(zhǔn)確的那一個。這意味著,模型可能因為“討人喜歡”而獲勝,而非真的更聰明。


      2025年初,來自Cohere、斯坦福大學(xué)以及多家研究機構(gòu)的團隊聯(lián)合發(fā)布了一篇研究論文,系統(tǒng)分析了LMArena的投票機制與數(shù)據(jù)分布。研究指出,Arena的結(jié)果與傳統(tǒng)benchmark分?jǐn)?shù)之間并非強相關(guān),而且存在“話題偏差”與“地區(qū)偏差”,也就是說不同類型的問題、或不同用戶群體的投票,可能顯著改變模型的排名。

      此外,還有 “游戲化” 與“過擬合” 的問題。當(dāng)LMArena的排名被廣泛引用、甚至被媒體視為模型能力的“權(quán)威榜單”時,一些公司開始為“上榜”專門優(yōu)化模型的回答風(fēng)格。比如更積極地使用模糊語氣、提升字?jǐn)?shù)密度、或在提示工程上精細(xì)調(diào)教,以希望“贏得投票”。

      Cohere的那篇研究論文就明確指出,大型供應(yīng)商在獲取用戶數(shù)據(jù)方面擁有顯著優(yōu)勢。通過API接口,它們能夠收集到大量的用戶與模型交互的數(shù)據(jù),包括提示和偏好設(shè)置。

      然而,這些數(shù)據(jù)并未被公平地共享,62.8%的所有數(shù)據(jù)都流向了特定的模型提供商。比如Google和OpenAI的模型分別獲得了Arena上約19.1%和20.2%的全部用戶對戰(zhàn)數(shù)據(jù),而其他83個開源模型的總數(shù)據(jù)占比僅為29.7%。


      這使得專用模型供應(yīng)商能夠利用更多的數(shù)據(jù)進行優(yōu)化,甚至可能針對LMArena平臺進行專門優(yōu)化,導(dǎo)致過度擬合特定指標(biāo),從而提升排名。

      一個典型例子是 Meta 的“刷榜事件”。今年4月,Meta在LMArena上提交的Llama 4 Maverick模型版本,表現(xiàn)超越GPT-4o與Claude,躍居榜單第二。但隨著Llama 4大模型開源版上線,開發(fā)者們發(fā)現(xiàn)其真實效果的表現(xiàn)并不好,因此質(zhì)疑Meta疑似給LMArena提供了經(jīng)過專門針對投票機制的優(yōu)化的“專供版”模型,導(dǎo)致Llama 4的口碑急轉(zhuǎn)直下。


      輿論爆發(fā)后,LMArena官方更新了排行榜政策,要求廠商披露模型版本與配置,以確保未來評估的公平性和可重復(fù)性,并將把公開的Hugging Face版本的Llama 4 Maverick加入排行榜進行重新評估,但事件仍然在當(dāng)時引發(fā)了業(yè)內(nèi)關(guān)于“評測公正性”的激烈討論。

      除了系統(tǒng)和技術(shù)上的挑戰(zhàn),LMArena的商業(yè)化也讓它的中立性受到質(zhì)疑

      2025年5月,LMArena背后的團隊正式注冊公司“Arena Intelligence Inc.”,并宣布完成1億美元種子輪融資,投資方包括a16z、UC Investments和 Lightspeed等。


      這也意味著,LMArena正式從一個開源研究項目,轉(zhuǎn)變?yōu)榫邆渖虡I(yè)化運營能力的企業(yè)。公司化后,平臺可能開始探索數(shù)據(jù)分析、定制化評測和企業(yè)級報告等商業(yè)服務(wù)。

      這一轉(zhuǎn)變,也讓業(yè)界開始擔(dān)憂,當(dāng)資本介入、客戶需求與市場壓力疊加時,LMArena是否還能保持最初“開放”與“中立” ?它的角色是否會從“裁判”變成“利益相關(guān)方”?

      在LMArena之后,大模型評測似乎進入了一個新的拐點。它解決了過去Benchmark靜態(tài)、封閉的問題,卻也暴露出新的矛盾。那就是當(dāng)評測數(shù)據(jù)、用戶偏好、甚至投票機制,都可能成為商業(yè)競爭的一部分,我們該如何界定“公平”?究竟什么樣的模型評估方式,才是當(dāng)前所需要的呢?

      04

      從“實戰(zhàn)”到“動靜結(jié)合”

      未來評測走向何方?

      實際上,LMArena的出現(xiàn),并不意味著傳統(tǒng)的Benchmark已經(jīng)過時在它之外,靜態(tài)的Benchmark仍然在持續(xù)演化。

      近幾年來,基于傳統(tǒng)的Benchmark,研究者陸續(xù)推出了難度更高的版本,比如MMLU Pro、BIG-Bench-Hard等。 此外,一些全新的、聚焦于細(xì)分領(lǐng)域的Benchmark也在被不斷創(chuàng)造出來,比如數(shù)學(xué)與邏輯領(lǐng)域的AIME 2025、編程領(lǐng)域的SWE-Bench、多智能體領(lǐng)域的AgentBench等等。


      這些新的Benchmark,不再只是“考知識”,而是在模擬模型在真實世界中的工作方式。從過去單一的考試題集,演化為了一個龐大而多層次的體系:有的評推理,有的測代碼,有的考記憶與交互。

      與此同時,評測也正在進一步走向“真實世界”。比如最近一家名為Alpha Arena的新平臺就引發(fā)了大量關(guān)注。它由創(chuàng)業(yè)公司nof1.ai推出,在首輪活動中,平臺選取了Deepseek、Genimi、GPT、Claud、Gork和千問等六大模型在真實的加密貨幣交易市場中進行對戰(zhàn)。

      它給了每個模型相同的資金和Prompt,讓它們獨立決策和交易,最終以實際收益和策略穩(wěn)定性作為評測依據(jù)。結(jié)果是:DeepSeek竟然贏了!不愧是量化基金母公司下面做出來的AI模型。


      雖然這個對戰(zhàn)更多是“噱頭”為主,大語言模型去預(yù)測股市現(xiàn)在還是非常不靠譜的,但Alpha Arena的這種“實戰(zhàn)式評測”再一次跳出了傳統(tǒng)的題庫和問答框架,讓模型在動態(tài)、對抗的環(huán)境中被檢驗,被視為是繼LMArena之后,又一次嘗試讓AI在開放世界中接受考驗的實驗。

      不過,Alpha Arena更偏向特定任務(wù)領(lǐng)域的真實驗證, 其結(jié)果也更難復(fù)現(xiàn)與量化。

      實際上,這些Arena出現(xiàn)的意義,也并非是要取代靜態(tài)Benchmark,而是為這個體系提供一面鏡子,試圖把靜態(tài)測試中難以衡量的人類偏好與語義細(xì)節(jié),重新引入到評測系統(tǒng)中。


      也就是說,未來的模型評估,不再是靜態(tài)Benchmark和Arena之間的二選一,而更可能是一種融合式的評測框架靜態(tài)benchmark負(fù)責(zé)提供可復(fù)現(xiàn)、可量化的標(biāo)準(zhǔn);而Arena負(fù)責(zé)提供動態(tài)、開放、面向真實交互的驗證。兩者結(jié)合,進而構(gòu)成衡量智能的完整坐標(biāo)系。

      在這個評估體系中,目前最重要、也具挑戰(zhàn)的部分是什么呢?朱邦華認(rèn)為,隨著大模型能力提升,原有測試集“太簡單”的問題愈發(fā)突出,Arena的自動難度過濾提出了階段性解決方案,但真正的方向是由人類專家與強化學(xué)習(xí)環(huán)境共同推動的高難度數(shù)據(jù)建設(shè)。


      朱邦華 華盛頓大學(xué)助理教授 英偉達首席研究科學(xué)家: 之前包括Arena在內(nèi),大家會抱怨一個問題:簡單的問題太多了。隨著模型變得越來越強,“簡單”的定義也會變得越來越大,可能越來越多的prompt都屬于是easy prompt。
      所以當(dāng)時Arena出了一個Hard Filter Version(難度過濾版),它直接問模型說哪一個更難,然后去篩選一些hard prompt出來。現(xiàn)在隨著thinking model(具備顯式思維鏈的模型)的引入,也隨著大家接著用RL(強化學(xué)習(xí))訓(xùn)練各種各樣的模型,這個原來難的問題、原來難的prompt現(xiàn)在也不是特別難了。
      所以這個時候可能就更需要人類專家,去標(biāo)各種各樣更難的數(shù)據(jù)作為Benchmark(基準(zhǔn)測試),這也是我們作為模型開發(fā)者正在做的事兒。如果你看的Grok 4,它們可能做Pretraining-scale RL(預(yù)訓(xùn)練規(guī)模強化學(xué)習(xí))。一方面你的RL數(shù)據(jù)就得非常多,另一方面,如果你RL數(shù)據(jù)都是用非常簡單的數(shù)據(jù),那其實對模型不會有任何提升,所以你需要大量的、非常困難的數(shù)據(jù)。
      包括我現(xiàn)在在英偉達做的一個事,也是想做一個RL Environment Hub(強化學(xué)習(xí)環(huán)境平臺),讓大家去創(chuàng)造更多更難的這種環(huán)境進來,能讓更多人來用RL去訓(xùn)練它。

      朱邦華談到,大模型評估的未來,不會是線性的改進,而是螺旋式的共演一邊是不斷變強的模型,另一邊是不斷變難的評測。模型的突破,迫使評測體系升級;而新的評測,又反過來定義了模型的能力邊界。而高質(zhì)量的數(shù)據(jù)成為了連接兩者的中軸。


      圖片來源:mercor

      朱邦華 華盛頓大學(xué)助理教授 英偉達首席研究科學(xué)家: RL和Evaluation(評測),或者說Training(訓(xùn)練)和Evaluation(評測)就像是雙螺旋的感覺,一方面Training訓(xùn)練)不斷地讓模型變強,然后你就會有更難的基準(zhǔn)測試出來說:你現(xiàn)在的這個模型還不行。然后,你就會提升你的訓(xùn)練,比如說環(huán)境的難度,或者是你找更好的model architecture(模型架構(gòu))、更好的算法,然后把模型能力再提升,你可能就需要更難的評測。現(xiàn)在似乎就已經(jīng)到了,大家這兩步都得慢慢不斷地找人類專家來去標(biāo)的程度。
      現(xiàn)在大部分RL Environment Labeling(強化學(xué)習(xí)環(huán)境標(biāo)注)的工作他們都會去找博士級別的人,比如頂尖的Math PhD(數(shù)學(xué)博士)、頂尖的CS PhD(計算機科學(xué)博士)去標(biāo)math coding data(數(shù)學(xué)代碼數(shù)據(jù)),然后這個數(shù)據(jù)賣的也非常貴,一條可能就是幾千美元的水平。所以現(xiàn)在大家慢慢的都偏向找這種expert data(專家數(shù)據(jù)),能夠讓GPT-5或者是其他頂尖模型都沒有辦法回答或者回答錯的數(shù)據(jù),通過這種方式來構(gòu)造更難的Training data(訓(xùn)練數(shù)據(jù))和Evaluation data(評估數(shù)據(jù))。

      除了數(shù)據(jù)質(zhì)量至關(guān)重要之外,朱邦華還認(rèn)為,研究者不僅要“造benchmark”,更要學(xué)會“選benchmark”。如何在成百上千個數(shù)據(jù)集中進行篩選、組合與聚合,建立一個兼顧統(tǒng)計有效性與人類偏好的聚合框架,也將是接下來幾年重要的工作方向。


      正如OpenAI的研究員姚順雨在他的博客《The Second Half》中寫道:AI 的上半場,是關(guān)于“如何訓(xùn)練模型”;而下半場,則是“如何定義與衡量智能”。如今,評測不再只是AI模型性能的終點,而正在成為 AI 向前發(fā)展的“核心科學(xué)”

      究竟什么樣的評估方法才是最優(yōu)的,或許我們目前還無法下定論。但能夠預(yù)見的是,這將是一場持續(xù)進行的實驗:我們需要在成百上千個benchmark中找到那些真正有價值的任務(wù),然后在類似于LMArena這樣的“競技場”中去捕捉人類偏好的信號,最后再將它們結(jié)合成一個動態(tài)、開放、可信的智能測量體系。

      也許在那一天,我們不再需要問“哪個模型最強?”而是去真正探索 “智能,究竟是什么?” 歡迎大家給我們留言,你們覺得LMArena的方式是否是衡量模型的最好標(biāo)準(zhǔn)?

      視頻有視覺和音樂的加持,更能呈現(xiàn)出這些精彩的故事細(xì)節(jié)。 請?zhí)D(zhuǎn)至硅谷101【視頻號】收看完整版

      注:部分圖片來源于網(wǎng)絡(luò)

      【本期節(jié)目不構(gòu)成任何投資建議】

      【視頻播放渠道】

      國內(nèi):B站|騰訊|視頻號|西瓜|頭條|百家號|36kr|微博|虎嗅

      海外:Youtube

      聯(lián)系我們:video@sv101.net

      【創(chuàng)作團隊】

      監(jiān)制|泓君 陳茜

      撰稿 |張珺玥

      主持|陳茜

      剪輯|Frentee 橘子

      動效|踹

      運營|王梓沁 孫澤平 何源清

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      震驚,北京知名建筑裝飾公司暴雷了!

      震驚,北京知名建筑裝飾公司暴雷了!

      黯泉
      2026-02-20 21:21:41
      張本美和父親炮轟王曼昱:球場不文明,對我女兒失態(tài),不配做球星

      張本美和父親炮轟王曼昱:球場不文明,對我女兒失態(tài),不配做球星

      運動探索
      2026-02-21 15:50:06
      特朗普一句“親華派”,把西方扛了幾百年的大旗,送到了中國手里

      特朗普一句“親華派”,把西方扛了幾百年的大旗,送到了中國手里

      歷史有些冷
      2026-02-20 15:55:03
      雷軍力推!小米汽車拍全家福火了 網(wǎng)友:30萬的車 這一刻就值29萬

      雷軍力推!小米汽車拍全家福火了 網(wǎng)友:30萬的車 這一刻就值29萬

      快科技
      2026-02-18 20:37:20
      美軍增援航母,被目擊

      美軍增援航母,被目擊

      上觀新聞
      2026-02-21 17:59:17
      央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

      央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

      世界圈
      2026-02-12 17:06:45
      同樣帶國家隊,為何結(jié)果天差地別?從冬奧會看企業(yè)管理的戰(zhàn)略創(chuàng)新

      同樣帶國家隊,為何結(jié)果天差地別?從冬奧會看企業(yè)管理的戰(zhàn)略創(chuàng)新

      徐殿龍
      2026-02-21 17:06:14
      一票否決!匈牙利卡死歐盟900億援烏巨款

      一票否決!匈牙利卡死歐盟900億援烏巨款

      老馬拉車莫少裝
      2026-02-21 14:26:13
      西部格局又變!掘金創(chuàng)紀(jì)錄穩(wěn)住第3 湖人艱難壓木狼 雷霆丟聯(lián)盟第1

      西部格局又變!掘金創(chuàng)紀(jì)錄穩(wěn)住第3 湖人艱難壓木狼 雷霆丟聯(lián)盟第1

      顏小白的籃球夢
      2026-02-21 17:36:51
      谷愛凌回?fù)羧f斯批評:很多人代表他國參賽,我只是他們的出氣筒

      谷愛凌回?fù)羧f斯批評:很多人代表他國參賽,我只是他們的出氣筒

      全景體育V
      2026-02-20 12:09:01
      《驚蟄無聲》朱一龍的性暗示,被張藝謀處理過,但看懂了后背發(fā)涼

      《驚蟄無聲》朱一龍的性暗示,被張藝謀處理過,但看懂了后背發(fā)涼

      觀察鑒娛
      2026-02-21 10:43:43
      30歲走下坡路的全能中場,在德甲沒贏過拜仁,在意甲當(dāng)兩次叛徒

      30歲走下坡路的全能中場,在德甲沒贏過拜仁,在意甲當(dāng)兩次叛徒

      95帕爾馬
      2026-02-21 12:10:49
      山東濟南網(wǎng)紅巨型空飄鰲魚被大風(fēng)吹走,現(xiàn)場工作人員嘗試追回未能成功,網(wǎng)友稱其“金鱗豈是池中物,一遇風(fēng)云便化龍”

      山東濟南網(wǎng)紅巨型空飄鰲魚被大風(fēng)吹走,現(xiàn)場工作人員嘗試追回未能成功,網(wǎng)友稱其“金鱗豈是池中物,一遇風(fēng)云便化龍”

      極目新聞
      2026-02-20 21:36:29
      西部排名又變了:快船創(chuàng)NBA奇跡,火箭收大禮,2隊排名互換

      西部排名又變了:快船創(chuàng)NBA奇跡,火箭收大禮,2隊排名互換

      籃球大視野
      2026-02-20 19:45:26
      大年初五返程!廣東年輕人直言:這個年,過比上班還累!

      大年初五返程!廣東年輕人直言:這個年,過比上班還累!

      生活魔術(shù)專家
      2026-02-21 05:10:19
      1986年陳永貴病逝,追悼會規(guī)格成難題,鄧小平只說了一句話,全場安靜

      1986年陳永貴病逝,追悼會規(guī)格成難題,鄧小平只說了一句話,全場安靜

      寄史言志
      2026-01-04 16:34:31
      9年前,那個3歲識千字、6歲奪央視冠軍的神童王恒屹,如今怎樣

      9年前,那個3歲識千字、6歲奪央視冠軍的神童王恒屹,如今怎樣

      娛說瑜悅
      2026-02-19 17:50:07
      因長得太漂亮,七次拒絕導(dǎo)演“要求”被封殺,43歲終憑實力拿影后

      因長得太漂亮,七次拒絕導(dǎo)演“要求”被封殺,43歲終憑實力拿影后

      近史博覽
      2026-01-23 11:33:12
      “這下好了,中國怎么可能再買美國大豆?”

      “這下好了,中國怎么可能再買美國大豆?”

      觀察者網(wǎng)
      2026-02-21 13:33:05
      伊能靜秦昊現(xiàn)身沈陽,她有點臉垮狀態(tài)符合年紀(jì),秦昊頸紋多顯憔悴

      伊能靜秦昊現(xiàn)身沈陽,她有點臉垮狀態(tài)符合年紀(jì),秦昊頸紋多顯憔悴

      喜歡歷史的阿繁
      2026-02-21 16:59:02
      2026-02-21 18:24:49
      硅谷101 incentive-icons
      硅谷101
      從這里駛向未來
      153文章數(shù) 104關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      省直機關(guān)女工程師陷美男計 拉公職人員丈夫當(dāng)間諜17年

      頭條要聞

      省直機關(guān)女工程師陷美男計 拉公職人員丈夫當(dāng)間諜17年

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關(guān)系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經(jīng)要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      家居
      時尚
      教育
      數(shù)碼
      軍事航空

      家居要聞

      本真棲居 愛暖伴流年

      2026紐約秋冬時裝周,在春天開啟美的新故事!

      教育要聞

      新春走基層 | 慢飛天使捏出 “年的形狀”

      數(shù)碼要聞

      華為手環(huán)11上架菲律賓官網(wǎng):1.62英寸AMOLED屏,多色可選

      軍事要聞

      硬核揭秘!福建艦“一馬當(dāng)先”底氣何在

      無障礙瀏覽 進入關(guān)懷版