<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      大語言模型排名并不可靠,三萬分之一的數(shù)據(jù)變動(dòng)即可左右結(jié)果

      0
      分享至


      (來源:麻省理工科技評(píng)論)

      企業(yè)若想使用大語言模型整理銷售報(bào)告或分類處理客戶咨詢,可從數(shù)百款獨(dú)立大語言模型中進(jìn)行選擇,每款模型的性能都存在細(xì)微差異。

      為縮小選擇范圍,企業(yè)通常會(huì)參考大語言模型排名平臺(tái)。這類平臺(tái)會(huì)收集用戶與模型交互的反饋,依據(jù)模型在特定任務(wù)中的表現(xiàn),對(duì)最新的大語言模型進(jìn)行排名。

      但麻省理工學(xué)院的研究人員發(fā)現(xiàn),少量用戶交互數(shù)據(jù)就會(huì)導(dǎo)致結(jié)果出現(xiàn)偏差,讓人們誤判某款大語言模型是特定應(yīng)用場景的理想選擇。該研究表明,剔除極少一部分眾包數(shù)據(jù),就會(huì)改變模型的排名位次。

      研究人員研發(fā)出一種快速檢測方法,可測試排名平臺(tái)是否容易受到這類問題影響。該評(píng)估方法能定位到對(duì)結(jié)果偏差影響最大的單條投票,方便用戶核查這些高影響力投票。

      研究人員表示,這項(xiàng)研究凸顯了制定更嚴(yán)謹(jǐn)策略評(píng)估模型排名的必要性。他們?cè)诒敬窝芯恐胁⑽粗攸c(diǎn)研究解決方案,但提出了可提升平臺(tái)穩(wěn)定性的建議,例如收集更詳細(xì)的反饋數(shù)據(jù)來生成排名。

      該研究同時(shí)向依賴排名選擇大語言模型的用戶發(fā)出警示。這類決策可能會(huì)對(duì)企業(yè)或機(jī)構(gòu)產(chǎn)生深遠(yuǎn)且高昂的代價(jià)。

      麻省理工學(xué)院電氣工程與計(jì)算機(jī)科學(xué)系副教授、信息與決策系統(tǒng)實(shí)驗(yàn)室及數(shù)據(jù)系統(tǒng)與社會(huì)研究所成員、計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室附屬研究員、該研究資深作者塔瑪拉?布羅德里克(Tamara Broderick)表示:“我們驚訝地發(fā)現(xiàn),這類排名平臺(tái)對(duì)該問題的敏感度極高。如果數(shù)萬條用戶反饋中,僅兩三條就決定了排名第一的大語言模型,那么人們就不能認(rèn)定,這款模型投入使用后會(huì)持續(xù)優(yōu)于其他所有模型。”

      該論文的第一作者為電氣工程與計(jì)算機(jī)科學(xué)系研究生黃珍妮(Jenny Huang)、申云逸(Yunyi Shen),還有 IBM 研究院高級(jí)研究科學(xué)家丹尼斯?魏(Dennis Wei),他們與布羅德里克共同完成了這項(xiàng)研究。該研究成果將在國際學(xué)習(xí)表征大會(huì)上發(fā)布。

      大語言模型排名平臺(tái)的類型眾多,最主流的模式是讓用戶向兩款模型提交同一查詢,再選擇輸出效果更好的模型。

      平臺(tái)會(huì)匯總這類對(duì)比結(jié)果生成排名,展示各款大語言模型在編程、視覺理解等特定任務(wù)中的最優(yōu)表現(xiàn)。

      用戶選擇排名靠前的大語言模型時(shí),通常會(huì)認(rèn)為該模型的優(yōu)異排名具備泛化性。這意味著在全新數(shù)據(jù)集、相似但不完全相同的應(yīng)用場景中,這款模型依舊能優(yōu)于其他模型。

      麻省理工學(xué)院的研究人員此前曾研究統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域的泛化性問題。相關(guān)研究發(fā)現(xiàn),部分場景中剔除小部分?jǐn)?shù)據(jù)就會(huì)改變模型結(jié)果,這說明這類研究的結(jié)論可能無法適用于更廣泛的場景。

      研究人員希望驗(yàn)證,這類分析方法能否應(yīng)用于大語言模型排名平臺(tái)。

      布羅德里克表示:“用戶最終想知道的,是自己是否選到了最優(yōu)的大語言模型。如果僅有少量提示詞決定了排名,就說明這份排名并非絕對(duì)權(quán)威。”

      但人工測試剔除數(shù)據(jù)的影響并不現(xiàn)實(shí)。例如,他們?cè)u(píng)估的一個(gè)排名平臺(tái)擁有超 5.7 萬條投票。測試剔除 0.1% 數(shù)據(jù),需要從 5.7 萬條投票中逐一剔除 57 條投票的子集,子集數(shù)量超 10 的 194 次方,再重新計(jì)算排名。

      研究人員基于此前的研究成果,研發(fā)出一種高效的近似計(jì)算方法,并將其適配應(yīng)用于大語言模型排名系統(tǒng)。

      布羅德里克表示:“我們雖有理論證明該近似方法在特定假設(shè)下有效,但用戶無需僅憑理論判斷。我們的方法最終會(huì)為用戶標(biāo)注出問題數(shù)據(jù)點(diǎn),用戶只需剔除這些數(shù)據(jù),重新運(yùn)行分析,就能查看排名是否發(fā)生變化。”

      研究人員將該方法應(yīng)用于主流排名平臺(tái)后,驚訝地發(fā)現(xiàn),僅需剔除極少數(shù)據(jù)點(diǎn),就會(huì)讓頭部大語言模型的排名發(fā)生顯著變化。有案例顯示,從 5.7 萬余條投票中僅剔除 2 條,占比 0.0035%,就改變了排名第一的模型。

      另一家使用專業(yè)標(biāo)注人員、高質(zhì)量提示詞的排名平臺(tái),穩(wěn)定性則更強(qiáng)。該平臺(tái)需剔除 2575 條評(píng)估中的 83 條,占比約 3%,才會(huì)改變頭部模型的排名。

      布羅德里克表示,核查結(jié)果顯示,許多高影響力投票可能源于用戶操作失誤。部分案例中,明明有明確的最優(yōu)模型答案,用戶卻選擇了另一款模型。

      她補(bǔ)充道:“我們無法知曉用戶當(dāng)時(shí)的想法,可能是誤點(diǎn)、注意力不集中,也可能是確實(shí)無法判斷優(yōu)劣。核心結(jié)論是,排名第一的大語言模型,不應(yīng)由噪聲數(shù)據(jù)、用戶失誤或異常值決定。”

      研究人員建議,平臺(tái)可收集用戶的額外反饋,例如每條投票的信心程度,以此獲取更豐富的信息,緩解該問題。排名平臺(tái)也可安排人工審核人員,評(píng)估眾包反饋的有效性。

      研究人員計(jì)劃繼續(xù)探索其他場景下的泛化性問題,同時(shí)研發(fā)更優(yōu)質(zhì)的近似計(jì)算方法,捕捉更多不穩(wěn)定性案例。

      未參與此項(xiàng)研究的西北大學(xué)計(jì)算機(jī)科學(xué)系講席教授杰西卡?赫爾曼(Jessica Hullman)表示:“布羅德里克及其學(xué)生的研究,解決了現(xiàn)代機(jī)器學(xué)習(xí)模型與數(shù)據(jù)集規(guī)模過大、無法窮盡計(jì)算的難題,展示了如何有效估算特定數(shù)據(jù)對(duì)下游流程的影響。”

      赫爾曼補(bǔ)充道:“這項(xiàng)最新研究讓我們看到,日常使用的人類偏好匯總與模型更新方法雖普遍應(yīng)用,卻十分脆弱,且高度依賴數(shù)據(jù)。極少的偏好數(shù)據(jù)就能改變微調(diào)模型的表現(xiàn),這一發(fā)現(xiàn)有望推動(dòng)更嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)收集方法誕生。”

      https://news.mit.edu/2026/study-platforms-rank-latest-llms-can-be-unreliable-0209

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      宣布了!交易達(dá)成!你好,NBA榜眼秀!

      宣布了!交易達(dá)成!你好,NBA榜眼秀!

      籃球?qū)崙?zhàn)寶典
      2026-02-21 15:49:36
      新春走基層·一線直擊|打卡北京隆福寺:一籃年貨 喜樂相伴

      新春走基層·一線直擊|打卡北京隆福寺:一籃年貨 喜樂相伴

      新華社
      2026-02-20 22:19:21
      演員姚晨發(fā)文稱過年被媽媽“罵”了三天!網(wǎng)友:家家都一樣,我扔,我媽在后面撿

      演員姚晨發(fā)文稱過年被媽媽“罵”了三天!網(wǎng)友:家家都一樣,我扔,我媽在后面撿

      環(huán)球網(wǎng)資訊
      2026-02-21 17:27:08
      女子發(fā)現(xiàn)網(wǎng)購大衣出現(xiàn)手寫名字,直接退貨,原來是縫衣師傅的KPI

      女子發(fā)現(xiàn)網(wǎng)購大衣出現(xiàn)手寫名字,直接退貨,原來是縫衣師傅的KPI

      娛樂圈見解說
      2026-02-22 10:28:28
      105歲無斑黑發(fā)!國醫(yī)大師的長壽真經(jīng),每個(gè)人都能做!

      105歲無斑黑發(fā)!國醫(yī)大師的長壽真經(jīng),每個(gè)人都能做!

      時(shí)光派健康抗衰
      2026-02-21 16:00:04
      “我就是她取精生子的工具”清華學(xué)霸哭訴,撕開了女富豪的遮羞布

      “我就是她取精生子的工具”清華學(xué)霸哭訴,撕開了女富豪的遮羞布

      北緯的咖啡豆
      2026-02-20 19:12:17
      伊朗將所有歐盟國家海軍和空軍列為“恐怖組織”

      伊朗將所有歐盟國家海軍和空軍列為“恐怖組織”

      國際在線
      2026-02-22 06:18:05
      3連敗崩盤!憤怒刷屏,張本智和為何徹底翻車?

      3連敗崩盤!憤怒刷屏,張本智和為何徹底翻車?

      卿子書
      2026-02-22 09:28:07
      三位不靠譜專家央視忽悠卻走紅28年

      三位不靠譜專家央視忽悠卻走紅28年

      落梅如雪亂飛
      2026-02-20 07:23:14
      貝加爾湖7名遇難中國游客身份全部確認(rèn):一家四口中僅一名男性生還

      貝加爾湖7名遇難中國游客身份全部確認(rèn):一家四口中僅一名男性生還

      上觀新聞
      2026-02-22 10:09:05
      玻璃纖維短缺加劇 制造商將掀起第二輪漲價(jià)潮

      玻璃纖維短缺加劇 制造商將掀起第二輪漲價(jià)潮

      財(cái)聯(lián)社
      2026-02-21 22:26:19
      武漢街頭突發(fā)!警車緊急掉頭,現(xiàn)場畫面曝光

      武漢街頭突發(fā)!警車緊急掉頭,現(xiàn)場畫面曝光

      環(huán)球網(wǎng)資訊
      2026-02-22 07:35:11
      血虧!曼聯(lián) 4 年前 900 萬賤賣的天才,如今實(shí)力遠(yuǎn)超卡塞米羅

      血虧!曼聯(lián) 4 年前 900 萬賤賣的天才,如今實(shí)力遠(yuǎn)超卡塞米羅

      瀾歸序
      2026-02-22 02:12:47
      霸榜13年的滿分神作被毀,一場粉絲互撕,扒下了評(píng)分機(jī)制的底褲

      霸榜13年的滿分神作被毀,一場粉絲互撕,扒下了評(píng)分機(jī)制的底褲

      桃桃淘電影
      2026-02-21 12:15:08
      山東人真實(shí)收入曝光:別被平均騙了,這才是大多數(shù)人的生活

      山東人真實(shí)收入曝光:別被平均騙了,這才是大多數(shù)人的生活

      濟(jì)寧人
      2026-02-22 08:20:45
      3比1獲勝!21歲中國乒乓天才崛起,網(wǎng)友:能否再度擊退張本智和?

      3比1獲勝!21歲中國乒乓天才崛起,網(wǎng)友:能否再度擊退張本智和?

      卿子書
      2026-02-22 07:15:11
      為什么消費(fèi)降級(jí)了,景區(qū)卻人山人海游客爆棚?

      為什么消費(fèi)降級(jí)了,景區(qū)卻人山人海游客爆棚?

      望岳
      2026-02-21 18:35:35
      50分鐘速勝!阿爾卡拉斯僅丟3局橫掃奪冠,新賽季12戰(zhàn)全勝

      50分鐘速勝!阿爾卡拉斯僅丟3局橫掃奪冠,新賽季12戰(zhàn)全勝

      全景體育V
      2026-02-22 06:49:15
      印度AI峰會(huì):陣仗這么大,但中國去哪了?

      印度AI峰會(huì):陣仗這么大,但中國去哪了?

      娛樂督察中
      2026-02-22 11:37:52
      開拓者官宣:楊瀚森下放發(fā)展聯(lián)盟混音隊(duì),楊瀚森又可以大展拳腳了

      開拓者官宣:楊瀚森下放發(fā)展聯(lián)盟混音隊(duì),楊瀚森又可以大展拳腳了

      工從昊懂球阿靖
      2026-02-22 07:37:18
      2026-02-22 12:51:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評(píng)論獨(dú)家合作
      16298文章數(shù) 514634關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發(fā)射超過10000顆衛(wèi)星

      頭條要聞

      monies巴黎旗艦店員工:王菲同款水滴耳環(huán)庫存已空

      頭條要聞

      monies巴黎旗艦店員工:王菲同款水滴耳環(huán)庫存已空

      體育要聞

      徐夢(mèng)桃:這是我第一塊銅牌 給我換個(gè)吉祥物

      娛樂要聞

      裴世矩養(yǎng)侄為刃 看懂兩次放行裴行儼!

      財(cái)經(jīng)要聞

      特朗普新加征關(guān)稅稅率從10%提升至15%

      汽車要聞

      續(xù)航1810km!smart精靈#6 EHD超級(jí)電混2026年上市

      態(tài)度原創(chuàng)

      旅游
      健康
      游戲
      公開課
      軍事航空

      旅游要聞

      棲霞:新春劇場游園會(huì) 解鎖別樣年味

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      魔獸世界時(shí)光服:P2階段最值得入手的專業(yè)極品,你穿上去了嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      硬核揭秘!福建艦“一馬當(dāng)先”底氣何在

      無障礙瀏覽 進(jìn)入關(guān)懷版