<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI也邪修!Qwen3改Bug測試直接搜GitHub,太擬人了

      0
      分享至

      聞樂 發自 凹非寺
      量子位 | 公眾號 QbitAI

      大模型也會玩信息差了。

      Qwen3在基準測試中居然學會了鉆空子。



      FAIR研究員發現Qwen3在SWE-Bench Verified測試中,不按常理修bug,反而玩起了信息檢索大法。



      不分析代碼邏輯,不定位漏洞根源,而是直接跑到GitHub上搜任務里的issue編號,精準扒出了前人留下的修復方案。

      能說嗎,會搜代碼才是真正的程序員行為吧。而Qwen3,你是真正的程序員。

      Qwen3是如何鉆空子的

      要知道,SWE-Bench Verified本來是檢驗模型真刀真槍修代碼的基準,相當于編程屆的資格考試。

      它的測試邏輯是這樣的:在代碼修復類任務中,它給模型的任務全是真實開源項目里的bug,比如修復某個功能異常、補全缺失的代碼模塊,核心要求是模型能讀懂現有的代碼、定位到問題在哪,最后生成能夠直接運行的解決方案。

      這原本考驗的是模型從0到1解決問題的能力,但我們的Qwen3,可沒按這個劇本走。

      FAIR研究團隊追蹤它的操作軌跡發現,Qwen3拿到任務后,第一步不是分析代碼文件,而是調用工具檢索GitHub的提交日志。



      具體操作是:

      • 先切換(cd)到/workspace/django_django_4.1這個目錄;
      • 然后執行git log —oneline —grep=“33628” —all這個命令。

      git log是查看Git版本控制提交歷史的命令,—oneline讓提交歷史以簡潔的一行的形式展示。

      —grep用于篩選提交指定內容(在這個例子中是issue編號33628),—all則表示所有分支的提交。

      最后以退出碼0表示命令成功執行。

      一番操作之后,Qwen3不用動腦子寫代碼就輕松“借鑒”了以前的成功答案。(怎么不算動腦子了呢)

      其實不止Qwen3,研究者發現Claude 4 Sonnet也有類似的行為。



      不過,模型能成功鉆空子,當然也不全是自身的原因。

      說回SWE-Bench Verified,它自身的設計就有漏洞——沒過濾未來倉庫狀態。

      簡單說就是,這個測試用的是開源項目數據,所以它連帶著項目后續已經解決bug的提交記錄一起放進去了,相當于把考題和參考答案混在一起,還沒設權限。

      正常來說,測試應該只給模型bug未修復時的項目狀態,讓它只看著題目解題。

      但SWE-Bench Verified沒做這個篩選,導致模型能夠拿到bug已經被修復后的數據

      于是,只要用任務里的issue編號當關鍵詞,就能在已解決的數據里找到現成的修復方案。

      看來啊,不是只有人類知道搜答案比解問題簡單,現在大模型也知道了。(Doge)

      雖然說,按正常規則,這些模型確實是在作弊,但也有網友覺得:只要能完成任務,利用規則漏洞也沒什么不行的。



      所以,你覺得這種行為算作弊還是算Qwen3聰明呢?


      [1]https://x.com/giffmana/status/1963327672827687316
      [2]https://x.com/bwasti/status/1963288443452051582
      [3]https://github.com/SWE-bench/SWE-bench/issues/465

      — 完 —

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特斯拉前兩天開始量產一輛不像車的車,為何全世界安靜了?

      特斯拉前兩天開始量產一輛不像車的車,為何全世界安靜了?

      沙雕小琳琳
      2026-02-20 15:14:36
      凱德米:美國已經在為遏制俄羅斯付出代價,問題極其嚴重。

      凱德米:美國已經在為遏制俄羅斯付出代價,問題極其嚴重。

      風雨與陽光
      2026-02-21 16:39:43
      這才是真正的好老師!

      這才是真正的好老師!

      張曉磊
      2026-02-21 12:23:04
      廣東一男子留2年長發回家過年,引起長輩們圍觀都忘記催婚了

      廣東一男子留2年長發回家過年,引起長輩們圍觀都忘記催婚了

      九方魚論
      2026-02-21 08:45:47
      英國上將揭露,當年“香港”回歸真相:誰敢抗衡中國解放軍?

      英國上將揭露,當年“香港”回歸真相:誰敢抗衡中國解放軍?

      終于在眼淚中明白
      2026-02-07 08:36:49
      3999元!又一款 Ultra新品官宣:正式上市

      3999元!又一款 Ultra新品官宣:正式上市

      高科技愛好者
      2026-02-20 22:59:06
      開打!海上突傳巨大撞擊聲,兩艘美軍艦,撞了!美開火3人被打死

      開打!海上突傳巨大撞擊聲,兩艘美軍艦,撞了!美開火3人被打死

      趣生活
      2026-02-20 21:30:01
      48歲保潔阿姨睡在公司1個月,老板打開了監控,第2天送給她20萬

      48歲保潔阿姨睡在公司1個月,老板打開了監控,第2天送給她20萬

      秀秀情感課堂
      2025-12-12 14:20:05
      看了《鏢人》,才發現吳京最正確的決定,就是換掉女主選擇陳麗君

      看了《鏢人》,才發現吳京最正確的決定,就是換掉女主選擇陳麗君

      斷翼的鳥兒
      2026-02-20 23:15:57
      這7位央視主持至今未嫁,她們人人都是美女,最大的年齡已到60歲

      這7位央視主持至今未嫁,她們人人都是美女,最大的年齡已到60歲

      TVB的四小花
      2026-02-18 08:42:26
      從9億回升至15億,《鏢人》逆跌奪得亞軍,吳京開啟漫長回本之路

      從9億回升至15億,《鏢人》逆跌奪得亞軍,吳京開啟漫長回本之路

      電影票房預告片
      2026-02-20 22:51:47
      3年9100萬!騎士簽約神塔賺大了,哈登一來,他從藍領變成高級貨

      3年9100萬!騎士簽約神塔賺大了,哈登一來,他從藍領變成高級貨

      球盲姐
      2026-02-21 17:05:54
      果然沒讓中方失望!美對華發終極威脅,不到24小時,俄有動作了

      果然沒讓中方失望!美對華發終極威脅,不到24小時,俄有動作了

      愛吃醋的貓咪
      2026-02-21 16:09:33
      春節來新加坡旅游,被自己窮笑了:酒店一晚1.6萬、入境被罰6000

      春節來新加坡旅游,被自己窮笑了:酒店一晚1.6萬、入境被罰6000

      新加坡萬事通
      2026-02-17 18:29:48
      惜敗湖人!倫納德柯林斯傷情更新,馬瑟林+盧采訪中極度不滿判罰

      惜敗湖人!倫納德柯林斯傷情更新,馬瑟林+盧采訪中極度不滿判罰

      籃球資訊達人
      2026-02-21 15:39:12
      這次中日摩擦,為何不“抵制日貨”了?

      這次中日摩擦,為何不“抵制日貨”了?

      華山穹劍
      2026-02-20 20:35:29
      特朗普至今不敢打伊朗,是害怕中國漁翁得利?事實證明,恰恰相反

      特朗普至今不敢打伊朗,是害怕中國漁翁得利?事實證明,恰恰相反

      青橘罐頭
      2026-02-21 07:17:45
      冬奧會僅剩2天,中國最后奪金點分析,超日本登亞洲第一就在今天

      冬奧會僅剩2天,中國最后奪金點分析,超日本登亞洲第一就在今天

      侃球熊弟
      2026-02-21 13:14:01
      孩子越大,越要告訴他這五句人生真相:比成績更重要的,是活好這一生

      孩子越大,越要告訴他這五句人生真相:比成績更重要的,是活好這一生

      青蘋果sht
      2026-02-20 05:52:21
      俄烏打了三年,打窮了三個國家,富了三個國家,中國也在其中

      俄烏打了三年,打窮了三個國家,富了三個國家,中國也在其中

      青煙小先生
      2026-02-19 19:14:06
      2026-02-21 17:28:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12186文章數 176389關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      健康
      教育
      藝術
      數碼
      公開課

      轉頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      新春走基層 | 慢飛天使捏出 “年的形狀”

      藝術要聞

      史洪生油畫作品

      數碼要聞

      NVIDIA新卡皇RTX 5090 Ti再曝光:功耗直飆超700W!性能提升10%

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版