<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      無需訓練、即插即用,這個解碼方法讓模型學會謹慎思考

      0
      分享至

      你有沒有發現這樣一種現象:面對同一個問題,大模型可能在每次回答時都給出不同答案。一個不容忽視的問題是,這種不確定性,是否意味著推理仍不穩定?

      隨著技術的發展,大模型在自然語言處理和多模態任務中已經表現出越來越強的性能。傳統解碼策略主要包括隨機采樣(random sample)和貪婪解碼(greedy decoding)。例如,ChatGPT、Claude、Gemini 等大模型默認的是隨機采樣(random sample),即便是回答相同的問題,它們可能每次都會給出不同的答案。

      而貪婪解碼(greedy decoding)在一般的基準測試(benchmark)上表現會有所提升,特別是在推理性任務上。但是,模型在不確定情況下的表現仍不理想。

      為解決上述問題,美國東北大學與 Adobe、美國凱斯西儲大學聯合團隊提出了一種無需訓練的新型解碼策略,名為“謹慎下一步預測(CNTP,Cautious Next Token Prediction)”。

      該策略旨在通過在模型不確定性高的步驟采樣多個候選路徑,并選擇困惑度最低的路徑。相較于隨機采樣和貪婪解碼等傳統策略,CNTP 顯著提升了大模型在多種任務上的推理準確度,可應用場景包括語音助手、視覺助手、聊天機器人等。


      圖丨相關論文(來源:arXiv)

      “我們的研究證明了 Transformer 模型下一個詞元預測(next token prediction)的范式,有可能實現真正的智能。”該論文第一作者王亦周對 DeepTech 表示。他目前正在東北大學攻讀博士學位,主要研究方向包括大模型、多模態模型和計算機視覺,即將加入 Adobe 擔任研究科學家/工程師。


      圖丨王亦周(來源:王亦周)

      Safe Superintelligence 公司創始人、前 OpenAI 首席科學家伊爾亞·蘇茨克維(Ilya Sutskever)曾公開表示,如果模型足夠強大,對下一個 token 的預測能力可能反映對世界的某種理解,這可能是實現更深層智能的關鍵路徑。

      也就是說,next token prediction 是智能的核心。要實現這一點,需要在模型內部進行強推理,再通過一系列計算預測下一個 token。

      受此啟發,研究團隊從人類認知行為中尋找靈感:人在思考時,往往越謹慎回答,結果的準確率越高,那么大模型會不會也和人腦有類似的機制?

      王亦周解釋道:“這種過程類似于我們在參加考試時的解題過程,我們可能會先想下有哪些解法,然后從中挑選一種認為最有把握的方法,確認無誤后再進行下一步,直到得到完整的證明。”


      圖丨 CNTP 方法概述(來源:arXiv)

      這里的謹慎指的是,當面對不確定性的情況,需要多嘗試幾條不同的路徑,然后選擇一條最穩妥、最可信的路徑。

      研究團隊用熵作為模型不確定性的衡量標準:熵越高越不可信。在自然語言處理(NLP)中,困惑度(perplexity)越低代表對答案越可信。因此在 CNTP 策略下,一旦熵值較高,模型會采樣多個候選路徑,并選擇其中困惑度最低的一條,再一步步迭代。

      研究人員通過消融研究證明,由于思維鏈推理的回答往往較長,每條路徑長度也不同,如果算完整評估的困惑度無法很好地衡量答案的可靠性。基于此,他們采取了每到一句話的標點符號截止的方式來計算困惑度。相當于每句話、每個小的推理單元,即每個局部自洽能夠實現較理想的效果。

      為控制采樣次數,研究團隊通過設置最小熵 Hmin 和最大熵 Hmax 兩個閾值和最大試驗次數 Nmax。該方法在提高解碼準確性的同時,還有效地限制了計算成本,避免了在每個步驟大量采樣而帶來的高計算開銷。


      (來源:arXiv)

      在實驗驗證方面,該團隊在數學推理(GSM8K、MATH)、常識推理(StrategyQA)和開放問答(TruthfulQA)等任務中證明,與包括貪婪解碼、隨機解碼和束搜索在內的傳統方法相比,CNTP 策略的結果更具優勢。

      例如,在 TruthfulQA 任務中,Llama-2-7B 在使用 CNTP 方法后,真實性準確率提升到了 84.8%,相較于隨機解碼提升 6.8%。

      值得關注的是,CNTP 策略無需訓練,僅解碼即可直接實現提升性能。王亦周解釋道:這種方法在某種程度上像“免費午餐”,盡管可能會帶來更多的 token 消耗,但在實際應用中有很多優化的方法可解決該問題。


      (來源:arXiv)

      此外,該方法搭配自一致性(self-consistency)后,可進一步提升性能(注:自一致性是取多個樣本,然后選一個出現頻率最高的答案),且計算成本遠低于后者。原因在于,利用多樣性和隨機性集思廣益后,選取多數投票。

      研究團隊證明,每個樣本也是越謹慎越好。“我們的方法會在一定程度上限制它的多樣性,但通過調高溫度可以解決這一點,所以它能進一步提升。”王亦周說。

      此外,CNTP 策略具有較好的普適性,可用于廣泛的對話任務。除了有固定答案的數學題或代碼題,它也可以用于開放式問題,研究團隊未來將嘗試將該策略用于圖像或視頻生成。

      該研究為大模型的推理優化提供了一種新思路,有望成為下一代解碼策略的重要候選方案。

      參考資料:

      1.相關論文:https://arxiv.org/abs/2507.03038v2

      2.code link:https://github.com/wyzjack/CNTP

      排版:劉雅坤

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      文章在上海開陜西菜館:靠這個定價,他真的能活下去嗎?

      文章在上海開陜西菜館:靠這個定價,他真的能活下去嗎?

      奇思妙想生活家
      2026-04-10 17:15:34
      2026年車市第一撕:李想朋友圈飆臟話!東風日產回應背后

      2026年車市第一撕:李想朋友圈飆臟話!東風日產回應背后

      趣味萌寵的日常
      2026-04-12 00:02:00
      黎巴嫩一國兩軍:真主黨這個“國中之國”,為何徹底綁架黎巴嫩?

      黎巴嫩一國兩軍:真主黨這個“國中之國”,為何徹底綁架黎巴嫩?

      環球情報員
      2026-04-11 21:23:51
      美國否認同意解凍伊朗資產!巴基斯坦官員:談判比預期慢,美方急,伊朗不急

      美國否認同意解凍伊朗資產!巴基斯坦官員:談判比預期慢,美方急,伊朗不急

      新民晚報
      2026-04-11 19:16:12
      涉嫌嚴重違紀違法,劉志超被查

      涉嫌嚴重違紀違法,劉志超被查

      吉刻新聞
      2026-04-11 15:35:43
      醫院為啥搶著開“國際部”?不是老外多了,是醫療資源要重新分配

      醫院為啥搶著開“國際部”?不是老外多了,是醫療資源要重新分配

      茶余飯好
      2026-04-10 19:01:58
      同學聚會我自稱市委打雜被安排坐司機桌,開會我坐主席臺,他慌了

      同學聚會我自稱市委打雜被安排坐司機桌,開會我坐主席臺,他慌了

      刺頭體育
      2026-04-12 00:09:23
      “漢堡饅頭減肥法”火了!張維伊4天減重2.6斤,網友:快樂減脂天花板?

      “漢堡饅頭減肥法”火了!張維伊4天減重2.6斤,網友:快樂減脂天花板?

      新浪財經
      2026-04-10 22:11:33
      這是我見過最美的媽媽,身材豐滿,一臉福相

      這是我見過最美的媽媽,身材豐滿,一臉福相

      TVB的四小花
      2026-04-12 03:35:19
      賴清德對鄭麗文下手、發出兩大威脅!國民黨元老出面,朱立倫跪了

      賴清德對鄭麗文下手、發出兩大威脅!國民黨元老出面,朱立倫跪了

      少年仍需努力
      2026-04-12 03:03:21
      “首次載人繞月”:西方太空霸權作秀

      “首次載人繞月”:西方太空霸權作秀

      小眼睛小世界
      2026-04-12 06:15:12
      開國上將鬧離婚:結發40年竟遭發妻死命舉報,六名子女為何如釋重負

      開國上將鬧離婚:結發40年竟遭發妻死命舉報,六名子女為何如釋重負

      睡前講故事
      2026-04-07 14:43:34
      停牌!翻倍牛股,將被ST

      停牌!翻倍牛股,將被ST

      中國基金報
      2026-04-11 23:15:15
      伊朗代表團不打領帶出席美伊談判,統一佩戴徽章釋放強烈信號

      伊朗代表團不打領帶出席美伊談判,統一佩戴徽章釋放強烈信號

      桂系007
      2026-04-12 06:23:21
      活久見!一學生被老師斥責為“社會蛀蟲”,考研成功主動告知對方

      活久見!一學生被老師斥責為“社會蛀蟲”,考研成功主動告知對方

      火山詩話
      2026-04-10 16:03:06
      比郭臺銘還囂張,公然叫囂芯片'去中國化',如今卻上門討要訂單

      比郭臺銘還囂張,公然叫囂芯片'去中國化',如今卻上門討要訂單

      星星會墜落
      2026-04-11 13:25:46
      高市沒想到,對華關系降級當天,中方反應迅速,53條航線全取消

      高市沒想到,對華關系降級當天,中方反應迅速,53條航線全取消

      共工之錨
      2026-04-11 00:54:51
      中國“撿錢”時代可能要來了:若手中只有10萬,試試死啃這兩條線

      中國“撿錢”時代可能要來了:若手中只有10萬,試試死啃這兩條線

      奇思妙想生活家
      2026-04-09 07:49:40
      釋放了4大信號!軍隊高級干部政治整訓,迎接建軍一百周年

      釋放了4大信號!軍隊高級干部政治整訓,迎接建軍一百周年

      南宗歷史
      2026-04-11 04:02:12
      觀點:在討論換外援、教練之前,傷掉一半首發的上海海港,或該先換個好隊醫!

      觀點:在討論換外援、教練之前,傷掉一半首發的上海海港,或該先換個好隊醫!

      上觀新聞
      2026-04-12 05:04:18
      2026-04-12 07:39:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16567文章數 514863關注度
      往期回顧 全部

      科技要聞

      半夜被燃燒瓶砸醒,OpenAI CEO發文反思

      頭條要聞

      伊朗總統與法國總統通電話 稱美伊談判成敗取決于美方

      頭條要聞

      伊朗總統與法國總統通電話 稱美伊談判成敗取決于美方

      體育要聞

      換帥之后,他們從降級區沖到升級區

      娛樂要聞

      鄭鈞回應兒子走路:會監督他挺直腰板

      財經要聞

      從日本翻身看:這次誰能扛住高油價?

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      房產
      健康
      數碼
      教育
      公開課

      房產要聞

      土地供應突然暴跌!2026海口樓市,格局大變!

      干細胞抗衰4大誤區,90%的人都中招

      數碼要聞

      蘋果高配Mac全線告急,背后原因竟是它?

      教育要聞

      新傳留子就業大調查(掙不回學費555)

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版