<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      金魚損失隨機剔除token,讓AI不再死記硬背

      0
      分享至

      henry 發自 凹非寺
      量子位 | 公眾號 QbitAI

      訓練大模型時,有時讓它“記性差一點”,反而更聰明!

      大語言模型如果不加約束,很容易把訓練數據原封不動地復刻出來。為解決這個問題,來自馬里蘭大學、圖賓根大學和馬普所的研究團隊提出了一個新方法——金魚損失(Goldfish Loss)



      顧名思義,金魚損失就是讓模型像金魚一樣,不去死記每一個細節,而是在損失函數計算時隨機剔除一小部分token。

      由此,模型不再逐字記住訓練集內容,但仍能學會語言規律。

      實驗顯示,LLaMA-2在使用金魚損失后:

      • 記憶化內容顯著減少:模型不再復現訓練數據
      • 下游任務性能幾乎不受影響:仍然能流暢生成文本

      用網友的精辟評論概括就是:dropout,但損失函數!



      在梯度計算中隨機屏蔽部分token

      金魚損失的核心理念非常簡單,就是在模型訓練過程中隨機剔除一部分訓練文本中的tokens,使其不參與損失計算。

      這樣一來,當模型在推理階段遇到這些位置時,就只能“猜測”,而不是逐字逐句復現訓練數據的完整序列。

      此外,為了保證被剔除token的一致性,研究人員設計了一種基于哈希(hashing)的掩碼策略。



      那么,這和同樣是防止模型背會的正則化方法有什么不同呢?

      Dropout這樣的正則化方法為例,它通過在訓練時“加噪聲”來防止模型過度依賴某些參數,從而提高模型舉一反三的能力。

      但這樣做的問題在于:如果只是隨機丟token,那么,每次看到同一段落時,丟掉的地方不一樣,模型累計幾次就能拼湊出完整段落。

      所以,說到底,模型還是靠死記硬背,記住了答案。

      相比之下,金魚損失則用哈希掩碼確保每次遇到同一段落,掩蓋位置都一樣,這就從根本上阻止了模型復現完整訓練文本。

      接下來,我們來看金魚損失具體是怎么做的。

      在傳統的next-token prediction中,模型以序列中的下一個真實token作為目標,輸出預測分布,并基于該分布計算交叉熵損失。



      在金魚損失下,模型雖然也在前向傳播中預測序列里下一個 token。但在計算損失時,會以一定的概率將某些位置的token從損失計算里“抹掉”。

      也就是說,有些真實的下一個token不會作為目標來訓練。



      在這里,研究人員采用了簡單的靜態掩碼(static mask),剔除每序列中的第4個token。

      更進一步,為了確保模型不會從其他地方學到被掩碼的數據(例如不同的文檔會在不同的網頁中反復出現),研究團隊還提出了一種局部化哈希掩碼(localized hashed mask),使得當相同的前h個token出現時,掩蓋模式是相同的(可重復)。

      實驗測試與結果

      為了驗證金魚損失確實能防止記憶化,研究團隊設計了兩種實驗場景:

      一種是極端場景,通過對少量樣本進行多個訓練周期(即重復)來強烈促使記憶化;

      另一種是標準場景,模擬現實模型訓練中使用的批次處理方式 。

      同時,為了評估模型的記憶化程度,研究采用了以下指標:

      • RougeL得分:該指標衡量最長公共(非連續)子序列的長度 。得分為1.0表示完美記憶 。
      • 精確匹配率(Exact Match):該指標衡量正確預測的序列占真實序列的百分比.

      實驗表明,在極端場景下,標準訓練導致模型逐字記憶了100篇文章中的84篇,而金魚損失沒有記憶任何文章



      (注:實驗讓LLaMA-2-7B在《哈利·波特》第一章或100篇維基百科文檔上進一步訓練了100個epoch)

      此外,在標準訓練場景下,金魚損失也明顯減少了模型逐字復現訓練語料庫中目標序列的情況。



      但這里可能有個直覺式的反應——如果讓模型“隨機漏學”一些token,它的能力會不會也隨之降低呢?

      對此,研究人員進行了測試:研究表明,金魚損失模型、標準損失模型和對照模型之間的總體性能沒有系統性差異。



      需要注意的是,金魚損失的核心在于忽略部分token的梯度計算。因此,為了學到足夠的語言模式,模型必須通過更多數據來補償這些空缺,這可能導致計算效率的下降。

      [1]https://arxiv.org/pdf/2406.10209

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      哪個瞬間,你對老婆心寒了?網友:代入一下真的要揍人了

      哪個瞬間,你對老婆心寒了?網友:代入一下真的要揍人了

      解讀熱點事件
      2026-02-03 00:05:08
      “媽祖巡游”出現“靈異事件”?臨時換人后抬不起轎子?真相曝出

      “媽祖巡游”出現“靈異事件”?臨時換人后抬不起轎子?真相曝出

      胡侃社會百態
      2026-02-20 08:43:54
      1957年,黃百韜之子被判死刑,其母親求見宋美齡:我只有一個要求

      1957年,黃百韜之子被判死刑,其母親求見宋美齡:我只有一個要求

      明月清風閣
      2026-02-15 14:55:05
      有網友分享自己胸大難處,豈料評論區眾女生一致附和,簡直笑死了

      有網友分享自己胸大難處,豈料評論區眾女生一致附和,簡直笑死了

      夜深愛雜談
      2026-01-31 23:09:01
      你見過最不會點菜的人是什么樣子?網友:火鍋很清淡啊

      你見過最不會點菜的人是什么樣子?網友:火鍋很清淡啊

      夜深愛雜談
      2026-02-19 21:55:22
      你有沒有發現,酒文化隨著反腐敗的深入,正在悄悄地發生變化

      你有沒有發現,酒文化隨著反腐敗的深入,正在悄悄地發生變化

      細說職場
      2026-02-20 09:46:04
      廣東有一個天然“銣礦”床,一噸估值46億,日本:怎么又是中國的

      廣東有一個天然“銣礦”床,一噸估值46億,日本:怎么又是中國的

      三農老歷
      2026-02-18 13:39:25
      不吹不捧!這4個“中產運動鞋品牌”,確實比安踏、李寧更值得買

      不吹不捧!這4個“中產運動鞋品牌”,確實比安踏、李寧更值得買

      白宸侃片
      2026-02-19 12:01:04
      這就是回家要脫褲子才能上床的原因!網友:看完天都塌了!

      這就是回家要脫褲子才能上床的原因!網友:看完天都塌了!

      夜深愛雜談
      2026-02-07 19:05:55
      WTT新加坡大滿貫:多位名將已出局!2月21日賽程公布,附5項簽表

      WTT新加坡大滿貫:多位名將已出局!2月21日賽程公布,附5項簽表

      郝小小看體育
      2026-02-21 06:33:59
      致命一擊!俄羅斯,命脈被掐住了!

      致命一擊!俄羅斯,命脈被掐住了!

      大嘴說天下
      2026-02-18 19:48:42
      《鏢人》“武力值”排行榜:阿育婭第7,刀馬第3,第1名無爭議

      《鏢人》“武力值”排行榜:阿育婭第7,刀馬第3,第1名無爭議

      觀察鑒娛
      2026-02-20 11:15:05
      孩子過年收2萬壓歲錢,媽媽要求上交,孩子:是長輩給自己的,應由自己保管,法院:父母可為孩子代為保管,但不得隨意使用

      孩子過年收2萬壓歲錢,媽媽要求上交,孩子:是長輩給自己的,應由自己保管,法院:父母可為孩子代為保管,但不得隨意使用

      大象新聞
      2026-02-20 09:48:03
      法國與浙江都是6000多萬人口,法國創造了3萬多億美元,浙江呢?

      法國與浙江都是6000多萬人口,法國創造了3萬多億美元,浙江呢?

      回京歷史夢
      2025-11-10 13:29:34
      三峽大壩收支出爐:運行20余年,總投資近2500億,如今回本了嗎?

      三峽大壩收支出爐:運行20余年,總投資近2500億,如今回本了嗎?

      阿芒娛樂說
      2026-02-21 11:07:07
      微信8.0.69正式版上線!3大新功能實測,日常聊天更省心

      微信8.0.69正式版上線!3大新功能實測,日常聊天更省心

      呼呼歷史論
      2026-02-21 16:29:28
      落槌!全部劃歸國資!追隨許家印6年,江蘇第一包工頭賠得精光

      落槌!全部劃歸國資!追隨許家印6年,江蘇第一包工頭賠得精光

      始于初見見
      2026-02-18 12:16:38
      特斯拉Model Y二手車價格大跳水,長續航版無人問津

      特斯拉Model Y二手車價格大跳水,長續航版無人問津

      西莫的藝術宮殿
      2026-02-21 10:27:32
      年初二,53歲董卿回江蘇親戚家吃飯,穿3千元馬甲,皮膚白氣質好

      年初二,53歲董卿回江蘇親戚家吃飯,穿3千元馬甲,皮膚白氣質好

      天天熱點見聞
      2026-02-19 06:31:51
      不是迷信!明日大年初六,牢記:1要去,2不做,3要避,別犯忌諱

      不是迷信!明日大年初六,牢記:1要去,2不做,3要避,別犯忌諱

      餐飲新紀元
      2026-02-21 00:10:39
      2026-02-21 17:51:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12186文章數 176389關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      省直機關女工程師陷美男計 拉公職人員丈夫當間諜17年

      頭條要聞

      省直機關女工程師陷美男計 拉公職人員丈夫當間諜17年

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      本地
      游戲
      數碼
      教育
      公開課

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      PS4能玩到所有《生化》系列游戲!玩家:等一手安魂曲

      數碼要聞

      華為手環11上架菲律賓官網:1.62英寸AMOLED屏,多色可選

      教育要聞

      新春走基層 | 慢飛天使捏出 “年的形狀”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版