<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      臉譜心智陸弘遠團隊ACL 2026新作:別再給模型疊加「高級詞」了!

      0
      分享至



      Hongyuan Adam Lu,FaceMind CEO,CUHK AI PhD 研究課題:LLM 預訓練、世界模型、端側模型訓練;帝國理工 CS 本碩;愛丁堡大學 AI 碩士;ACL 系頂會 Outstanding Paper Award 一作;曾于 MSRA(北京)任預訓練一職,研發了世界上第一個支持 200 種語言的 LLM;旗艦會議 ACL 2025、NAACL 2025 Area Chair,創辦了 AI 軟件:疊疊社,深受二次元喜愛,是一款被投資人稱之為 “米哈游的蔡浩宇都要學習的 AI 產品”。

      有這樣一種 “模型玄學”:明明是同一個 Prompt,僅僅換一種說法,模型的回答可能就天差地別。

      深挖這個現象,是一個有趣、有用、但 “反直覺” 的問題:如果語義不變,只是把一句話改寫成更常見、更高頻的 “大白話”,模型的推理以及訓練表現會不會更好?

      最近,來自臉譜心智與香港中文大學的科研人員圍繞這個問題展開了系統研究,并提出了一項中稿 ACL 2026 Main 的新工作。他們提出了一個極具記憶點的新概念:Adam’s Law,akaTextual Frequency Law(文本頻率定律)



      • 論文標題:Adam’s Law: Textual Frequency Law on Large Language Models
      • 作者:Hongyuan Adam Lu, Z.L., Victor Wei, Zefan Zhang, Zhao Hong, Qiqi Xiang, Bowen Cao, Wai Lam
      • 機構:FaceMind Corporation、The Chinese University of Hong Kong
      • arXiv 鏈接:https://arxiv.org/abs/2604.02176
      • huggingface 鏈接:https://huggingface.co/papers/2604.02176
      • github 鏈接:https://github.com/HongyuanLuke/frequencylaw

      論文用理論推導以及模型實驗向我們展示了:當不同表述表達同一個意思時,語言模型往往更偏好 “高頻文本”。而這種偏好不僅出現在你敲下 Prompt 的那一刻,甚至在模型訓練階段也同樣適用。

      用大白話說,很多時候決定模型是否聰明的,不只是 “你問了啥”,還包括 “你是怎么說的”。

      這啟發了什么?今天我們業內談起模型優化,關鍵詞永遠是:更強更大的基座、更長的推理思維鏈、以及昂貴的高質量訓練數據,或者是極其復雜的 alignment 算法。但 Adam's Law 揭示了文本頻率對于模型訓練以及推理的重要性。

      研究表明,高頻表達因為在訓練語料中出現的次數足夠多,大模型對它們有著天然的 “肌肉記憶”。因此,在面對這些模型自身熟悉的詞句時,模型在理解、推理和生成時更容易零百 “進入狀態”。

      Who is Adam?

      Adam’s Law 主張的鐵律是:我們應該優先使用句子級頻率更高的 expression,無論是做 inference 還是 training

      研究團隊不甘讓結論停留在 “哎喲,好像確實是這樣” 的 empirical observation。

      他們先是提供了縝密的 theoratical proof,也為其搭建了一個完整的 framework,由三板斧組成:

      • 第一把斧 TFL(Adam’s Law): 提出 Textual Frequency Law:“高頻文本應被優先選擇”;



      極其硬核的部分推導數學輔佐

      • 第二把斧 TFD(Textual Frequency Distillation): 既然算不準,那就讓模型自己開口。用目標模型生成的文本,去反向修正 frequency estimation;
      • 第三把斧 CTFT(Curriculum Textual Frequency Training): 把文本頻率引入課程學習,給模型發一本循序漸進的教材。

      用大白話來說,他們的操作流程是這樣的: 先給一句話算算 “八字”(估算常見度),把同義句里最接地氣、最 frequent 的那句挑出來喂給模型;如果怕算得不準,就讓模型自己做幾道 “故事續寫” 題,看看它平時潛意識里愛用什么詞,借此來修正頻率估算;最后,在訓練時,不光是要挑數據頻率,而且訓練順序都給你安排得明明白白。

      怎樣才算 “常見”?巧妙的工程解法

      這里有一個大坑:像是 GLM 這種主流大模型,預訓練數據全是個黑箱,連它吃過幾碗干飯都不知道,你怎么算它對哪句話更眼熟?不用擔心沒關系。

      作者給了個極其巧妙且工程化的解:咱不糾結模型見過啥,直接借助公開的龐大 corpora 和詞頻資源去估算就行。 在 Adam’s Law 中,句子的頻率被近似為詞頻的組合,直接攢出一個 “句子級頻率指標”。

      這意味著,開發人員完全不需要破解閉源模型的訓練集,就能直接用這套頻率估算大法。極其接地氣,繞開了黑箱限制,把玄學推進到了可驗證、可復現的工程層面。

      當然,僅靠公開詞頻估計大概率是有誤差的。Adam 打出了第二把斧TFD:讓目標模型對給定文本做 “story completion 續寫補全”。這相當于在審問模型:“別裝了,暴露你的真實用語習慣吧!” 用模型自己吐出來的語料蒸餾,再去輔助修正原始頻率,這樣就無限逼近了模型內部真正熟悉的白話表達分布。

      別光顧著改 Prompt 推理,訓練的規矩也變了

      Adam's Law 最絕的一點,是沒有把 “文本頻率” 局限在一個討巧的 Prompt 推理技巧上,而是直接殺到了更硬核的模型訓練范式里。

      提示(Inference)階段,邏輯非常順滑:同一道數學題,如果把題目里的生僻詞換成大白話的高頻表達,模型馬上就算得更準。

      但在訓練(Training)階段,Adam 拋出了一個靈魂拷問:如果老板給的算力預算有限,訓練數據該怎么挑怎么用?Adam 說:高頻文本可能比低頻文本更值得優先保留!

      而且CTFT甚至改變了喂數據的姿勢。作者發現,低頻表達往往語境更稀疏、結構更復雜。就像我們上語文課一樣,先讓他死磕難懂的古文(更低頻),再讓他看通俗的白話文(更高頻),最終的收斂效果,居然比隨機亂喂數據還要好。

      實驗結果:白嫖的性能提升

      為了拿數據說話,作者死磕出了一個專門的數據集 TFPD(Textual Frequency Paired Dataset),涵蓋了數學推理、機器翻譯、常識推理和智能體工具調用等多個場景。

      為了保證嚴謹,他們先用模型生成一批 “文縐縐、極其少見” 的改寫,和一批 “大白話、極其常見” 的改寫,再花錢請人工標注員挨個檢查,確保改寫后意思沒變,最后湊成了 “高頻 vs 低頻” 的成對樣本。

      結果極其直觀。

      數學推理、Agent 任務、以及常識解析上,僅僅只是把 Prompt 換成更高頻的表達,不換模型、不加訓練數據、不增加 inference 時長,inference 效果顯著增加;在機器翻譯上,Adam's Law 同樣穩如泰山:研究人員一口氣測了 100 個語言翻譯方向:在訓練實驗里,三板斧 CTFT 的威力同樣顯現。在 Pangasinan(一種菲律賓語支)的機器翻譯任務中,使用了 CTFT 后, BLEU 分數狂漲29.96%



      Adam's Law 在上百種語言上的結果可視化,最外圈為 Adam's Law 的結果。

      更顛覆認知的是:有時候用高頻改寫數據去訓練,效果甚至比直接用原汁原味的基準 training set 還要好!這直接挑戰了業內 “原始數據天然最優” 的傳統偏見。

      Adam's Law,給行業帶來了什么?

      Adam’s Law把一種飄渺的 “直覺”,打造成了一套可定義、可估算、可驗證、可部署、繞過黑盒的方法學定律,通過數學推導以及實驗的方法證明了其可靠性

      對搞應用(做 Agent、寫 Prompt)的打工人: 別再給 Prompt 瘋狂加毫無必要的定語、約束和高端詞匯了。先把 Prompt 理順,改得更自然、更高頻,這可能是一種幾乎沒有成本、見效極快的 “魔法”。

      對搞訓練(Pre-training、SFT、蒸餾、做數據清洗)的煉丹師: 這是全新的 Data Engineering 治理思路。以后洗數據做數據,除了看數據的質量、長度、難度,咱還得給文本頻率拉個畫像。GPUTPU 吃緊時,“留什么數據” 不只看標注對不對,咱還得看看這句話是不是足夠 “大白話”。

      對評測(Benchmark)的研究者:如果一道題,換個冷門說法模型就不行,那它是真的有了 “推理能力”,還是僅僅靠著 “刷題”,記住了特定表述的熟悉度?這給未來構建更抗造的評測榜單提了個醒。

      Conclusions

      Adam’s Law 像一面鏡子,照出了 LLM 的本質:模型不僅在 “理解世界”,它更是在 “記住人類語言世界里,什么東西最常出現”,然而這是雙向的,LLM 在看世界的時候,世界也在看 LLM

      當整個 AI 圈都在為了更長的 RL 推理、更龐大的參數量、更玄乎的對齊算法無腦卷生卷死時,這篇工作輕巧地給出了一條無比樸素的線索:

      讓模型變聰明的捷徑,不是把話說得更高深,而是把話說得更大白話一點。這在推理時有用,也在訓練時有用。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      妻子孕吐不止我果斷離婚,兩月后得知她患癌我徹底傻眼

      妻子孕吐不止我果斷離婚,兩月后得知她患癌我徹底傻眼

      曉艾故事匯
      2026-04-17 08:06:24
      太突然!他倆宣布離婚

      太突然!他倆宣布離婚

      喬話
      2026-04-17 23:13:55
      115度大電池上車!1000V高壓平臺,全新MPV申報,要我選會選增程

      115度大電池上車!1000V高壓平臺,全新MPV申報,要我選會選增程

      車矩陣更懂車
      2026-04-18 23:44:54
      后來,我才明白,斷聯后不刪除、不拉黑、不聯系的人,不是在等對方回頭,而是在等自己放下

      后來,我才明白,斷聯后不刪除、不拉黑、不聯系的人,不是在等對方回頭,而是在等自己放下

      品讀時刻
      2026-04-12 09:08:19
      特朗普:如果到周三未達成結束戰爭的長期協議,可能會終止與伊朗的停火,但封鎖將繼續,伊朗不會擁有核武器

      特朗普:如果到周三未達成結束戰爭的長期協議,可能會終止與伊朗的停火,但封鎖將繼續,伊朗不會擁有核武器

      魯中晨報
      2026-04-18 12:05:07
      比賴清德還狂的人出現了,如果她當選臺灣領導人,解放軍必定收臺

      比賴清德還狂的人出現了,如果她當選臺灣領導人,解放軍必定收臺

      芳芳歷史燴
      2026-03-29 21:09:31
      男人要戒煙嗎?醫生直言:55歲以后的男人,吸煙時牢記“5不吸”

      男人要戒煙嗎?醫生直言:55歲以后的男人,吸煙時牢記“5不吸”

      健身狂人
      2026-04-19 07:14:31
      孫悟空偷吃了那么多仙丹,為何卻還是太乙散仙?看太上老君怎么說

      孫悟空偷吃了那么多仙丹,為何卻還是太乙散仙?看太上老君怎么說

      千秋文化
      2026-02-13 18:49:10
      莫迪發布命令,允許進口中國設備,美媒:印度無法成為另一個中國

      莫迪發布命令,允許進口中國設備,美媒:印度無法成為另一個中國

      馬鞄戶外釣魚哥
      2026-04-19 23:24:27
      56歲牙醫徐勇去世,從業30年,家人將曝死因及肥胖問題

      56歲牙醫徐勇去世,從業30年,家人將曝死因及肥胖問題

      花寒弦絮
      2026-04-19 16:05:20
      下賽季排超看點拉滿!天津女排重磅補強,外援+名帥加持實力飆升

      下賽季排超看點拉滿!天津女排重磅補強,外援+名帥加持實力飆升

      金毛愛女排
      2026-04-20 00:00:04
      驚人的兩倍電力鴻溝,讓所有制裁成了笑話

      驚人的兩倍電力鴻溝,讓所有制裁成了笑話

      李榮茂
      2026-01-20 08:45:13
      趙麗穎難忘舊愛馮紹峰!直接撲倒王仁君,側面看與馮紹峰有幾分相似

      趙麗穎難忘舊愛馮紹峰!直接撲倒王仁君,側面看與馮紹峰有幾分相似

      八卦王者
      2026-04-19 11:20:51
      想掐斷中國命脈?特朗普剛動手,盟友就捅刀子,俄羅斯送來定心丸

      想掐斷中國命脈?特朗普剛動手,盟友就捅刀子,俄羅斯送來定心丸

      林子說事
      2026-04-19 21:19:50
      67萬億重磅政策落地,房價或變天,普通人如何應對?

      67萬億重磅政策落地,房價或變天,普通人如何應對?

      白色得季節
      2026-04-19 06:37:25
      人民幣突然大漲!有存款的賺翻了,5類人直接受益

      人民幣突然大漲!有存款的賺翻了,5類人直接受益

      三農老歷
      2026-04-19 10:41:48
      北京95-90青島!可怕的不是贏球 是北京主帥賽后這番話,格局很大

      北京95-90青島!可怕的不是贏球 是北京主帥賽后這番話,格局很大

      夢憶之淺
      2026-04-20 00:15:47
      曼城阿森納剩余賽程:皆無BIG6交鋒,曼城收官戰對陣維拉

      曼城阿森納剩余賽程:皆無BIG6交鋒,曼城收官戰對陣維拉

      懂球帝
      2026-04-20 01:58:16
      王一夫:原浙江省計委副主任,原浙江人民政府駐北京辦事處主任

      王一夫:原浙江省計委副主任,原浙江人民政府駐北京辦事處主任

      林子說事
      2026-04-19 06:07:55
      57歲歌手陳紅近況曝光!離婚后被前夫拿走12億,兒子成為她的驕傲

      57歲歌手陳紅近況曝光!離婚后被前夫拿走12億,兒子成為她的驕傲

      代軍哥哥談娛樂
      2026-04-18 09:57:07
      2026-04-20 05:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12795文章數 142632關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內娛隔空掀桌第一人

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      時尚
      游戲
      本地
      家居
      軍事航空

      裝修“精神角落”,就是這么上癮

      如何將ZH-1火力最大化?《戰艦世界》15.3版本造船廠加點攻略

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      家居要聞

      法式線條 時光靜淌

      軍事要聞

      伊朗逼退美掃雷艇:美方求給15分鐘撤退

      無障礙瀏覽 進入關懷版