<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      清華TsinghuaNLP團(tuán)隊(duì),登上Nature子刊封面:“模型的能力密度,每3.5個(gè)月翻倍”

      0
      分享至


      Nature Machine Intelligence 封面

      《Densing Law of LLMs》 論文,登上 Nature Machine Intelligence 封面

      這篇論文,提出了一個(gè)很有趣的點(diǎn)

      Densing Law 模型的能力密度,每 3.5 個(gè)月翻倍

      通過分析了 51 個(gè)開源模型,量化了一個(gè)現(xiàn)象:

      • ? 模型能力密度,呈指數(shù)級(jí)增長, 倍增周期約 3.5 個(gè)月

      • ? 這意味著達(dá)到同等性能水平,所需的參數(shù)量 每 3.5 個(gè)月減少一半

      • ? 伴隨參數(shù)效率的提升,同等性能下的 推理成本每 2.6 個(gè)月腰斬

      本論文的第一作者為肖朝軍,通訊作者為韓旭、劉知遠(yuǎn)、孫茂松,來自清華TsinghuaNLP團(tuán)隊(duì)

      論文回顧

      讓我先用簡明的方式,簡單講下論文:能力密度,每 3.5 個(gè)月翻倍,這里的能力密度是什么?

      能力密度 = 等效參數(shù)量 ÷ 實(shí)際參數(shù)量


      「能力密度」是怎么得來的

      換句話說:
      2B 模型跑出 4B 的成績,密度就是 2

      Llama-1 發(fā)布時(shí),密度不到 0.1

      兩年后,Gemma-2-9B 和 MiniCPM-3-4B 接近 2


      模型能力密度趨勢圖

      兩年,能力密度提高 20 倍
      和體感是不是很接近?模型咔咔在變聰明

      那么...怎么漲的?
      你可能聽說過小模型變強(qiáng)的兩種做法:

      • ? 剪枝 :把大模型參數(shù)砍掉一部分

      • ? 量化 :把參數(shù)精度從 32 位降到 8 位

      但論文發(fā)現(xiàn),這兩種方法都會(huì)讓密度下降

      • ? Llama-3.2-3B/1B 從 8B 剪枝來,密度比原模型低

      • ? Llama-3.1-minitron-4B 也是,密度也低

      • ? GPTQ 量化后,密度同樣下降

      剪枝/量化都沒啥用,圖自論文 Fig.3b

      論文解釋:
      壓縮過程中訓(xùn)練不充分,能力沒塞回去

      密度提升靠的是更好的預(yù)訓(xùn)練數(shù)據(jù),更好的架構(gòu),后期壓縮是沒用的
      那如果 3.5 個(gè)月翻倍這個(gè)規(guī)律持續(xù)下去,會(huì)怎樣?
      論文給了幾個(gè)推論

      密度提升靠的是更好的預(yù)訓(xùn)練數(shù)據(jù),更好的架構(gòu),后期壓縮是沒用的

      那如果 3.5 個(gè)月翻倍這個(gè)規(guī)律持續(xù)下去,會(huì)怎樣?

      論文給了幾個(gè)推論

      推論一:推理成本指數(shù)下降

      密度翻倍,同等性能所需參數(shù)量減半,算力顯存跟著減半

      論文算了一下:同等性能的推理成本,每 2.6 個(gè)月腰斬


      各種模型的調(diào)用價(jià)格,飛速下降,圖自論文 Fig.3a 推論二:ChatGPT 加速了密度增長

      ChatGPT 發(fā)布前,密度增長斜率是 0.0048,發(fā)布后變成了 0.0073


      ChatGPT 發(fā)布后,斜率明顯上升,圖自論文 Fig.3c

      增速提升 50%

      這說明... AI 大火之后,人、錢、資源都涌了進(jìn)來,增速實(shí)打?qū)嵦岣吡?/p>

      推論三:端側(cè)設(shè)備會(huì)越來越能打

      在過去幾年里,相同價(jià)格芯片的計(jì)算能力大約每 2.1 年翻一番

      而根據(jù)上面的結(jié)論,模型密度每 3.5 個(gè)月翻倍

      疊加一下:固定價(jià)格端側(cè)設(shè)備,能跑的有效參數(shù)量每 88 天翻番

      emmmmnm...未來可期


      又不是不可能... 歷史回顧

      這部分和論文無關(guān),是我自己整理的行業(yè)數(shù)據(jù),我們來看看實(shí)際價(jià)格


      先說量販?zhǔn)?/p>

      2022 年底,ChatGPT 發(fā)布的時(shí)候,能用到的模型叫text-davinci-003 ,后面也被稱作 GPT-3,定價(jià)是 20 美元/百萬 token

      2024 年 7 月,GPT-4o mini 出來了,0.15 美元/百萬輸入 token,比 GPT-3.5 Turbo 便宜 60%,MMLU 跑分還更高——82% vs 69.8%

      2024 年 8 月,Gemini-1.5-Flash,0.075 美元/百萬 token

      text-davinci-003Gemini Flash,20 個(gè)月,降了 266 倍

      旗艦?zāi)P湍兀?/p>

      最開始的 GPT-4,是 23年6月13日發(fā)布的,輸入是 60 美元/百萬 token。還有個(gè)更貴的 GPT-4-32k,輸入是 60美金/百萬 token

      而最新的 GPT-5.1 則只需要 1.25 美元/百萬 token


      OpenAI 的模型價(jià)格

      順便說一下,國產(chǎn)平替 GLM-4.6 更是低至 0.3 美元/百萬 token,要啥自行車


      GLM 的模型價(jià)格

      不僅僅是價(jià)格巨幅降低,性能也是節(jié)節(jié)攀升,曾經(jīng)的模型能力,從現(xiàn)在的角度,完全不夠看


      模型能力進(jìn)化史 再看小模型

      2024 年 2 月,MiniCPM-2.4B 發(fā)布,參數(shù)量只有 Mistral-7B 的 35%,跑分接近 Mistral-7B,中文、數(shù)學(xué)、代碼還更強(qiáng),整體超過 Llama2-13B、MPT-30B、Falcon-40B


      還是看這個(gè)圖,圈子大小表示參數(shù)量

      考慮到 Mistral-7B 是 2023 年 9 月發(fā)布的,那么...

      4 個(gè)月,參數(shù)量砍到 35%,性能不降

      這樣的例子還很多,大致都可以和論文的 Densing Law 對(duì)得上,未來大模型的發(fā)展都可以參照這個(gè)來評(píng)判

      穿插個(gè)題外話:Dense vs MoE

      上文中,我提到過兩種模型,一種是幾百B的,另一種則是幾B的...

      一些朋友可能會(huì)好奇,為啥都是大模型,有的賊大,有的賊小...

      這其實(shí)是個(gè)架構(gòu)問題,有些是 MoE 架構(gòu),體積大,適合服務(wù)器部署(訓(xùn)練/規(guī)模化推理成本有優(yōu)勢);有些是 Dense 架構(gòu),體積小,適合本地部署(尺寸上有優(yōu)勢),詳細(xì)的解釋可以看這里:

      總結(jié)

      一句話展望
      按這個(gè)發(fā)展速度,在小天才手表上,跑 Nano Banana,指日可待


      圖是ai畫的,但我是認(rèn)真的...現(xiàn)在的小天才,已經(jīng)比安尼亞克(ENIAC)強(qiáng)太多了

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      南京博物院背后的徐院長、徐公子、徐小姐,都是人才啊!

      南京博物院背后的徐院長、徐公子、徐小姐,都是人才啊!

      人格志
      2025-12-23 00:04:02
      齊達(dá)內(nèi)認(rèn)證!唯一能與皇馬平級(jí)的俱樂部,不是巴薩尤文

      齊達(dá)內(nèi)認(rèn)證!唯一能與皇馬平級(jí)的俱樂部,不是巴薩尤文

      瀾歸序
      2025-12-25 01:57:21
      天下要大亂了,美國公布最新戰(zhàn)略:為了中國,特朗普決心放棄世界

      天下要大亂了,美國公布最新戰(zhàn)略:為了中國,特朗普決心放棄世界

      興史興談
      2025-12-24 07:40:42
      秦嵐的“蜜桃臀”又上熱搜了!網(wǎng)友:“臀”確實(shí)美

      秦嵐的“蜜桃臀”又上熱搜了!網(wǎng)友:“臀”確實(shí)美

      馬拉松跑步健身
      2025-12-25 06:30:05
      當(dāng)下收臺(tái)灣不是最重要的,只要俄羅斯不敗,中國將迎百年大變局。

      當(dāng)下收臺(tái)灣不是最重要的,只要俄羅斯不敗,中國將迎百年大變局。

      百態(tài)人間
      2025-11-29 16:34:45
      印度首富的家庭瑣事:小兒媳和大伯哥多次牽手,小兒子毫不在意

      印度首富的家庭瑣事:小兒媳和大伯哥多次牽手,小兒子毫不在意

      小書生吃瓜
      2025-12-16 16:49:54
      強(qiáng)勢帝王在位54年,43年統(tǒng)兵作戰(zhàn),一生奉行誰不服就打誰的準(zhǔn)則

      強(qiáng)勢帝王在位54年,43年統(tǒng)兵作戰(zhàn),一生奉行誰不服就打誰的準(zhǔn)則

      磊子講史
      2025-12-23 11:14:11
      南博事件升級(jí)!已敲定6點(diǎn)定論,《江南春》送上拍賣場另有買家

      南博事件升級(jí)!已敲定6點(diǎn)定論,《江南春》送上拍賣場另有買家

      火山詩話
      2025-12-24 10:55:06
      -6℃+小到中雪局部大雪+霧+8級(jí)風(fēng)!山東最新天氣預(yù)報(bào)

      -6℃+小到中雪局部大雪+霧+8級(jí)風(fēng)!山東最新天氣預(yù)報(bào)

      魯中晨報(bào)
      2025-12-25 08:57:09
      德雷克海峽:地球上最兇險(xiǎn)的航道,為何連現(xiàn)代巨輪都不敢掉以輕心

      德雷克海峽:地球上最兇險(xiǎn)的航道,為何連現(xiàn)代巨輪都不敢掉以輕心

      半解智士
      2025-12-23 21:43:57
      強(qiáng)生爽身粉致癌案新進(jìn)展:被判向一患癌女子賠償110億元,創(chuàng)15年來紀(jì)錄!后面還有超6.7萬起訴訟

      強(qiáng)生爽身粉致癌案新進(jìn)展:被判向一患癌女子賠償110億元,創(chuàng)15年來紀(jì)錄!后面還有超6.7萬起訴訟

      每日經(jīng)濟(jì)新聞
      2025-12-24 20:45:05
      CBA直播模式引爭議,央視青睞廣東,杜鋒變脾氣,未來5輪能贏幾場

      CBA直播模式引爭議,央視青睞廣東,杜鋒變脾氣,未來5輪能贏幾場

      體育大學(xué)僧
      2025-12-24 09:01:52
      吳千語帶貨賣了1.5億,施伯雄摟著她慶祝,想親老婆卻被一把推開

      吳千語帶貨賣了1.5億,施伯雄摟著她慶祝,想親老婆卻被一把推開

      手工制作阿殲
      2025-12-24 10:42:37
      Excel擬物圖標(biāo)引發(fā)誤讀:微軟眼中的保存,00后視為自動(dòng)售貨機(jī)

      Excel擬物圖標(biāo)引發(fā)誤讀:微軟眼中的保存,00后視為自動(dòng)售貨機(jī)

      IT之家
      2025-12-24 10:19:28
      高市早苗又放話了,警惕!

      高市早苗又放話了,警惕!

      環(huán)球時(shí)報(bào)國際
      2025-12-24 21:15:20
      A股:剛剛,央行,商務(wù)部釋放王炸,兩大信號(hào)定調(diào),周四要有新變化

      A股:剛剛,央行,商務(wù)部釋放王炸,兩大信號(hào)定調(diào),周四要有新變化

      云鵬敘事
      2025-12-25 00:00:05
      比恒大還慘!中國第二大民企倒了,負(fù)債千億,創(chuàng)始人被帶走

      比恒大還慘!中國第二大民企倒了,負(fù)債千億,創(chuàng)始人被帶走

      花漾夜雨飄雪
      2025-12-25 00:47:56
      無錫追加1億元!打到個(gè)人賬戶!

      無錫追加1億元!打到個(gè)人賬戶!

      江南晚報(bào)
      2025-12-24 16:46:27
      ESPN記者表示,從未見過像格林與勇士隊(duì)主帥科爾的沖突這樣的事情

      ESPN記者表示,從未見過像格林與勇士隊(duì)主帥科爾的沖突這樣的事情

      好火子
      2025-12-25 00:27:42
      醫(yī)院發(fā)文:全體醫(yī)務(wù)人員工資按60%比例發(fā)放

      醫(yī)院發(fā)文:全體醫(yī)務(wù)人員工資按60%比例發(fā)放

      護(hù)理傳真
      2025-12-24 20:50:50
      2025-12-25 09:23:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      224文章數(shù) 12關(guān)注度
      往期回顧 全部

      科技要聞

      老板監(jiān)視員工微信只需300元

      頭條要聞

      牛彈琴:美國強(qiáng)烈干涉歐洲的內(nèi)政 歐洲人要?dú)庹?/h3>

      頭條要聞

      牛彈琴:美國強(qiáng)烈干涉歐洲的內(nèi)政 歐洲人要?dú)庹?/h3>

      體育要聞

      26歲廣西球王,在質(zhì)疑聲中成為本土得分王

      娛樂要聞

      懷孕增重30斤!闞清子驚傳誕一女夭折?

      財(cái)經(jīng)要聞

      美國未來18個(gè)月不對(duì)中國芯片加額外關(guān)稅

      汽車要聞

      “運(yùn)動(dòng)版庫里南”一月份亮相???或命名極氪9S

      態(tài)度原創(chuàng)

      手機(jī)
      健康
      教育
      藝術(shù)
      家居

      手機(jī)要聞

      11月單品銷量Top20:蘋果包圓前三,榮耀X70國產(chǎn)第一

      這些新療法,讓化療不再那么痛苦

      教育要聞

      山東財(cái)經(jīng)稅收專業(yè)超群!就業(yè)前景解析

      藝術(shù)要聞

      毛主席草書背后的故事:小練字者迷失,書法之路揭示真相。

      家居要聞

      法式大平層 智能家居添彩

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 成人午夜福利| 亚洲色欲色欲www| 亚洲综合色婷婷中文字幕| AV青青草| 女人18片毛片60分钟| 国产精品亚| 密臀av| 欧美国产精品不卡在线观看| 中文字幕第一页国产| 午夜精品久久久久久毛片| 免费国产一级特黄aa大片在线| 成人国产一区二区三区精品| jizzjizzjizzjizz| 都匀市| 国产XXX| 99无码人妻一区二区三区色 | 色婷婷综合久久久中文字幕| 亚洲国产性夜夜综合 | 人妻熟女一二三区夜夜爱| 久久99精品国产麻豆婷婷| 日本真人做爰免费的视频| 成人免费看片又大又黄| 亚洲国产VA| 精品无码黑人又粗又大又长| 毛片tv网站无套内射tv网站| 国产午夜亚洲精品不卡| 伊人成人在线视频免费| 日韩欧美人妻一区二区三区| 成在线人午夜剧场免费无码| 日韩大片高清播放器| 99热久久这里只有精品| 国产探花在线精品一区二区| 四川少妇大战4黑人| 洋洋AV| 99热这里只有精品2| 日日夜夜撸免费视频| 色狠狠色噜噜av天堂一区| 日本妇人成熟免费| 国内自拍av在线免费| 色吊丝中文字幕| 景谷|