<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      token正式命名為“詞元”,token到底是個(gè)啥?

      0
      分享至

      最近幾天,不少人第一次在許許多多的媒體里看見了這個(gè)詞。不是流量,不是算力,也不是參數(shù),而是一個(gè)原本更常出現(xiàn)在程序員聊天記錄和大模型后臺(tái)里的詞——token,也就是“詞元”。

      01


      一夜之間,

      token怎么就成了“詞元”?



      “詞元”被正式定義。圖源于網(wǎng)絡(luò)

      值得注意的是,在人民日?qǐng)?bào)等公開報(bào)道里,它被明確寫成了“詞元”;在國新辦發(fā)布會(huì)上,國家數(shù)據(jù)局局長也直接說出了“Token,也就是詞元”這句話。一個(gè)技術(shù)圈常用的英文詞,正在以中文名字進(jìn)入更廣泛的公共表達(dá)。

      為什么這件事值得關(guān)注?因?yàn)橐粋€(gè)概念一旦被大眾媒體穩(wěn)定使用,就意味著它不再只是圈內(nèi)黑話,而是開始成為普通人也會(huì)頻繁遇到的公共詞匯。以前大家刷到 AI 新聞時(shí),看到 token 往往會(huì)直接跳過;現(xiàn)在,“詞元”這個(gè)譯法把它拉近了。它不像一個(gè)遙遠(yuǎn)的英文術(shù)語,更像一個(gè)可以被理解、可以被討論、也可以被拿來解釋現(xiàn)實(shí)世界的新名詞。


      看似聊天,背后卻是詞元計(jì)算。圖源于網(wǎng)絡(luò)

      問題隨之而來:這個(gè)聽起來像是AI時(shí)代的“貨幣”單位的詞元,到底是什么?它為什么突然這么重要?它跟我們平時(shí)說的字、詞、句子,到底是什么關(guān)系?很多人以為自己只是在和 AI 聊天,實(shí)際上在模型眼里,這整個(gè)過程都在圍繞詞元展開。

      02


      一句話解釋,

      詞元到底是個(gè)啥?

      最直接的答案是,token,也就是詞元,是大模型處理語言時(shí)使用的基本單位。它不是整句話,也不總是一個(gè)完整的詞,更不等于字?jǐn)?shù)。人類看見的是一段完整表達(dá),模型接收到的卻是一連串被切開的信息小塊。模型不會(huì)像人那樣“直接讀懂一句話”,它需要先把語言拆分,再把這些拆分后的部分轉(zhuǎn)成數(shù)字,最后才能繼續(xù)計(jì)算。

      如果把人類語言比作一條長長的項(xiàng)鏈,那詞元就像項(xiàng)鏈上的珠子。你看到的是整體的光澤和形狀,模型處理的卻是每一顆珠子的順序、位置和關(guān)系。它并不先理解“意義”,而是先處理“單位”。這就是為什么詞元是大模型世界里最基礎(chǔ)、也最關(guān)鍵的那把尺子。


      你看到的是一句話,模型看到的是一串詞元。圖為AI創(chuàng)作

      換個(gè)更生活化的比喻也許更好理解。我們點(diǎn)外賣時(shí),平臺(tái)不會(huì)按“我現(xiàn)在有點(diǎn)餓”來計(jì)算訂單,它會(huì)按份數(shù)、菜品、重量、地址這些可處理的單位來組織系統(tǒng)。模型面對(duì)語言也是一樣。你輸入的是問題、情緒和需求,模型真正處理的卻是一個(gè)個(gè)可以統(tǒng)計(jì)、可以編碼、可以運(yùn)算的詞元。

      它不是“字”,也不是“詞”,更不是“句子”。

      很多人一看到“詞元”這個(gè)中文譯名,就會(huì)自然地把它理解成“詞”。但這恰恰是最容易產(chǎn)生誤會(huì)的地方。詞元并不嚴(yán)格等于語文課本里的“詞”,也不穩(wěn)定對(duì)應(yīng)某個(gè)漢字,更不是一整個(gè)句子。它是機(jī)器為了處理語言而切分出來的一種計(jì)算單位。


      詞元不是整句,也不穩(wěn)定等于一個(gè)詞。圖源于網(wǎng)絡(luò)

      有時(shí)候,一個(gè)詞元可能只是一個(gè)字符;有時(shí)候,它可能是一整個(gè)常見詞;還有時(shí)候,它只是一個(gè)詞的一部分。空格、標(biāo)點(diǎn)、前后搭配,都會(huì)影響切分結(jié)果。也就是說,詞元不是語言天然長出來的邊界,而是模型為了更高效地處理語言,主動(dòng)“切”出來的顆粒。

      這件事非常重要,因?yàn)樗鼤?huì)直接影響我們對(duì)“token 數(shù)量”的理解。你不能把 token 簡(jiǎn)單換算成“多少個(gè)字”或者“多少個(gè)詞”。同一句話,換一個(gè)模型,詞元數(shù)量可能就變了。因?yàn)椴煌P捅澈蟮?tokenizer,也就是詞元切分器,并不完全相同。人類共享的是語言,模型共享的卻未必是同一套切法。


      詞元像積木,一樣大的物體,可以根據(jù)不同的定義,拆解成不同的元件。圖源于網(wǎng)絡(luò)

      03


      模型為什么一定要

      先把話“切一刀”?

      原因說穿了并不神秘:模型并不真正認(rèn)識(shí)文字,它認(rèn)識(shí)的是數(shù)字。對(duì)我們來說,文字本身攜帶意義;對(duì)機(jī)器來說,文字只是符號(hào)。要讓模型處理語言,必須先把這些符號(hào)轉(zhuǎn)成編號(hào),再讓模型在編號(hào)之間建立關(guān)系。詞元就是這個(gè)翻譯過程中最關(guān)鍵的一層。

      所以,大模型理解一句話的大致流程并不是“看見文字=立刻懂了”,而更像“切分語言—映射編號(hào)—進(jìn)行計(jì)算—生成新編號(hào)—再還原成文字”。從這個(gè)角度看,模型不是在直接閱讀人類語言,而是在處理一條條編號(hào)序列。文字是我們看到的外衣,詞元和編號(hào)才是模型真正工作的內(nèi)部形態(tài)。



      和其它計(jì)量單位作用相似,詞元是AI 時(shí)代的重要“計(jì)量單位”。圖源于網(wǎng)絡(luò)

      如果你愿意把它想象得更具象一點(diǎn),tokenizer 就像海關(guān)安檢機(jī)。人類說出一句完整的話,進(jìn)門時(shí)先被拆包、掃描、分類、編號(hào),然后才進(jìn)入系統(tǒng)內(nèi)部流轉(zhuǎn)。你在外面看到的是“我說了一句話”,模型內(nèi)部發(fā)生的卻是一場(chǎng)高密度的信息物流。

      今天人人都開始談?wù)撛~元,因?yàn)樵~元已經(jīng)不只是技術(shù)細(xì)節(jié),而是越來越像 AI 時(shí)代的基礎(chǔ)計(jì)量單位。你和模型聊一次天,會(huì)消耗輸入詞元;模型給你回一段話,會(huì)產(chǎn)生輸出詞元;上下文越長、材料越多、任務(wù)越復(fù)雜,詞元消耗往往也越高。于是,速度、成本、上下文容量、服務(wù)能力,最后都會(huì)和詞元掛鉤。


      AI運(yùn)用詞元的基本原理。圖為AI生成

      這也是為什么,國家數(shù)據(jù)局會(huì)把詞元描述為既可計(jì)量,也可定價(jià)、可交易的單位。一個(gè)概念一旦同時(shí)進(jìn)入技術(shù)語言、產(chǎn)業(yè)語言和媒體語言,就說明它已經(jīng)不僅僅是工程師內(nèi)部的術(shù)語,而是正在成為商業(yè)和公共討論中的共同語言。簡(jiǎn)單說,詞元之于大模型,有點(diǎn)像度數(shù)之于電表、流量之于手機(jī)套餐、公里數(shù)之于網(wǎng)約車。你平時(shí)可能不盯著它看,但一旦涉及性能、費(fèi)用和規(guī)模,它立刻變成關(guān)鍵數(shù)字。

      04


      為什么中文語境下,

      “詞元”尤其值得理解?

      在英文里,很多人會(huì)自然把 token 聯(lián)想到 word,也就是“詞”。但中文并不是按空格天然分詞的語言,漢字、詞語、短語和語境之間的邊界都更靈活。因此,如果簡(jiǎn)單把 token 理解成“單詞”,在中文場(chǎng)景下反而更容易誤解。

      這也是“詞元”這個(gè)譯法的一個(gè)妙處。它沒有把 token 硬塞進(jìn)已有的語法概念里,而是保留了一點(diǎn)技術(shù)感,同時(shí)又給普通人留出了理解空間。它在字和詞之間,在語言學(xué)概念和計(jì)算概念之間,搭起了一座橋。你一看就知道,它大概和“詞”有關(guān),但又不是傳統(tǒng)意義上的詞。

      更進(jìn)一步說,很多主流的詞元化方法,本來就不是按傳統(tǒng)詞典那樣死板切分,而是采用子詞策略。常見表達(dá)盡量整體保留,罕見表達(dá)再拆得更細(xì)。這樣既能控制詞表規(guī)模,又能兼顧表達(dá)能力。對(duì)于中文這種沒有天然空格的語言,這種策略尤其關(guān)鍵。


      AI對(duì)語言的轉(zhuǎn)化。圖源于網(wǎng)絡(luò)

      理解詞元,其實(shí)是在理解 AI 到底怎么‘讀’你的話。很多人覺得 AI 神秘,一個(gè)重要原因是我們總是從結(jié)果去看它。它會(huì)聊天、會(huì)寫作、會(huì)總結(jié)、會(huì)翻譯,于是大家容易把它想象成一個(gè)藏在屏幕后面的“聰明大腦”。但如果你從詞元這個(gè)入口重新看,大模型立刻就會(huì)變得更具體。它不是先有靈感,再給出答案;它是在大量詞元之間不斷計(jì)算下一步最可能出現(xiàn)什么。

      這并不會(huì)削弱 AI 的神奇感,反而會(huì)讓我們更真實(shí)地理解它。你會(huì)明白,模型看起來像在和你自然交流,本質(zhì)上卻在完成一場(chǎng)高度精密的語言運(yùn)算。你看到的是話語的流動(dòng),模型經(jīng)歷的是詞元的排布、映射與生成。你感受到的是“它好像懂我”,模型內(nèi)部處理的卻是“這些詞元在上下文里如何彼此關(guān)聯(lián)”。

      對(duì)普通人來說,理解這一點(diǎn)很有價(jià)值。因?yàn)槲磥碓絹碓蕉嗟?AI 產(chǎn)品說明書、服務(wù)計(jì)費(fèi)、性能指標(biāo)、上下文限制、平臺(tái)公告,都會(huì)不斷提到“詞元”這個(gè)單位。它很可能會(huì)像曾經(jīng)的“流量”“像素”“帶寬”一樣,慢慢成為數(shù)字生活里必須認(rèn)識(shí)的新詞。

      說到底,詞元讓我們看見了 AI 的底層節(jié)奏。

      如果用一句話收束全文,答案可以是這樣的:詞元是人工智能把人類語言翻譯成機(jī)器可處理形式時(shí)所使用的基本單位。它一頭連著文字,一頭連著數(shù)字;一頭連著理解,一頭連著計(jì)算;一頭連著技術(shù)原理,一頭連著商業(yè)現(xiàn)實(shí)。


      理解詞元,就是理解 AI 如何真正“讀”你的話。圖源于網(wǎng)絡(luò)

      所以,下次再聽到“這個(gè)模型很費(fèi) token”時(shí),你完全可以把它理解得更準(zhǔn)確一些:不是它“很費(fèi)詞”,而是它在大量消耗機(jī)器處理語言所需的最小計(jì)算單位。你看到的是一句完整的話,模型面對(duì)的卻是一串可以分割、編號(hào)和運(yùn)算的詞元。

      而“詞元”這個(gè)中文名字之所以重要,也正因?yàn)樗尭嗳说谝淮斡袡C(jī)會(huì)用中文、用日常經(jīng)驗(yàn),去理解大模型世界里最基礎(chǔ)卻最關(guān)鍵的一塊磚。你并不一定要學(xué)會(huì)訓(xùn)練模型,但只要理解了詞元,就已經(jīng)摸到了 AI 時(shí)代語言計(jì)算的門把手。

      參考資料:

      [1] 人民日?qǐng)?bào). 我國日均詞元調(diào)用量突破140萬億[EB/OL]. (2026-03-24)[2026-03-24].https://paper.people.com.cn/rmrb/pc/content/202603/24/content_30147015.html.

      [2] 國家數(shù)據(jù)局. 國家數(shù)據(jù)局局長劉烈宏出席國新辦新聞發(fā)布會(huì) 介紹第九屆數(shù)字中國建設(shè)峰會(huì)有關(guān)情況并回答記者提問[EB/OL]. (2026-03-24)[2026-03-24].https://www.nda.gov.cn/sjj/zhuanti/sjzgzxd/szzgzb/0324/20260324132817761432606_pc.html.

      [3] OpenAI. What are tokens and how to count them?[EB/OL]. [2026-03-24]. https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them.

      [4] OpenAI. Tokenizer[EB/OL]. [2026-03-24].

      https://platform.openai.com/tokenizer.

      [5] Hugging Face. Tokenizer[EB/OL]. [2026-03-24]. https://huggingface.co/docs/transformers/main_classes/tokenizer.

      [6] Hugging Face. Summary of the tokenizers[EB/OL]. [2026-03-24]. https://huggingface.co/docs/transformers/v4.47.1/tokenizer_summary.

      [7] Hugging Face. Tokenization algorithms[EB/OL]. [2026-03-24]. https://huggingface.co/docs/transformers/tokenizer_summary.

      編輯:亦山

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      57歲鄭麗文懂審美!穿紫色西服很干練,一舉一動(dòng)都透著女強(qiáng)人氣場(chǎng)

      57歲鄭麗文懂審美!穿紫色西服很干練,一舉一動(dòng)都透著女強(qiáng)人氣場(chǎng)

      八八尚語
      2026-04-08 10:25:52
      男人的生理需求能有多難忍?網(wǎng)友:我對(duì)我老公只有動(dòng)物本能

      男人的生理需求能有多難忍?網(wǎng)友:我對(duì)我老公只有動(dòng)物本能

      帶你感受人間冷暖
      2026-02-07 03:58:56
      悲哀!黃國昌前方賣命,柯文哲后面拆臺(tái),蔡壁如“咸魚翻身”

      悲哀!黃國昌前方賣命,柯文哲后面拆臺(tái),蔡壁如“咸魚翻身”

      牛鍋巴小釩
      2026-04-09 00:58:25
      程序員哭泣:被阿里裁員3年了,收入巔峰永遠(yuǎn)停在2022年了,125萬

      程序員哭泣:被阿里裁員3年了,收入巔峰永遠(yuǎn)停在2022年了,125萬

      黯泉
      2026-04-08 20:26:04
      石油只是幌子!美國中東真正目標(biāo)曝光,中國專家早已預(yù)言

      石油只是幌子!美國中東真正目標(biāo)曝光,中國專家早已預(yù)言

      基斯默默
      2026-04-07 22:30:24
      52歲漂亮大媽相親,聊到特殊問題卻立馬臉紅,大叔:你不說我也懂

      52歲漂亮大媽相親,聊到特殊問題卻立馬臉紅,大叔:你不說我也懂

      談史論天地
      2026-04-08 19:05:03
      項(xiàng)立剛再撕莫言!諾貝爾文學(xué)獎(jiǎng)評(píng)委只有18人,其中只有一個(gè)懂中文

      項(xiàng)立剛再撕莫言!諾貝爾文學(xué)獎(jiǎng)評(píng)委只有18人,其中只有一個(gè)懂中文

      談史論天地
      2026-04-04 17:50:41
      “高中女孩”與“職高女孩”的對(duì)比圖火了,家長直言:差距太大了

      “高中女孩”與“職高女孩”的對(duì)比圖火了,家長直言:差距太大了

      世界圈
      2026-04-08 09:22:28
      冷知識(shí):電和天然氣燒水,誰更省錢?差距能差一個(gè)月菜錢!

      冷知識(shí):電和天然氣燒水,誰更省錢?差距能差一個(gè)月菜錢!

      小談食刻美食
      2026-04-06 09:26:41
      “預(yù)制菜”一上桌,人就跑光!商場(chǎng)餐飲的黃金時(shí)代真結(jié)束了?

      “預(yù)制菜”一上桌,人就跑光!商場(chǎng)餐飲的黃金時(shí)代真結(jié)束了?

      混沌錄
      2026-04-08 16:54:07
      紅薯逆襲?科學(xué)研究:堅(jiān)持吃紅薯,不出半年,或能收獲這5種好處

      紅薯逆襲?科學(xué)研究:堅(jiān)持吃紅薯,不出半年,或能收獲這5種好處

      健康之光
      2026-04-06 18:41:47
      國際油價(jià)短線下挫 WTI原油跌幅再度擴(kuò)大至18%

      國際油價(jià)短線下挫 WTI原油跌幅再度擴(kuò)大至18%

      財(cái)聯(lián)社
      2026-04-08 20:12:34
      又紫又紅!無錫開始了!

      又紫又紅!無錫開始了!

      江南晚報(bào)
      2026-04-05 15:08:48
      伊朗宣布勝利,議長將率團(tuán)參加伊美談判;我外交部回應(yīng)中國是否推動(dòng)伊朗參與停火談判

      伊朗宣布勝利,議長將率團(tuán)參加伊美談判;我外交部回應(yīng)中國是否推動(dòng)伊朗參與停火談判

      Ck的蜜糖
      2026-04-09 03:16:49
      國家一級(jí)女演員陳麗云被逮捕!

      國家一級(jí)女演員陳麗云被逮捕!

      許三歲
      2026-03-28 09:24:30
      美國人最喜愛的汽車排名:沒有一款歐洲車,美系車也只有一款上榜

      美國人最喜愛的汽車排名:沒有一款歐洲車,美系車也只有一款上榜

      鐵錘妹妹是只貓
      2026-04-08 03:27:36
      白冰再也找不回玉淑的感覺了

      白冰再也找不回玉淑的感覺了

      可樂談情感
      2026-04-09 01:49:39
      中國斥資20萬億打造全球最大規(guī)模城市更新工程

      中國斥資20萬億打造全球最大規(guī)模城市更新工程

      觀察者小海風(fēng)
      2026-04-08 13:13:22
      助威男足,邦馬蒂到諾坎普現(xiàn)場(chǎng)觀看巴薩與馬競(jìng)的首回合比賽

      助威男足,邦馬蒂到諾坎普現(xiàn)場(chǎng)觀看巴薩與馬競(jìng)的首回合比賽

      懂球帝
      2026-04-09 03:00:07
      蘋果降價(jià),iPhone 17 Pro 256GB大放異彩,錯(cuò)過的朋友們要恭喜了!

      蘋果降價(jià),iPhone 17 Pro 256GB大放異彩,錯(cuò)過的朋友們要恭喜了!

      小柱解說游戲
      2026-04-09 02:22:35
      2026-04-09 03:51:00
      中科院物理所 incentive-icons
      中科院物理所
      愛上物理,改變世界。
      10045文章數(shù) 136518關(guān)注度
      往期回顧 全部

      科技要聞

      造出地表最強(qiáng)AI,卻死活不給你用!

      頭條要聞

      伊朗武裝部隊(duì):伊朗對(duì)美以絕不信任

      頭條要聞

      伊朗武裝部隊(duì):伊朗對(duì)美以絕不信任

      體育要聞

      40歲,但實(shí)力倒退12年

      娛樂要聞

      侯佩岑全家悉尼度假,一家四口幸福滿溢

      財(cái)經(jīng)要聞

      天津海河乳業(yè)回應(yīng)直播間涉黃

      汽車要聞

      20萬級(jí)滿配華為全家桶 華境S是懂家庭的大六座

      態(tài)度原創(chuàng)

      本地
      家居
      游戲
      健康
      公開課

      本地新聞

      跟著歌聲游安徽,聽古村回響

      家居要聞

      自在恣意 侘寂風(fēng)別墅

      真愛拉電線!《終末地》日本市場(chǎng)收入超中國:全球第一

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版