最近幾天,不少人第一次在許許多多的媒體里看見了這個(gè)詞。不是流量,不是算力,也不是參數(shù),而是一個(gè)原本更常出現(xiàn)在程序員聊天記錄和大模型后臺(tái)里的詞——token,也就是“詞元”。
01
![]()
一夜之間,
token怎么就成了“詞元”?
![]()
![]()
“詞元”被正式定義。圖源于網(wǎng)絡(luò)
值得注意的是,在人民日?qǐng)?bào)等公開報(bào)道里,它被明確寫成了“詞元”;在國新辦發(fā)布會(huì)上,國家數(shù)據(jù)局局長也直接說出了“Token,也就是詞元”這句話。一個(gè)技術(shù)圈常用的英文詞,正在以中文名字進(jìn)入更廣泛的公共表達(dá)。
為什么這件事值得關(guān)注?因?yàn)橐粋€(gè)概念一旦被大眾媒體穩(wěn)定使用,就意味著它不再只是圈內(nèi)黑話,而是開始成為普通人也會(huì)頻繁遇到的公共詞匯。以前大家刷到 AI 新聞時(shí),看到 token 往往會(huì)直接跳過;現(xiàn)在,“詞元”這個(gè)譯法把它拉近了。它不像一個(gè)遙遠(yuǎn)的英文術(shù)語,更像一個(gè)可以被理解、可以被討論、也可以被拿來解釋現(xiàn)實(shí)世界的新名詞。
![]()
看似聊天,背后卻是詞元計(jì)算。圖源于網(wǎng)絡(luò)
問題隨之而來:這個(gè)聽起來像是AI時(shí)代的“貨幣”單位的詞元,到底是什么?它為什么突然這么重要?它跟我們平時(shí)說的字、詞、句子,到底是什么關(guān)系?很多人以為自己只是在和 AI 聊天,實(shí)際上在模型眼里,這整個(gè)過程都在圍繞詞元展開。
02
![]()
一句話解釋,
詞元到底是個(gè)啥?
最直接的答案是,token,也就是詞元,是大模型處理語言時(shí)使用的基本單位。它不是整句話,也不總是一個(gè)完整的詞,更不等于字?jǐn)?shù)。人類看見的是一段完整表達(dá),模型接收到的卻是一連串被切開的信息小塊。模型不會(huì)像人那樣“直接讀懂一句話”,它需要先把語言拆分,再把這些拆分后的部分轉(zhuǎn)成數(shù)字,最后才能繼續(xù)計(jì)算。
如果把人類語言比作一條長長的項(xiàng)鏈,那詞元就像項(xiàng)鏈上的珠子。你看到的是整體的光澤和形狀,模型處理的卻是每一顆珠子的順序、位置和關(guān)系。它并不先理解“意義”,而是先處理“單位”。這就是為什么詞元是大模型世界里最基礎(chǔ)、也最關(guān)鍵的那把尺子。
![]()
你看到的是一句話,模型看到的是一串詞元。圖為AI創(chuàng)作
換個(gè)更生活化的比喻也許更好理解。我們點(diǎn)外賣時(shí),平臺(tái)不會(huì)按“我現(xiàn)在有點(diǎn)餓”來計(jì)算訂單,它會(huì)按份數(shù)、菜品、重量、地址這些可處理的單位來組織系統(tǒng)。模型面對(duì)語言也是一樣。你輸入的是問題、情緒和需求,模型真正處理的卻是一個(gè)個(gè)可以統(tǒng)計(jì)、可以編碼、可以運(yùn)算的詞元。
它不是“字”,也不是“詞”,更不是“句子”。
很多人一看到“詞元”這個(gè)中文譯名,就會(huì)自然地把它理解成“詞”。但這恰恰是最容易產(chǎn)生誤會(huì)的地方。詞元并不嚴(yán)格等于語文課本里的“詞”,也不穩(wěn)定對(duì)應(yīng)某個(gè)漢字,更不是一整個(gè)句子。它是機(jī)器為了處理語言而切分出來的一種計(jì)算單位。
![]()
詞元不是整句,也不穩(wěn)定等于一個(gè)詞。圖源于網(wǎng)絡(luò)
有時(shí)候,一個(gè)詞元可能只是一個(gè)字符;有時(shí)候,它可能是一整個(gè)常見詞;還有時(shí)候,它只是一個(gè)詞的一部分。空格、標(biāo)點(diǎn)、前后搭配,都會(huì)影響切分結(jié)果。也就是說,詞元不是語言天然長出來的邊界,而是模型為了更高效地處理語言,主動(dòng)“切”出來的顆粒。
這件事非常重要,因?yàn)樗鼤?huì)直接影響我們對(duì)“token 數(shù)量”的理解。你不能把 token 簡(jiǎn)單換算成“多少個(gè)字”或者“多少個(gè)詞”。同一句話,換一個(gè)模型,詞元數(shù)量可能就變了。因?yàn)椴煌P捅澈蟮?tokenizer,也就是詞元切分器,并不完全相同。人類共享的是語言,模型共享的卻未必是同一套切法。
![]()
詞元像積木,一樣大的物體,可以根據(jù)不同的定義,拆解成不同的元件。圖源于網(wǎng)絡(luò)
03
![]()
模型為什么一定要
先把話“切一刀”?
原因說穿了并不神秘:模型并不真正認(rèn)識(shí)文字,它認(rèn)識(shí)的是數(shù)字。對(duì)我們來說,文字本身攜帶意義;對(duì)機(jī)器來說,文字只是符號(hào)。要讓模型處理語言,必須先把這些符號(hào)轉(zhuǎn)成編號(hào),再讓模型在編號(hào)之間建立關(guān)系。詞元就是這個(gè)翻譯過程中最關(guān)鍵的一層。
所以,大模型理解一句話的大致流程并不是“看見文字=立刻懂了”,而更像“切分語言—映射編號(hào)—進(jìn)行計(jì)算—生成新編號(hào)—再還原成文字”。從這個(gè)角度看,模型不是在直接閱讀人類語言,而是在處理一條條編號(hào)序列。文字是我們看到的外衣,詞元和編號(hào)才是模型真正工作的內(nèi)部形態(tài)。
![]()
![]()
和其它計(jì)量單位作用相似,詞元是AI 時(shí)代的重要“計(jì)量單位”。圖源于網(wǎng)絡(luò)
如果你愿意把它想象得更具象一點(diǎn),tokenizer 就像海關(guān)安檢機(jī)。人類說出一句完整的話,進(jìn)門時(shí)先被拆包、掃描、分類、編號(hào),然后才進(jìn)入系統(tǒng)內(nèi)部流轉(zhuǎn)。你在外面看到的是“我說了一句話”,模型內(nèi)部發(fā)生的卻是一場(chǎng)高密度的信息物流。
今天人人都開始談?wù)撛~元,因?yàn)樵~元已經(jīng)不只是技術(shù)細(xì)節(jié),而是越來越像 AI 時(shí)代的基礎(chǔ)計(jì)量單位。你和模型聊一次天,會(huì)消耗輸入詞元;模型給你回一段話,會(huì)產(chǎn)生輸出詞元;上下文越長、材料越多、任務(wù)越復(fù)雜,詞元消耗往往也越高。于是,速度、成本、上下文容量、服務(wù)能力,最后都會(huì)和詞元掛鉤。
![]()
AI運(yùn)用詞元的基本原理。圖為AI生成
這也是為什么,國家數(shù)據(jù)局會(huì)把詞元描述為既可計(jì)量,也可定價(jià)、可交易的單位。一個(gè)概念一旦同時(shí)進(jìn)入技術(shù)語言、產(chǎn)業(yè)語言和媒體語言,就說明它已經(jīng)不僅僅是工程師內(nèi)部的術(shù)語,而是正在成為商業(yè)和公共討論中的共同語言。簡(jiǎn)單說,詞元之于大模型,有點(diǎn)像度數(shù)之于電表、流量之于手機(jī)套餐、公里數(shù)之于網(wǎng)約車。你平時(shí)可能不盯著它看,但一旦涉及性能、費(fèi)用和規(guī)模,它立刻變成關(guān)鍵數(shù)字。
04
![]()
為什么中文語境下,
“詞元”尤其值得理解?
在英文里,很多人會(huì)自然把 token 聯(lián)想到 word,也就是“詞”。但中文并不是按空格天然分詞的語言,漢字、詞語、短語和語境之間的邊界都更靈活。因此,如果簡(jiǎn)單把 token 理解成“單詞”,在中文場(chǎng)景下反而更容易誤解。
這也是“詞元”這個(gè)譯法的一個(gè)妙處。它沒有把 token 硬塞進(jìn)已有的語法概念里,而是保留了一點(diǎn)技術(shù)感,同時(shí)又給普通人留出了理解空間。它在字和詞之間,在語言學(xué)概念和計(jì)算概念之間,搭起了一座橋。你一看就知道,它大概和“詞”有關(guān),但又不是傳統(tǒng)意義上的詞。
更進(jìn)一步說,很多主流的詞元化方法,本來就不是按傳統(tǒng)詞典那樣死板切分,而是采用子詞策略。常見表達(dá)盡量整體保留,罕見表達(dá)再拆得更細(xì)。這樣既能控制詞表規(guī)模,又能兼顧表達(dá)能力。對(duì)于中文這種沒有天然空格的語言,這種策略尤其關(guān)鍵。
![]()
AI對(duì)語言的轉(zhuǎn)化。圖源于網(wǎng)絡(luò)
理解詞元,其實(shí)是在理解 AI 到底怎么‘讀’你的話。很多人覺得 AI 神秘,一個(gè)重要原因是我們總是從結(jié)果去看它。它會(huì)聊天、會(huì)寫作、會(huì)總結(jié)、會(huì)翻譯,于是大家容易把它想象成一個(gè)藏在屏幕后面的“聰明大腦”。但如果你從詞元這個(gè)入口重新看,大模型立刻就會(huì)變得更具體。它不是先有靈感,再給出答案;它是在大量詞元之間不斷計(jì)算下一步最可能出現(xiàn)什么。
這并不會(huì)削弱 AI 的神奇感,反而會(huì)讓我們更真實(shí)地理解它。你會(huì)明白,模型看起來像在和你自然交流,本質(zhì)上卻在完成一場(chǎng)高度精密的語言運(yùn)算。你看到的是話語的流動(dòng),模型經(jīng)歷的是詞元的排布、映射與生成。你感受到的是“它好像懂我”,模型內(nèi)部處理的卻是“這些詞元在上下文里如何彼此關(guān)聯(lián)”。
對(duì)普通人來說,理解這一點(diǎn)很有價(jià)值。因?yàn)槲磥碓絹碓蕉嗟?AI 產(chǎn)品說明書、服務(wù)計(jì)費(fèi)、性能指標(biāo)、上下文限制、平臺(tái)公告,都會(huì)不斷提到“詞元”這個(gè)單位。它很可能會(huì)像曾經(jīng)的“流量”“像素”“帶寬”一樣,慢慢成為數(shù)字生活里必須認(rèn)識(shí)的新詞。
說到底,詞元讓我們看見了 AI 的底層節(jié)奏。
如果用一句話收束全文,答案可以是這樣的:詞元是人工智能把人類語言翻譯成機(jī)器可處理形式時(shí)所使用的基本單位。它一頭連著文字,一頭連著數(shù)字;一頭連著理解,一頭連著計(jì)算;一頭連著技術(shù)原理,一頭連著商業(yè)現(xiàn)實(shí)。
![]()
理解詞元,就是理解 AI 如何真正“讀”你的話。圖源于網(wǎng)絡(luò)
所以,下次再聽到“這個(gè)模型很費(fèi) token”時(shí),你完全可以把它理解得更準(zhǔn)確一些:不是它“很費(fèi)詞”,而是它在大量消耗機(jī)器處理語言所需的最小計(jì)算單位。你看到的是一句完整的話,模型面對(duì)的卻是一串可以分割、編號(hào)和運(yùn)算的詞元。
而“詞元”這個(gè)中文名字之所以重要,也正因?yàn)樗尭嗳说谝淮斡袡C(jī)會(huì)用中文、用日常經(jīng)驗(yàn),去理解大模型世界里最基礎(chǔ)卻最關(guān)鍵的一塊磚。你并不一定要學(xué)會(huì)訓(xùn)練模型,但只要理解了詞元,就已經(jīng)摸到了 AI 時(shí)代語言計(jì)算的門把手。
參考資料:
[1] 人民日?qǐng)?bào). 我國日均詞元調(diào)用量突破140萬億[EB/OL]. (2026-03-24)[2026-03-24].https://paper.people.com.cn/rmrb/pc/content/202603/24/content_30147015.html.
[2] 國家數(shù)據(jù)局. 國家數(shù)據(jù)局局長劉烈宏出席國新辦新聞發(fā)布會(huì) 介紹第九屆數(shù)字中國建設(shè)峰會(huì)有關(guān)情況并回答記者提問[EB/OL]. (2026-03-24)[2026-03-24].https://www.nda.gov.cn/sjj/zhuanti/sjzgzxd/szzgzb/0324/20260324132817761432606_pc.html.
[3] OpenAI. What are tokens and how to count them?[EB/OL]. [2026-03-24]. https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them.
[4] OpenAI. Tokenizer[EB/OL]. [2026-03-24].
https://platform.openai.com/tokenizer.
[5] Hugging Face. Tokenizer[EB/OL]. [2026-03-24]. https://huggingface.co/docs/transformers/main_classes/tokenizer.
[6] Hugging Face. Summary of the tokenizers[EB/OL]. [2026-03-24]. https://huggingface.co/docs/transformers/v4.47.1/tokenizer_summary.
[7] Hugging Face. Tokenization algorithms[EB/OL]. [2026-03-24]. https://huggingface.co/docs/transformers/tokenizer_summary.
編輯:亦山
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.