![]()
當我們與聊天機器人對話時,很少有人會思考一個有趣的問題:這些機器人是如何理解我們的文字的?事實上,在機器人能夠理解我們說什么之前,它們需要先把我們的文字"切碎"成小塊,就像廚師在烹飪前需要先把食材切成合適的大小一樣。這個過程叫做"分詞",而負責這項工作的工具叫做"分詞器"。
這項由多倫多大學的古爾·塞納·阿爾廷塔什和馬利克·埃格哈吉領導的研究團隊發表于2025年12月的最新研究揭示了一個驚人的發現:分詞器的選擇會像給機器人換了一張嘴一樣,直接影響它們的思考能力和表現水平。團隊成員還包括來自谷歌DeepMind的布賴恩·萊斯特、麥吉爾大學的馮淵劉、劍橋大學的萬如趙等多位研究者。有興趣深入了解的讀者可以通過arXiv編號2512.20757查詢完整論文。
為了探究這個問題,研究團隊做了一個前所未有的實驗:他們創建了14個完全相同的聊天機器人,唯一的區別就是給它們配備了不同的"嘴巴",也就是不同的分詞器。這就像是培養了14個基因完全相同的孩子,然后讓他們學習不同的語言切分方式,最后觀察他們在理解和表達能力上的差異。同時,研究團隊還精心設計了一套測試題,專門用來檢驗這些機器人在面對各種文字"陷阱"時的表現。
一、為什么機器人需要"切詞師傅"
在深入探討研究發現之前,我們需要理解一個基本問題:為什么機器人不能直接理解我們的文字呢?這就像人類嬰兒學習語言的過程一樣。當你對一個剛學會說話的孩子說"我愛你"時,孩子需要先學會把這句話分解成"我"、"愛"、"你"三個部分,然后理解每個部分的含義,最后把它們組合起來理解整句話的意思。
機器人面臨著同樣的挑戰,但它們的處理方式更加復雜。不同的分詞器就像不同的語言老師,有些老師喜歡把詞匯切得很細,比如把"大學生"切成"大"、"學"、"生"三個部分;有些老師則傾向于保持完整,把"大學生"作為一個整體來處理。還有一些特殊的分詞器甚至會直接處理每一個字母或字符,就像教孩子從最基礎的筆畫開始學習漢字一樣。
研究團隊選擇了14種不同類型的分詞器,它們代表了當前最主流的"切詞"方法。這些分詞器包括了Google的ByT5(字符級處理)、微軟的TokenMonster(特殊算法)、GPT-2(經典方法)、以及各大公司最新開發的分詞技術,比如Meta的Llama系列、Google的Gemma系列等。每種分詞器都有自己的"個性":有些擅長處理英文,有些對多種語言都很友好,有些詞匯量龐大,有些則相對精簡。
更有趣的是,研究團隊發現這些分詞器在處理同樣內容時會產生完全不同的結果。比如說"doctor"(醫生)這個詞,如果遇到拼寫錯誤變成"doctro",不同的分詞器會有截然不同的處理方式。有些會把它切成"doc"和"tro",有些會切成"doct"和"ro",而字符級的分詞器則會一個字母一個字母地處理。這種差異看似微小,但就像蝴蝶效應一樣,會對最終的理解能力產生巨大影響。
二、史無前例的公平比賽
要真正了解分詞器對機器人能力的影響,最大的挑戰是如何確保比較的公平性。這就像要測試不同品牌的跑鞋對運動員成績的影響,你需要確保參與測試的運動員在身體素質、訓練程度、跑步技巧等方面都完全相同,唯一的變量就是腳上穿的鞋子。
研究團隊采用了一個巧妙的方法來解決這個問題。他們首先創建了一個"超級詞匯表",這個詞匯表包含了所有14種分詞器能夠識別的所有詞匯。然后,他們為每個分詞器建立了一個映射關系,確保相同的詞匯在所有模型中都對應相同的初始理解。這樣做的好處是,所有機器人都從完全相同的起點開始學習,就像14個學生拿到了相同的教材,只是老師教授的方法不同。
訓練過程同樣嚴格控制變量。所有14個模型都使用了相同的神經網絡架構,都有大約10億個參數,都接受了相同的訓練數據,訓練時間也完全一致。訓練數據包含了大約1000億個詞匯,其中40%是英文內容,其余60%平均分配給中文、土耳其語、意大利語和波斯語。這種設計確保了任何性能差異都可以直接歸因于分詞器的影響,而不是其他因素。
然而,這種嚴格控制也帶來了一個有趣的現象。由于不同分詞器的壓縮效率不同,雖然所有模型都處理了相同數量的詞匯單位,但它們實際"閱讀"的原始文本量卻不相同。就像有些閱讀者習慣快速瀏覽獲取要點,有些則喜歡字斟句酌,結果在相同時間內接觸到的信息量會有差異。ByT5由于采用字符級處理,實際只處理了大約100GB的原始文本,而其他分詞器處理的文本量在215GB到477GB之間。
三、精心設計的"陷阱"測試
為了全面評估不同分詞器的影響,研究團隊設計了一套包含約5000個問題的測試套件,這些測試題專門用來"為難"機器人的分詞能力。這就像一個專門考驗廚師刀工的比賽,不僅要看他們能不能切出漂亮的絲,還要測試在各種"惡劣條件"下的表現,比如刀具不鋒利時、食材不新鮮時、或者廚房環境嘈雜時。
測試內容覆蓋了五種語言:英語、中文、土耳其語、意大利語和波斯語。選擇這些語言并非隨意,每種語言都代表了不同的文字挑戰。英語相對簡單,中文是漢字系統,波斯語使用阿拉伯文字且有可選的音標,土耳其語是黏著語(詞匯變化復雜),意大利語則代表了拉丁語族的特點。
測試的"陷阱"設計得非常巧妙,模擬了現實世界中可能遇到的各種情況。比如,當用戶在土耳其語鍵盤上打字時,某些特殊字符可能會變成相似但不同的字符。再比如,當波斯語文本中的可選音標被添加或省略時,分詞器是否還能正確處理。還有一些測試模擬了OCR識別錯誤,比如把字母"O"誤認為數字"0",或者把"I"誤認為"l"。
更有趣的是Unicode格式化測試,研究團隊使用了各種特殊的Unicode字符來"裝飾"普通文字。比如把普通的"Python"變成花體的"
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.