網易首頁 > 網易號 > 正文申請入駐

多倫多大學發現：聊天機器人的"嘴巴"影響它們的智商

2025-12-26 17:16:14　來源: 科技行者

北京舉報

分享至

當我們與聊天機器人對話時，很少有人會思考一個有趣的問題：這些機器人是如何理解我們的文字的？事實上，在機器人能夠理解我們說什么之前，它們需要先把我們的文字"切碎"成小塊，就像廚師在烹飪前需要先把食材切成合適的大小一樣。這個過程叫做"分詞"，而負責這項工作的工具叫做"分詞器"。

這項由多倫多大學的古爾·塞納·阿爾廷塔什和馬利克·埃格哈吉領導的研究團隊發表于2025年12月的最新研究揭示了一個驚人的發現：分詞器的選擇會像給機器人換了一張嘴一樣，直接影響它們的思考能力和表現水平。團隊成員還包括來自谷歌DeepMind的布賴恩·萊斯特、麥吉爾大學的馮淵劉、劍橋大學的萬如趙等多位研究者。有興趣深入了解的讀者可以通過arXiv編號2512.20757查詢完整論文。

為了探究這個問題，研究團隊做了一個前所未有的實驗：他們創建了14個完全相同的聊天機器人，唯一的區別就是給它們配備了不同的"嘴巴"，也就是不同的分詞器。這就像是培養了14個基因完全相同的孩子，然后讓他們學習不同的語言切分方式，最后觀察他們在理解和表達能力上的差異。同時，研究團隊還精心設計了一套測試題，專門用來檢驗這些機器人在面對各種文字"陷阱"時的表現。

一、為什么機器人需要"切詞師傅"

在深入探討研究發現之前，我們需要理解一個基本問題：為什么機器人不能直接理解我們的文字呢？這就像人類嬰兒學習語言的過程一樣。當你對一個剛學會說話的孩子說"我愛你"時，孩子需要先學會把這句話分解成"我"、"愛"、"你"三個部分，然后理解每個部分的含義，最后把它們組合起來理解整句話的意思。

機器人面臨著同樣的挑戰，但它們的處理方式更加復雜。不同的分詞器就像不同的語言老師，有些老師喜歡把詞匯切得很細，比如把"大學生"切成"大"、"學"、"生"三個部分；有些老師則傾向于保持完整，把"大學生"作為一個整體來處理。還有一些特殊的分詞器甚至會直接處理每一個字母或字符，就像教孩子從最基礎的筆畫開始學習漢字一樣。

研究團隊選擇了14種不同類型的分詞器，它們代表了當前最主流的"切詞"方法。這些分詞器包括了Google的ByT5（字符級處理）、微軟的TokenMonster（特殊算法）、GPT-2（經典方法）、以及各大公司最新開發的分詞技術，比如Meta的Llama系列、Google的Gemma系列等。每種分詞器都有自己的"個性"：有些擅長處理英文，有些對多種語言都很友好，有些詞匯量龐大，有些則相對精簡。

更有趣的是，研究團隊發現這些分詞器在處理同樣內容時會產生完全不同的結果。比如說"doctor"（醫生）這個詞，如果遇到拼寫錯誤變成"doctro"，不同的分詞器會有截然不同的處理方式。有些會把它切成"doc"和"tro"，有些會切成"doct"和"ro"，而字符級的分詞器則會一個字母一個字母地處理。這種差異看似微小，但就像蝴蝶效應一樣，會對最終的理解能力產生巨大影響。

二、史無前例的公平比賽

要真正了解分詞器對機器人能力的影響，最大的挑戰是如何確保比較的公平性。這就像要測試不同品牌的跑鞋對運動員成績的影響，你需要確保參與測試的運動員在身體素質、訓練程度、跑步技巧等方面都完全相同，唯一的變量就是腳上穿的鞋子。

研究團隊采用了一個巧妙的方法來解決這個問題。他們首先創建了一個"超級詞匯表"，這個詞匯表包含了所有14種分詞器能夠識別的所有詞匯。然后，他們為每個分詞器建立了一個映射關系，確保相同的詞匯在所有模型中都對應相同的初始理解。這樣做的好處是，所有機器人都從完全相同的起點開始學習，就像14個學生拿到了相同的教材，只是老師教授的方法不同。

訓練過程同樣嚴格控制變量。所有14個模型都使用了相同的神經網絡架構，都有大約10億個參數，都接受了相同的訓練數據，訓練時間也完全一致。訓練數據包含了大約1000億個詞匯，其中40%是英文內容，其余60%平均分配給中文、土耳其語、意大利語和波斯語。這種設計確保了任何性能差異都可以直接歸因于分詞器的影響，而不是其他因素。

然而，這種嚴格控制也帶來了一個有趣的現象。由于不同分詞器的壓縮效率不同，雖然所有模型都處理了相同數量的詞匯單位，但它們實際"閱讀"的原始文本量卻不相同。就像有些閱讀者習慣快速瀏覽獲取要點，有些則喜歡字斟句酌，結果在相同時間內接觸到的信息量會有差異。ByT5由于采用字符級處理，實際只處理了大約100GB的原始文本，而其他分詞器處理的文本量在215GB到477GB之間。

三、精心設計的"陷阱"測試

為了全面評估不同分詞器的影響，研究團隊設計了一套包含約5000個問題的測試套件，這些測試題專門用來"為難"機器人的分詞能力。這就像一個專門考驗廚師刀工的比賽，不僅要看他們能不能切出漂亮的絲，還要測試在各種"惡劣條件"下的表現，比如刀具不鋒利時、食材不新鮮時、或者廚房環境嘈雜時。

測試內容覆蓋了五種語言：英語、中文、土耳其語、意大利語和波斯語。選擇這些語言并非隨意，每種語言都代表了不同的文字挑戰。英語相對簡單，中文是漢字系統，波斯語使用阿拉伯文字且有可選的音標，土耳其語是黏著語（詞匯變化復雜），意大利語則代表了拉丁語族的特點。

測試的"陷阱"設計得非常巧妙，模擬了現實世界中可能遇到的各種情況。比如，當用戶在土耳其語鍵盤上打字時，某些特殊字符可能會變成相似但不同的字符。再比如，當波斯語文本中的可選音標被添加或省略時，分詞器是否還能正確處理。還有一些測試模擬了OCR識別錯誤，比如把字母"O"誤認為數字"0"，或者把"I"誤認為"l"。

更有趣的是Unicode格式化測試，研究團隊使用了各種特殊的Unicode字符來"裝飾"普通文字。比如把普通的"Python"變成花體的"

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.