AI模型首次實現(xiàn)與人類專家等同的語言分析能力

2025-12-05 20:14:24　來源: 集智俱樂部

北京舉報

分享至

摘要

當 OpenAI 的 o1 模型在無訓練語料的虛構(gòu)語言中，表現(xiàn)出精準繪制句法樹、破解中心遞歸、厘清單句歧義并自主發(fā)現(xiàn)音系規(guī)則的能力后，語言學家不得不重新回答那個古老問題：如果語言曾被視為人類最后的“專屬領地”，人類再次追問語言的獨特性究竟還剩多少？

關鍵詞：LLMs；語言能力；遞歸；句法樹；音系推理

Steve Nadis丨作者

任筱芃丨譯者

趙思怡丨審校

如果語言是人之所以為人的特性，那么當大語言模型獲得了“元語言”能力，這又意味著什么？

在人類擁有的無窮多量的能力中，哪些是人類獨有的？至少從亞里士多德開始，語言就一直是首要的備選答案。他曾寫道，人類是“擁有語言的動物”。盡管像 ChatGPT 這樣的大語言模型在表面上復制了日常言談，但研究人員想知道，人類語言的某些特定方面是否獨特到在其他動物或人工智能設備的通信系統(tǒng)中根本不存在對應物。

Noam Chomsky，語言學家

研究人員尤其一直在探索語言模型在多大程度上能夠?qū)φZ言本身進行推理。對于語言學界的一些人來說，語言模型不僅沒有推理能力，而且也沒有對應的潛力。著名語言學家諾姆·喬姆斯基（Noam Chomsky）與伊恩·羅伯茨（Ian Roberts）、杰弗里·瓦圖穆爾（Jeffrey Watmull）在 2023 年聲明了這一觀點，他們當時在《紐約時報》上寫道：“對語言的正確解釋是復雜的，不能僅僅通過沉浸在大數(shù)據(jù)中就學會。”這些研究人員認為，人工智能模型或許擅長使用語言，但它們沒有能力以復雜的方式分析語言。

Ga?per Begu?, 加州大學伯克利分校語言學家

這一觀點在最近的一篇論文——《Large linguistic models: Investigating LLMs’ metalinguistic abilities》——中受到了挑戰(zhàn)，該論文由加州大學伯克利分校的語言學家 Ga?per Begu?、最近在伯克利獲得語言學博士學位的 Maksymilian D?bkowski 以及羅格斯大學的 Ryan Rhodes 共同撰寫。研究人員讓多個大語言模型接受了一系列語言學測試——其中一項測試是讓大語言模型歸納一種虛構(gòu)語言的規(guī)則。雖然大多數(shù)大語言模型未能像人類那樣解析語言規(guī)則，但其中一個模型展現(xiàn)出了令人印象深刻的能力，遠遠超出了預期。它能夠像語言學專業(yè)的研究生一樣分析語言——繪制句子結(jié)構(gòu)圖、解析多種歧義，并利用像遞歸（recursion）這樣的復雜語言特性。Begu? 說，這一發(fā)現(xiàn)“挑戰(zhàn)了我們對人工智能潛力的理解”。

Tom McCoy, 耶魯大學計算語言學家

“這項新工作既及時又‘非常重要’，”耶魯大學計算語言學家 Tom McCoy 說道（他并未參與這項研究）“隨著社會對這項技術的依賴程度越來越高，了解它在哪些方面可能成功以及在哪些方面可能失敗變得日益重要。”他補充說，語言分析是評估這些語言模型在多大程度上能像人類一樣推理的理想試驗臺。

無限的復雜性

對語言模型進行嚴格的語言學測試，挑戰(zhàn)的一部分是確保它們事先并不知道答案。這些系統(tǒng)通常在海量的書面信息上進行訓練——不僅包括互聯(lián)網(wǎng)上的大量內(nèi)容（涵蓋幾十甚至上百種語言），還包括語言學教科書。理論上，模型可能只是死記硬背了訓練時見過的內(nèi)容，然后在測試中原樣輸出。

為了避免這種情況，Begu? 和他的同事設計了一個分為四個部分的語言學測試。其中三個部分要求模型使用樹狀圖來分析特制的句子，這種圖表最早由喬姆斯基在其 1957 年的里程碑式著作《句法結(jié)構(gòu)》（Syntactic Structures）中引入。這些圖表將句子分解為名詞短語和動詞短語，然后再進一步細分為名詞、動詞、形容詞、副詞、介詞、連詞等。

測試的另一部分則聚焦于遞歸——也就是把短語嵌套進其他短語的能力。比如，“The sky is blue”（天空是藍色的）是一個簡單的英語句子。“Jane said that the sky is blue”（簡說天空是藍色的）則把原句嵌套進了一個更復雜的結(jié)構(gòu)中。重要的是，這種遞歸過程可以無限進行。“Maria wondered if Sam knew that Omar heard that Jane said that the sky is blue”（瑪麗亞想知道薩姆是否知道奧馬爾聽說簡說天空是藍色的）雖然聽起來有點拗口，但在語法上仍然是正確的遞歸句。

遞歸不僅是語言的關鍵要素，也是自然界的一個特征。例如，在加拿大北部的維多利亞島上，人們可以找到一個位于島上湖泊中的小島。但那個小島本身又位于一個更大的島上的湖泊中。這個最里面的無名島是已知最大的“三階”島嶼，它有時被開玩笑地稱為“盜夢島”（Inception Island），源于 2010 年克里斯托弗·諾蘭執(zhí)導的電影《盜夢空間》(Inception)，影片中角色們會進入夢中夢的夢中世界。

遞歸一直被喬姆斯基等人稱為人類語言的決定性特征之一。實際上，它或許也是人類思維的決定性特征。語言學家認為，正是遞歸的無限潛力，使得人類語言能夠用有限的詞匯和有限的規(guī)則，生成無限多的可能句子。到目前為止，還沒有令人信服的證據(jù)表明其他動物能夠以復雜的方式使用遞歸。

遞歸可以發(fā)生在句首或句尾，但最難掌握的形式是發(fā)生在句中的中心嵌入（center embedding）。例如，從“the cat died（貓死了）”變成“the cat the dog bit died（狗咬了的那只貓死了）”。

Begu? 的測試向語言模型輸入了 30 個包含復雜遞歸例子的原創(chuàng)句子。例如：“The astronomy the ancients we revere studied was not separate from astrology。”（我們崇敬的古人所研究的天文學與占星術并非涇渭分明。）使用句法樹，其中一個語言模型——OpenAI 的 o1——能夠確定該句子的結(jié)構(gòu)如下：

The astronomy [the ancients [we revere] studied] was not separate from astrology. 我們崇敬的古人所研究的天文學與占星術并非涇渭分明。

該模型隨后更進一步，為該句子添加了另一層遞歸：

The astronomy [the ancients [we revere [who lived in lands we cherish]] studied] was not separate from astrology. 我們所尊敬的那些生活在我們珍視的土地上的古人所研究的天文學與占星術并非涇渭分明。

Begu? 和其他一些人沒有預料到，這項研究會發(fā)現(xiàn)一個具有更高層次“元語言”（metalinguistic）能力的 AI 模型——正如他所說，這“不僅是使用語言的能力，更是思考語言的能力”。

David Mortensen, 卡內(nèi)基梅隆大學計算語言學家

“這是他們論文中‘引人注目’的方面之一，”卡內(nèi)基梅隆大學的計算語言學家 David Mortensen 說道。關于語言模型是否只是在預測句子中的下一個詞或語言學上的標記 (token)一直存在爭議。這種能力與人類對語言的深刻理解有著本質(zhì)區(qū)別。“語言學界的一些人曾說，大語言模型并不是真的在‘處理’語言，”他說。“這項研究看起來像是否定了那些說法。”

你什么意思？

McCoy 對 o1 模型的整體表現(xiàn)感到驚訝，尤其是它識別歧義的能力，他說，這是眾所周知的計算語言模型難以捕捉的東西。人類“擁有大量的常識知識，使我們能夠排除歧義。但計算機很難擁有那種程度的常識知識。”

例如“Rowan fed his pet chicken”這樣的句子，既可以描述羅文（Rowan）喂了他當寵物養(yǎng)的雞，也可以描述他喂了他的（大概是更傳統(tǒng)的意義上的）動物伴侶一頓雞肉。o1 模型正確地生成了兩棵不同的句法樹，一棵對應句子的第一種解釋，另一棵對應第二種解釋。

研究人員還進行了一些與音系學（phonology）相關的實驗。該學科研究聲音的模式以及最小聲音單位——稱為音位 (phonemes) ——的組織方式。為了像母語者一樣流利地說話，人們會遵循一些音系規(guī)則，這些規(guī)則可能是通過練習習得的，而從未被明確教授過。例如，在英語中，在以“g”結(jié)尾的單詞后添加“s”會產(chǎn)生“z”音，如“dogs”。但是，在以“t”結(jié)尾的單詞后添加“s”，發(fā)音則更接近標準的“s”，如“cats”。

在音系學任務中，研究小組創(chuàng)造了 30 種新的“迷你語言”（Begu? 稱之為），以測試大語言模型是否能在沒有任何先驗知識的情況下正確推斷出音系規(guī)則。每種語言包含 40 個虛構(gòu)詞。以下是其中一種語言的示例詞：

θalp ?ebre ei?z? ga?rbo?nda? ?i?z?ee?jo

然后，他們要求語言模型分析每種語言的音系過程。對于上面這種語言，o1模型正確地寫出：“當一個元音緊接在一個既是濁音又是阻礙音（obstruent）的輔音之后時，它就會變成一個氣聲元音（breathy vowel）”—— 阻礙音是一種通過限制氣流形成的音，比如“top”中的“t”。

這些語言是新發(fā)明的，所以 o1 不可能在訓練期間接觸過它們。“我沒想到結(jié)果會如此出色，如此令人印象深刻，”Mortensen 說。

非得是人類嗎？

這些語言模型能走多遠？它們會僅僅通過變得更大——疊加更多的計算能力、更復雜的結(jié)構(gòu)和更多的訓練數(shù)據(jù)——就無限地變得更好嗎？還是說，人類語言的某些特征是我們物種獨有的進化過程的結(jié)果？

最近的研究結(jié)果表明，這些模型原則上可以進行復雜的語言學分析。但是，目前還沒有一個模型能提出任何原創(chuàng)性的東西，也沒有教會我們?nèi)魏侮P于語言的、我們以前不知道的知識。

如果模型的改進真的只是增加計算能力和訓練數(shù)據(jù)的問題，那么 Begu? 認為語言模型最終將在語言技能上超越我們。Mortensen 則表示，當前的模型有一定局限性。“它們被訓練來做一件非常具體的事情：給定一個標記（tokens）或單詞的歷史，預測下一個標記，”他說。“由于它們被訓練的方式，它們在概括方面存在一些困難。”

但考慮到最近的進展，Mortensen 表示，他看不出任何理由語言模型最終不會表現(xiàn)出超越人類的語言理解能力。“用不了多久，我們就能打造出用更少數(shù)據(jù)做出更好泛化、且更具創(chuàng)造力的模型。”

Begu? 指出，新結(jié)果正一步步“削平”那些曾被視為人類語言專屬領地的特性。“看起來，我們并沒有我們以為的那么獨一無二。”

參考文獻

https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html

因果科學第五季

集智俱樂部聯(lián)合北京大學大數(shù)據(jù)科學研究中心博士研究生李昊軒、倫敦大學學院計算機博士研究生楊夢月，卡耐基梅隆大學和穆罕默德·本·扎耶德人工智能大學博士后研究員陳廣義共同發(fā)起。這是我們因果科學系列讀書會的第五季，旨在探討在大模型之后為何仍需“因果科學”？大模型如何推動因果科學的研究進展？因果科學能否在推理能力、可解釋性和可信性等方面啟發(fā)更優(yōu)大模型的設計？以及因果科學的最新進展如何在實際領域中應用和落地？希望匯聚相關領域的學者，共同探討因果科學的發(fā)展和挑戰(zhàn)，推動學科發(fā)展。讀書會已完結(jié)，現(xiàn)在報名可加入社群并解鎖回放視頻權(quán)限。

詳情請見：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.