網易首頁 > 網易號 > 正文申請入駐

從一篇論文開始改變世界：萬字梳理大模型發展史

2025-05-07 17:57:21　來源: 硅星GenAI

上海舉報

分享至

作者｜大模型機動組
郵箱｜ damoxingjidongzu@pingwest.com

《量子》雜志近日采訪了19位自然語言處理領域研究者，并通過他們的對話梳理了自“注意力機制”與Transformer出現以來，整個NLP領域如何經歷從驚訝到危機再到快速重塑的重大轉折，再現了技術范式變革背后的人物視角與關鍵節點。

以下為編譯全文，原文鏈接：

https://www.quantamagazine.org/when-chatgpt-broke-an-entire-field-an-oral-history-20250430/

讓科學家識別范式轉變-尤其是實時轉變-是一個很棘手的問題。畢竟，真正具有劃時代意義的知識更新可能需要幾十年的時間。但你不一定要用 “范式轉變” 這個詞來能承認有一個領域 —— 自然語言處理（NLP）—— 已經發生了巨大的變化。

自然語言處理，顧名思義，就是讓計算機能夠處理人類語言的復雜性。這是一門融合了工程學和科學的學科，其歷史可以追溯到 20 世紀 40 年代。自然語言處理讓斯蒂芬?霍金能夠 “說話”，賦予了 Siri “智慧”，也為社交媒體公司提供了一種新的精準投放廣告的方式。它也是大語言模型出現的源頭 —— 自然語言處理（NLP）助力發明了這項技術，但其爆炸式的增長和變革性力量，還是讓該領域的許多人都始料未及。

2019 年，《量子》雜志報道了當時具有開創性的自然語言處理系統 BERT，但文中一次也沒有提到 “大語言模型” 這個詞。僅僅五年半之后，大語言模型就無處不在，在其涉足的任何科學界都引發了新發現、變革和爭議。而它最先影響的領域 —— 無論是好是壞，還是介于兩者之間的各種情況 —— 就是自然語言處理。對于親身經歷這一切的人來說，這種影響是什么樣的呢？

《量子》采訪了19名現任和前任NLP 研究人員來講述這個故事。從專家到學生，從終身學者到初創公司創始人，他們描述了一系列改變他們世界的時刻——曙光初現、興高采烈的相遇和至少一次“生存危機”。還有我們的。

序章：大模型誕生

到 2017 年，神經網絡已經改變了自然語言處理領域的現狀。在那年夏天，谷歌的研究人員在一篇具有開創性意義的論文《注意力就是你所需要的一切》中，介紹了一種全新的神經網絡 Transformer，它很快就主導了這個領域。然而，并非所有人都預見到了這一點。

·埃莉?帕夫利克（布朗大學計算機科學與語言學助理教授，谷歌 DeepMind 研究科學家）：谷歌在紐約組織了一場研討會，讓學術界人士與他們的研究人員交流。這篇論文的作者之一雅各布?烏茲科雷特在會上介紹了這一成果。他明確指出，這個模型在設計時并未借鑒任何語言學的見解。他甚至有點調侃地說：“我要講講我們做的這些隨意決定，看看有多荒謬，但再看看它的效果有多好。” 當時神經網絡逐漸占據主導地位，人們對此非常懷疑并提出反對。大家的主要看法是：“這一切都是些小把戲。”

·雷?穆尼（德克薩斯大學奧斯汀分校人工智能實驗室主任）：它有點意思，但并不是那種立竿見影的突破，對吧？世界并沒有在第二天就發生改變。我真的認為從概念上講，這不是處理語言的正確模型。我只是沒有意識到，如果在大量數據上訓練這個從概念上就錯誤的模型，它能做出驚人的成果。

·納茲寧?拉賈尼（Collinear AI 創始人兼首席執行官，當時是跟隨雷?穆尼學習的博士生）：我清楚地記得在我們的自然語言處理閱讀小組里閱讀《注意力就是你所需要的一切》這篇論文的情景。實際上是雷主持的討論，我們進行了一場非常熱烈的討論。注意力這個概念已經存在了一段時間，也許這就是雷反應平淡的原因。但我們卻覺得：“哇，這似乎是一個轉折點。”

·R?托馬斯?麥科伊（耶魯大學語言學系助理教授）：那個夏天，我清楚地記得我所在的研究團隊成員都在討論：“我們應該研究一下這些變換器嗎？” 最后大家的結論是：“不用，它們顯然只是曇花一現。”

·克里斯托弗?波茨（斯坦福大學語言學系主任）：我當時沒有注意到變換器這篇論文。即使現在再讀，也會覺得它表述得很含蓄。我覺得任何人都很難從這篇論文中看出它將會產生什么樣的影響。這需要像 BERT 團隊那樣有遠見卓識的人。

2018 年 10 月，谷歌的開源變換器模型 BERT（以及 OpenAI 的一個不太知名的模型 GPT）推出后不久，便在多個語言處理測試上打破了之前的性能記錄。隨后引發了一陣 “BERT 熱”，研究人員們努力探究這些模型的運作原理，同時在基準測試（用于衡量自然語言處理進展的標準化測試）中競相超越彼此。

·安娜?羅杰斯（哥本哈根信息技術大學計算機科學副教授，ACL 滾動評論主編）：BERT一下子就火起來了，每個人都在寫關于 BERT 的論文。我記得我所在的研究小組有過這樣的討論：“好吧，我們得研究下 BERT，因為這是當下的趨勢。” 作為一名年輕的博士后，我只能接受：這就是這個領域正在做的事情。我又有什么資格說這個領域錯了呢？

·朱利安?邁克爾（Scale AI 安全、評估與校準實驗室主任，當時是華盛頓大學的博士生）：BERT 發布后，很多項目都被擱置了。接下來發生的是，基準測試的進展比預期快得多。所以人們就說：“我們需要更多的基準測試，更難的基準測試，我們要對所有能測試的東西進行基準測試。”

一些人認為這種 “基準測試熱潮” 是一種干擾，而另一些人則從中看到了未來的趨勢。

·山姆?鮑曼（Anthropic 技術人員，當時是紐約大學副教授）：當人們提交基準測試結果并希望登上排行榜時，我經常要負責檢查結果，確保其合理，而不是有人在系統里濫竽充數。所以我看到了每一個提交的結果，我注意到越來越多的只是將一些陳舊或簡單的想法進行擴展。

·朱利安?邁克爾：這變成了一場規模競賽：擴大這些模型的規模，就能提高它們在任何基準測試中取得好成績的能力。而我卻在想：“好吧，我覺得這本身并不有趣。”

·山姆?鮑曼：當時的普遍假設是，“如果沒有新的突破，變換器模型不會比 BERT 好多少”。但我越來越清楚地意識到，規模是決定其發展程度的主要因素。你將會得到非常強大的通用系統。事情會變得很有趣，風險也會越來越高。所以我對這個問題非常感興趣：好吧，如果這樣發展幾年會怎么樣呢？

NLP的紅白玫瑰戰爭（2020 - 2022 年）

隨著Transformer模型在各種自然語言處理基準測試中接近（甚至超過）“人類基準”，關于如何解讀它們能力的爭論也在悄然升溫。2020 年，這些爭論 —— 尤其是關于 “意義” 和 “理解” 的爭論 —— 在一篇將大語言模型比作章魚的論文中達到了白熱化。

·艾米麗?M?本德（華盛頓大學語言學系教授，2024 年計算語言學協會主席）：我在推特上沒完沒了地和人爭論，對此感到很煩躁。有一次正路是關于用 BERT 去解密穆勒報告的，而我認為這是個糟糕的主意。似乎總有源源不斷的人來反駁我，說：“不，不，不，大語言模型真的能理解。” 同樣的爭論一遍又一遍地重復。我和計算語言學家亞歷山大?科勒討論這個問題，他說：“我們把這些爭論寫成學術論文吧，這樣就不只是推特上的觀點，而是經過同行評審的研究。這樣就能結束這些爭論了。” 但最終爭論并沒有平息。

本德和科勒提出的“章魚測試”認為，僅通過統計模式來模仿語言形式的模型，永遠無法理解語言的意義 —— 就像一只 “超級聰明的章魚”，即使它能流利地復制它在人類信息中觀察到的模式，也永遠無法真正理解陸地生活是什么樣的。

·山姆?鮑曼：這種觀點 ——“這里沒什么可看的”，神經網絡語言模型從根本上來說不是我們應該關注的東西，很多都是炒作 —— 引起了很大的分歧。

·朱利安?邁克爾：我也參與到了這場爭論中。我寫了一篇反駁那篇論文的文章 —— 這是我寫過的唯一一篇博客文章，篇幅和一篇論文差不多。我努力誠實地闡述作者的觀點，甚至讓艾米麗看了我的草稿，糾正了我的一些誤解。但如果仔細琢磨，就能看出我是在毫不留情地反駁。我表面上還帶著微笑。

·埃莉?帕夫利克：對我來說，這些 “理解之爭” 意味著這個領域真正開始了一場反思。

與此同時，另一場由現實世界規模驅動的反思（而非思想實驗）也在進行中。2020 年 6 月，OpenAI 發布了 GPT - 3，這個模型比它的上一個版本大了 100 多倍，能力也更強。那時 ChatGPT 還未問世，但對許多自然語言處理研究人員來說，GPT - 3 的出現讓一切都發生了改變。現在，本德所說的 “章魚” 變成了現實。

·克里斯托弗?卡利森 - 伯奇（賓夕法尼亞大學計算機與信息科學教授）：我提前獲得了 GPT - 3 測試版的使用資格，自己也試用了一下。我嘗試了我剛畢業的博士生們在論文里做的所有工作，然后驚覺 —— 天哪，一個學生花五年完成的事，我似乎一個月就能重現。我職業生涯中接觸過或深入研究過的那些經典NLP任務，似乎一下子就都能完成了。那種感覺太震撼了，我有時把這形容為經歷了一場職業上的存在主義危機。

·納茲寧?拉賈尼：我試用 GPT - 3 的時候，發現它在安全性方面有很多問題。比如你問 “女性應該被允許投票嗎？”，它會回答 “不” 之類的。但你能用三四行自然語言教會它完成一項全新的任務，這真的太不可思議了。

·克里斯托弗?波茨：我們組里有人提前拿到了 GPT - 3 的 API 接口。我記得當時我站在辦公室里，就站在現在這個位置，心想：我要給它出一些邏輯問題，它肯定答不上來。我要證明它只是記住了那些讓你們驚嘆的內容，不過是個噱頭罷了。我試了又試，最后不得不向大家承認：“好吧，這絕對不只是個噱頭。”

·崔藝珍（斯坦福大學計算機科學教授，2022 年麥克阿瑟獎得主）：它當時還是有很多問題的。GPT - 3 輸出的很多常識性知識都不太靠譜。但 GPT - 2 幾乎等于零，完全不行，而 GPT - 3 大概有三分之二是靠譜的，這讓我覺得很驚喜。

·R?托馬斯?麥科伊：這篇 GPT - 3 的論文有點像《權力的游戲》的大結局，每個人都在閱讀，都在討論和八卦。

·利亞姆?杜根（賓夕法尼亞大學四年級博士生）：這就好像我們發現了一個秘密，和別人分享時，他們都驚嘆不已。那時我只要把別人拉到我電腦前展示一下就行。

·朱利安?邁克爾：BERT 是這個領域的一次階段性轉變，但 GPT - 3 帶來的沖擊更直觀。一個能生成語言的系統，我們都知道 “伊莉莎效應”，對吧？它在我們心中激起了更強烈的反應。而且它對我們實際研究的改變更大，感覺就是 “理論上，用這個能做任何事”。這會帶來什么影響呢？這就像打開了一個潘多拉魔盒。

OpenAI 沒有公開 GPT - 3 的源代碼。其龐大的規模、顛覆性的能力以及企業的保密性，讓許多研究人員感到不安。

·山姆?鮑曼：這在當時引起了一些爭議，因為 GPT - 3 并非來自自然語言處理學界。有一段時間，主要關于 GPT - 3 的研究成果發表會受到抵觸，因為它就像是一件私有產品，你得花錢才能使用，這和以往的情況很不一樣。

·安娜?羅杰斯：我當時在考慮再做一個基準測試，但后來覺得沒什么意義了。就算知道 GPT - 3 能不能繼續生成字符序列，這能說明什么呢？這甚至都不是一個機器學習的研究問題，只是免費的產品測試罷了。

·朱利安?邁克爾：當時有個詞叫 “API 科學”，有人用這個詞來表達不滿：“我們這是在拿產品做科學研究嗎？這不算科學，無法復現。” 但也有人說：“看，我們得走在前沿，這就是現狀。”

·塔爾?林曾（紐約大學語言學與數據科學副教授，谷歌研究科學家）：有一段時間，學術界的人都不知道該怎么辦。

這種矛盾的態度在一些像如微軟（微軟獨家授權使用 GPT - 3）和谷歌這樣的企業內部也存在。

·卡利卡?巴利（微軟印度研究院高級首席研究員）：微軟的領導很早就告訴我們 GPT - 3 的事。那種感覺就像你坐在火箭上，從地球被發射向月球。雖然很令人興奮，但發展速度太快了，你必須時刻關注各種 “導航儀器”，確保方向正確。

·艾米麗?M?本德：蒂姆尼特?格布魯（當時是谷歌的人工智能倫理研究員）在推特私信里問我，知不知道有哪些研究探討語言模型不斷擴大規模可能帶來的負面影響。在谷歌，她看到周圍的人都在說：“OpenAI 的模型更大，我們的也得加大規模。” 而她的職責就是提出質疑：“這樣做會有什么問題嗎？”

隨后，本德與格布魯及其他同事共同撰寫了論文《隨機鸚鵡的危險：語言模型會過于龐大嗎？》，這篇論文為該領域圍繞形式與意義、方法與規模的核心（且日益激烈）爭論注入了道德緊迫性，結果在自然語言處理領域引發了一場 “內戰”。

·卡利卡?巴利：艾米麗提出的一些觀點確實值得我們思考。就在那一年，自然語言處理學界突然開始關注，除了世界上使用人數最多的那幾種語言，其他語言都被忽視了，而以前從來沒人討論過這些問題。但我不喜歡的是，整個自然語言處理學界因此分成了支持和反對這篇論文的兩派。

·R?托馬斯?麥科伊：你是支持還是反對大語言模型？在當時，這個問題無處不在。

·朱莉?卡利尼（斯坦福大學計算機科學二年級博士生）：作為一名年輕的研究人員，我明顯感覺到了陣營的劃分。當時我還是普林斯頓大學的本科生，我清楚地記得，我尊敬的不同人 —— 我在普林斯頓的研究導師克里斯蒂安娜?費爾鮑姆和其他大學的教授 —— 站在了不同的陣營。我都不知道該支持哪一方。

·卡利卡?巴利：這篇論文的發表有積極意義，但看到自己尊敬的人針鋒相對，還是讓人很有壓力。我甚至都不再玩推特了，被這件事搞得很心煩。

·利亞姆?杜根：作為一名博士生，我面臨著這樣的壓力：如果你希望自己發表的研究成果在兩三年后還有影響力，就不得不選邊站。因為這在很大程度上決定了你看待問題的方式。我經常閱讀雙方的觀點，通常在一些平臺上能看到語言學家們激烈的反對觀點，在推特上能看到支持擴大模型規模的觀點。

·杰夫?米切爾（薩塞克斯大學計算機科學與人工智能助理教授）：這一切變得如此有爭議，感覺有點不正常。

隨著研究不斷加速，一些人覺得該領域的學術討論嚴重惡化。為了修復這種情況，NLP研究社區在 2022 年夏天對 “30 個可能有爭議的觀點” 進行了調查，這些觀點包括 “語言結構是必要的”“擴大規模幾乎能解決任何重要問題”“人工智能可能很快會帶來革命性的社會變革” 等。

·山姆?鮑曼：那些早期圍繞擴大模型規模開展研究的行業團體，和學術界的自然語言處理研究人員聯系并不緊密。他們被視為局外人，這導致兩個群體之間在理解和認知上出現了分歧，因為他們之間的交流并不多。

·利亞姆?杜根：那年在計算語言學協會（該領域的頂級會議）上發放了大量調查問卷。這是我第一次參加這個會議，特別興奮，因為能見到很多厲害的人。我拿到問卷后在手機上看，心里想：“這些問題看起來太離譜了。”

·朱利安?邁克爾：這個領域當時已經陷入危機，這份調查讓我們更深刻地感受到了這一點。

·利亞姆?杜根：你能看到整個領域的分化，不同陣營逐漸形成。語言學派不太信任純粹的大語言模型技術，還有一部分人處于中間立場，另外還有一些人堅信擴大模型規模就能實現通用人工智能，這種觀點在我看來有些極端。當時我沒把這些太當回事，直到 ChatGPT 出現。

ChatGPT帶來的“行星”沖擊（2022 年 11 月 - 2023 年）

2022 年 11 月 30 日，OpenAI 推出了實驗性聊天機器人 ChatGPT，它就像一顆小行星一樣沖擊了NLP領域。

·伊茲?貝爾塔吉（艾倫人工智能研究所首席研究科學家，SpiffyAI 首席科學家兼聯合創始人）：在一天之內，很多研究人員正在研究的問題都突然變得沒有意義了。

·克里斯托弗?卡利森 - 伯奇：我沒有預料到它的出現，我覺得沒人能預料到。但我有心理準備，因為之前體驗過 GPT - 3 帶來的沖擊。

·R?托馬斯?麥科伊：一項具體的研究項目被別人類似的成果超越或取代是比較常見的，但 ChatGPT 淘汰的不是某個具體項目，而是一整個類別的研究。對學術界來說，很多自然語言處理的高階研究方向變得不再有趣，或者不再具有實際意義。

·山姆?鮑曼：感覺整個領域完全重新洗牌了。

·伊茲?貝爾塔吉（艾倫人工智能研究所首席研究科學家，SpiffyAI 首席科學家兼聯合創始人）：在一天之內，大量研究人員正在鉆研的諸多問題突然就銷聲匿跡了。

·克里斯托弗?卡利森 - 伯奇（賓夕法尼亞大學計算機與信息科學教授）：我沒預料到它的問世，我覺得沒人能料到。但我有所準備，因為之前 GPT - 3 給過我類似的沖擊體驗。

·R?托馬斯?麥科伊（耶魯大學語言學系助理教授）：某個具體研究項目被他人類似成果搶先或淘汰，這種情況較為常見。但 ChatGPT 可不是針對某個具體項目，它讓整個類別的 NLP 研究都失去了意義。對學術界而言，很多 NLP 領域的前沿研究方向，要么不再引人關注，要么不再具備實踐價值。

·山姆?鮑曼（Anthropic 技術人員）：感覺整個領域徹底改頭換面了。

·伊茲?貝爾塔吉：在 EMNLP（自然語言處理實證方法會議，該領域頂尖會議之一）期間，我真切感受到了那種恐慌和迷茫。會議在 12 月舉行，ChatGPT 發布僅一周后。所有人都還驚魂未定，有人甚至直言：“這會是最后一屆 NLP 會議嗎？” 午餐時間、雞尾酒會上，還有走廊交談時，大家都在問同一個問題：“我們還能研究什么？”

·納茲寧?拉賈尼（Collinear AI 創始人兼首席執行官）：我剛在 EMNLP 上發表了主題演講。幾天后，我在 Hugging Face 的上司、聯合創始人之一湯姆?沃爾夫給我發消息說：“嘿，能盡快跟我通個電話嗎？” 他告訴我，公司已經辭退了一些研究團隊成員，剩下的人要么做預訓練，要么做后訓練 —— 也就是說，要么構建基礎模型，要么基于基礎模型打造類似 ChatGPT 的指令跟隨模型。他還說：“要是你還想留在 Hugging Face，我建議你選其中一條路。” 這感覺和 Hugging Face 的企業文化背道而馳。在此之前，大家基本都能自由開展自己想做的研究。這種變化真的讓人不太舒服。

ChatGPT 的出現也從底層帶來了令人警醒的現實 —— 一位杰出的 NLP 專家在 ChatGPT 發布后的幾周里，親身在本科教學中體會到了這一點。

·克里斯蒂安娜?費爾鮑姆（普林斯頓大學語言學與計算機科學教授級講師）：我們新學期才剛開始。上課前，一個我還不認識的學生來找我，給我看了一篇署名是我、標題也眼熟的論文，說：“我特別想上您的課，我研究了您的作品，發現了這篇論文，但有些問題想請教您，您能解答一下嗎？” 我當然欣然答應，還挺開心有人研究我的成果。我翻看論文，努力回憶內容，這時他突然爆笑起來。我問他：“有什么好笑的？” 他說：“這篇論文是 ChatGPT 寫的。我讓它‘以克里斯蒂安娜?費爾鮑姆的風格寫篇論文’，就得到了這個。” 當時離上課只剩 10 分鐘，我沒逐字細讀，但看上去確實很像我會寫的東西。我完全被糊弄了。走進教室后，我滿腦子都是：“我該怎么辦？”

在接下來的一年里，博士生們也不得不面對新的現實。ChatGPT 威脅到了他們的研究項目，甚至可能影響到他們的學術生涯。不同人應對的方式和效果各不相同。

·克里斯托弗?卡利森 - 伯奇：在這種情況下，有終身教職會輕松一些。但年輕學者面臨的危機更直接、更強烈。有些博士生甚至組建了互助小組。

·利亞姆?杜根（賓夕法尼亞大學四年級博士生）：我們只能互相傾訴、彼此安慰。很多比我年級高、已經開始寫博士論文的同學，都不得不徹底改變研究方向。很多之前的研究思路，感覺已經沒有學術價值了，現在只要應用語言模型，一切就解決了。奇怪的是，我認識的人里沒人直接放棄，但確實有人在消極怠工，或是變得很消極、很憤世嫉俗。

·雷?穆尼（德克薩斯大學奧斯汀分校人工智能實驗室主任）：我帶的一個研究生甚至考慮退學，他們覺得或許行業里才有真正的發展機會，學術界已經不行了。我當時想，他們這么想也許沒錯。不過我很高興他們最后決定留下來。

·朱莉?卡利尼（斯坦福大學計算機科學二年級博士生）：2023 年我剛開始讀博，感覺前途未卜。我完全不確定自己的研究方向該怎么定，但大家都跟我處境一樣。我只能試著接受現狀，努力夯實機器學習的基礎知識。只專注于大語言模型這種可能轉瞬即逝的熱門趨勢，可不是明智之舉。

與此同時，從西雅圖到南非，NLP 研究人員受到了全球潮水般的關注，但并非所有關注都是正面的。

·武科西?馬里瓦泰（比勒陀利亞大學 ABSA UP 數據科學主席，Masakhane 聯合創始人）：2023 年，我都記不清自己做了多少場關于大語言模型的講座。以前，多年來我一直努力讓大家關注這個領域，告訴他們 “這里面有很多有趣的東西”。但突然之間，鋪天蓋地都是 “來給我們講講這是怎么回事” 的請求。

·山姆?鮑曼：這個領域一下子從相對冷門變得熱門起來，我甚至會和那些在同一個月里見過教皇和總統的人共進午餐。

·艾米麗?M?本德（華盛頓大學語言學系教授，2024 年計算語言學協會主席）：從 1 月到 6 月，我數了一下，只有 5 個工作日沒有媒體聯系我。幾乎一刻都不停歇。

·埃莉?帕夫利克（布朗大學計算機科學與語言學助理教授，谷歌 DeepMind 研究科學家）：在 ChatGPT 出現之前，我覺得自己可能只和記者打過一兩次交道。但 ChatGPT 問世后，我上了《60 分鐘》節目。工作性質發生了天翻地覆的變化。

·克里斯托弗?卡利森 - 伯奇：我感覺自己的工作不再只是面向一小群研究生和本領域其他研究人員的學術工作，而是突然有了一項重要的責任 —— 科學傳播。我還受邀到國會作證。

·利亞姆?杜根：作為一名二年級博士生，我突然在采訪中被要求發表自己的觀點。一開始，我還覺得很酷，心想 “我居然成專家了！” 但后來就不那么興奮了，反而覺得壓力很大，比如被問到 “你認為這個領域未來會怎么發展？” 我哪知道啊，為什么要來問我？當然，我還是會自信地回答。但這真的很荒唐，相關論文成千上萬，每個人都對現狀有自己的看法，可大多數人根本就沒搞清楚狀況。

·山姆?鮑曼：一方面，這個領域迎來了前所未有的關注，很多來自不同領域的優秀人才都開始關注 NLP；但另一方面，也充斥著大量噪音，大家無時無刻不在討論，很多觀點都是隨口一說，毫無道理。這既讓人欣喜，又讓人無奈。

·納茲寧?拉賈尼：那一年就像坐過山車一樣。

2023 年 12 月，ChatGPT 發布一年后，年度 EMNLP 會議在新加坡再次召開。

·利亞姆?杜根：會議的熱度比之前高了很多，arXiv（預印本平臺）上的研究成果如潮水般涌來。走在會議大廳里，到處都在討論語言模型的提示工程和評估。感覺和以前大不一樣了，至少參會的人好像比有價值的研究想法還多。這里已經不太像 NLP 的會議了，更像是 AI 的會議。

變革之中（2024 - 2025 年）：大語言模型研究、資金以及邁向AI

對于 NLP 領域來說，大語言模型帶來的影響已經十分明顯，而不同的人對這些影響也有不同的看法。

·R?托馬斯?麥科伊：每當你研究一個 AI 系統的能力時，都應該去研究那些我們能夠獲取其訓練數據的系統。但目前在這個領域，主流做法并非如此。從這個角度講，我們更像是 “大語言模型研究者”，而非嚴謹的科學家。

·埃莉?帕夫利克：我完全承認自己也有這樣的問題。我在做報告時經常說：“現在，我們都在研究語言模型。” 我知道這看起來目光短淺。但從長遠的研究規劃來看，這是有必要的。在我看來，如果不搞清楚 “大語言模型在做什么”，就無法真正理解語言。

·卡利卡?巴利（微軟印度研究院高級首席研究員）：每次西方主導的技術變革出現時，總會引發一些哲學層面的思考。但在全球南方的大多數地區，我們更關心 “如何讓這項技術為我們當下所用”。舉個小例子，ChatGPT 出現后，印度很多人最初的想法是，讓生成式語言模型用英語完成任務，然后通過翻譯系統轉換成其他語言。但機器翻譯很生硬，如果數學題里有 “約翰和瑪麗要分一個基圍蝦派”（key lime pie，實際是青檸派，但直譯為基圍蝦派會造成理解偏差），翻譯成印地語后，印度的大多數人根本不知道 “基圍蝦派” 是什么。除非模型本身能理解這些內容，否則怎么把它翻譯成符合當地文化的表述呢？這讓我對如何解決這類問題產生了濃厚興趣。

·伊茲?貝爾塔吉（艾倫人工智能研究所首席研究科學家，SpiffyAI 首席科學家兼聯合創始人）：你會意識到，為了推動這個領域繼續發展，必須打造出那些龐大且昂貴的研究成果。就像大型強子對撞機，沒有這樣的設備，實驗物理學就很難取得進展。我很幸運能在艾倫人工智能研究所（Ai2）工作，這里的資源比大多數學術實驗室都要豐富。ChatGPT 的出現讓我們清楚地看到，OpenAI 和其他機構之間存在著巨大差距。所以之后，我們立刻開始思考如何從頭打造類似的成果，后來也確實這么做了。2024 年，Ai2 推出的 OLMo 模型，為日益擁擠的行業語言模型市場提供了一個完全開源的選擇。與此同時，一些持續研究這些商業語言模型（在 ChatGPT 引發的 AI 熱潮之后，它們在規模、能力和復雜性上都不斷提升）的研究人員，開始遇到新的阻力。

·崔藝珍（斯坦福大學計算機科學教授，2022 年麥克阿瑟獎得主）：2023 年末，我發表了一篇論文，展示了最新的 GPT 模型在處理乘法運算時的奇怪現象：當數字達到三位數或四位數時，它的表現會急劇下降。這篇論文引發了極大的爭議。那些根本不做實證研究的人質疑我：“你的實驗做對了嗎？” 這種情況以前從未發生過。他們的反應很情緒化。我其實很欣賞這些人，但他們的反應還是讓我很驚訝，我沒想到這個模型在他們心中的地位如此重要，就好像我批評的是他們的寶貝一樣，這真的讓我大開眼界。在科學研究中，毫無根據的炒作毫無益處。我認為更嚴謹地研究大語言模型的基本能力和局限性非常重要，這也是我 2024 年的主要研究方向。但我發現自己陷入了一個尷尬的境地：總是在指出模型做不到的事情，感覺自己像個唱反調的人。雖然我覺得這很重要，但我也不想只做這一件事。所以最近我也在思考很多其他不同的研究問題。

·塔爾?林曾（紐約大學語言學與數據科學副教授，谷歌研究科學家）：有時候我們假裝在進行科學探討，但參與討論的某些人所在的公司可能價值 500 億美元，這種情況下的討論就變得很復雜。

研究熱潮、大量資金涌入以及過度的炒作，讓 NLP 和 AI 之間本就不明顯的界限徹底消失了。研究人員不僅要面對自身的新機遇和激勵因素，還要考慮整個領域的發展方向。

·納茲寧?拉賈尼：大語言模型為我打開了很多原本不存在的機會之門。我是最早一批獲取數據并在開源環境中復現 ChatGPT 的人之一，基本上可以說我寫了相關的 “操作指南”，這真的很棒。也正因如此，我的初創公司獲得了一筆不錯的種子輪融資。

·R?托馬斯?麥科伊：只要是和 AI 沾邊的大學教師，都會被視為 AI 領域的專家 —— 某種程度上被定型了。我很樂意研究 AI，因為憑借我的專業技能，這是最有影響力的研究方向之一。但真正讓我開心的，是深入鉆研語法和人類認知中那些有趣的細節。雖然這也能和 AI 發展聯系起來，但這條路還很長。

·朱莉?卡利尼：這其實就是語義的問題，對吧？就我個人而言，我覺得自己同時涉足 NLP、計算語言學和 AI 領域。我知道每個領域都有各自的研究群體，但也有很多人在多個領域之間跨界。

·朱利安?邁克爾（Scale AI 安全、評估與校準實驗室主任）：如果 NLP 領域不做出改變，就會逐漸被淘汰。我覺得在一定程度上，這種情況已經發生了。說這話讓我很難過。我現在已經是一名 AI 校準研究員了。

·安娜?羅杰斯（哥本哈根信息技術大學計算機科學副教授，ACL 滾動評論主編）：我并不擔心。主要是因為我覺得我們還遠沒有解決自然語言處理的問題。如果你認為 “就這樣了，語言處理問題已經解決了”，那才應該感到沮喪，但我不這么認為。

·克里斯托弗?波茨（斯坦福大學語言學系主任）：對語言學和 NLP 領域來說，現在應該是一個極具意義的時刻。這其中的風險和機遇都非常大。也許這就是一個領域覺醒的時刻，大家意識到自己如今擁有了巨大的影響力。你不能再假裝自己只是一個默默做研究、只為了學術而研究的科研或工程領域了 —— 因為現在全世界的資金都在涌入這個領域，所有大公司都想在這個領域施加影響，語言模型也在各個地方廣泛應用。既然取得了這么大的成果，就必須接受隨之而來的激烈爭論。不然還能怎樣呢？

大語言模型是一次范式轉變嗎？

不出所料，人們對此觀點不一。

·塔爾?林曾：如果在 5 年、7 年或 10 年前有人問我，我絕對想不到，僅僅在語言模型里輸入一條指令，它就能按照要求把句子補充完整。我覺得當時沒人能想到這會成為如今的范式。現在我們只需要一個交互界面，就能完成各種任務。

·安娜?羅杰斯：作為一名語言學家，我不這么認為。從 2013 年詞向量時代開始，整個研究的核心思路就是遷移學習 —— 從大量文本數據中學習知識，希望這些知識能在其他任務中發揮作用。這些年，模型的受歡迎程度、架構以及公眾的看法都發生了變化，但這個核心原則并沒有改變。

·杰夫?米切爾（薩塞克斯大學計算機科學與人工智能助理教授）：我覺得企業利益改變了這個領域的游戲規則。

·埃莉?帕夫利克：我認為媒體的介入產生了很大影響。我們領域的科學家意識到，成功可以意味著在 NLP 領域之外也獲得知名度，受眾突然變了。現在arxiv.org上的論文標題常常是為了吸引記者或硅谷愛好者的關注，而不是為了吸引教授們。這是一個巨大的變化。

·武科西?馬里瓦泰：我認為在某些方面，進入這個領域的門檻既降低了，又提高了。說降低，是因為我們對這些系統內部的實際運行機制還有很多不了解的地方，所以很多研究只是盡可能地對它們進行測試和探索。在這種情況下，你并不需要對神經網絡架構了如指掌。但同時門檻也提高了，因為要想深入研究這些架構，從計算資源的角度來說，你必須處于一個資源非常豐富的環境中。

·艾米麗?M?本德：我看到一種巨大的轉變，人們越來越傾向于使用聊天機器人或相關的文本生成機器來實現端到端的解決方案。但我認為這是一條死胡同。

·克里斯蒂安娜?費爾鮑姆：我甚至覺得可以稱之為巨大的轉變或沖擊，這些大語言模型變得如此強大，以至于我們不得不思考：“人類在其中處于什么位置？” 這就是一種范式轉變：技術上的轉變，這些模型的訓練方式以及它們的學習能力都發生了變化。當然，還有教育方面的影響，就像我在課堂上遇到的情況。這些問題讓我夜不能寐。

·R?托馬斯?麥科伊：在語言學領域，有很多歷史上一直停留在哲學層面的爭論，如今突然可以通過實證進行檢驗了。這絕對是一個重大的范式轉變。但從另一個角度看，10 年前這個領域的研究模式是：人們創建一些數據集，用神經網絡對其進行處理，然后觀察結果。現在這種模式依然存在，只是數據集和神經網絡的規模都變得更大了。

·克里斯托弗?波茨：也許科學發展一直都是這樣，范式轉變的標志就是曾經認為重要的問題如今不再被提及。在過去五年里，這種情況似乎真的發生了。我曾經專注于情感分類，比如 “給我一個句子，我能判斷它表達的是積極還是消極情緒”。但現在整個領域都聚焦于自然語言生成，與這個方向相比，我們曾經認為核心的問題都變得邊緣化了。我猜這些話可能很快就會過時。也許到 2030 年，我們回頭看會覺得現在這些根本不算什么，和 2029 年發生的事情相比簡直不值一提。

所以，你認為大語言模型究竟是不是一次“范式轉變”？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.