OpenAI 前幾天辦了個(gè) Science Week,請(qǐng)了一批科學(xué)家來(lái)做內(nèi)部分享。其中一場(chǎng)的主題是「理解動(dòng)物:AI 幫科學(xué)家解讀跨物種語(yǔ)言」
其中講了一個(gè)非常具體的故事:用 AI,在抹香鯨的聲音里找到了元音
演講的是Ga?per Begu?,伯克利語(yǔ)言學(xué)副教授。他在伯克利帶一個(gè)叫「生物與人工語(yǔ)言實(shí)驗(yàn)室」的團(tuán)隊(duì),同時(shí)也是 CETI 項(xiàng)目(鯨魚翻譯計(jì)劃)的語(yǔ)言學(xué)負(fù)責(zé)人
演講之后,還有個(gè)對(duì)談。上來(lái)的是Kevin Weil,OpenAI 科學(xué)副總裁,之前是 OpenAI 的首席產(chǎn)品官,更早在 Instagram 做產(chǎn)品負(fù)責(zé)人
![]()
Begu? 在 OpenAI Science Week 演講
Begu? 上來(lái)先扔了一個(gè)判斷:
在過(guò)去 60 年,語(yǔ)言學(xué)中的有一個(gè)基本假設(shè):只有人類才能學(xué)語(yǔ)言 現(xiàn)在,這個(gè)假設(shè)不成立了
LLM 已經(jīng)能處理人類語(yǔ)言中最復(fù)雜的部分,包括遞歸(把一個(gè)結(jié)構(gòu)無(wú)限嵌套進(jìn)另一個(gè)結(jié)構(gòu))和元語(yǔ)言分析(像語(yǔ)言學(xué)家一樣畫句法樹、分析句子結(jié)構(gòu))。他們請(qǐng)語(yǔ)言學(xué)博士生來(lái)評(píng)估,模型表現(xiàn)接近博士水平
如果不是人類也能學(xué)語(yǔ)言,那其他生物的交流系統(tǒng)里,可能也有比我們以為的更復(fù)雜的東西
然后他講了鯨魚(DeepSeek :應(yīng)該不是說(shuō)我)
鯨魚的咔噠聲里藏著元音
抹香鯨靠咔噠聲交流。聽起來(lái)像摩爾斯電碼,學(xué)界之前也一直這么理解:點(diǎn)擊的數(shù)量和時(shí)間間隔攜帶信息
下面的這個(gè),是我手機(jī)錄的,有點(diǎn)雜音別介意↓
![]()
兩頭抹香鯨游向第三頭鯨,交換咔噠聲
Begu? 團(tuán)隊(duì)做了一件事:把這些咔噠聲喂給他們自己搭的模型,然后打開模型內(nèi)部,逐個(gè)神經(jīng)元地看它學(xué)到了什么
模型確認(rèn)了兩個(gè)已知信息:點(diǎn)擊數(shù)量很重要,時(shí)間間隔很重要。但它還多說(shuō)了一句:頻譜也很重要
這是新線索。但從「頻譜重要」到搞清楚頻譜里有什么,中間花了很長(zhǎng)時(shí)間。Begu? 說(shuō)有一段時(shí)間模型一直在提示頻譜有信息,他們不知道怎么用
直到他們想通了一件事:鯨魚太慢了
人類說(shuō)話很快,鯨魚的咔噠聲節(jié)奏很慢。把鯨魚的點(diǎn)擊聲加速,去掉中間的靜默,調(diào)整到更接近人類感知的時(shí)間尺度,頻譜上的模式一下子出現(xiàn)了
![]()
人類元音 vs 鯨魚元音的頻譜對(duì)比,紅色箭頭指向 formant 條紋
這些模式跟人類元音的頻譜結(jié)構(gòu)幾乎一樣
人類發(fā)元音 A 的時(shí)候放低下巴,口腔共振頻率的條紋靠得近。發(fā)元音 I 的時(shí)候舌頭抬高,條紋拉開。鯨魚的咔噠聲里也有這種條紋,目前找到了兩種,團(tuán)隊(duì)把它們叫做 A 元音和 I 元音
發(fā)聲機(jī)制也類似。人類用聲帶振動(dòng),通過(guò)改變嘴巴形狀來(lái)區(qū)分元音。鯨魚用發(fā)聲唇(phonic lips)振動(dòng),通過(guò)改變鼻腔里一個(gè)氣囊的形狀來(lái)改變頻譜
加速它們的對(duì)話之后,能聽到它們?cè)趤?lái)回交換不同的元音。之前被認(rèn)為是簡(jiǎn)單重復(fù)的叫聲,現(xiàn)在知道至少有兩種類型。而且這些頻譜模式在不同海域的鯨魚身上都能重復(fù)觀測(cè)到
![]()
Pinchy 的對(duì)話轉(zhuǎn)寫,咔噠聲被標(biāo)注為 A 和 I 元音
這些數(shù)據(jù)來(lái)自多米尼加海岸。Begu? 最喜歡的一頭鯨叫 Pinchy,一位話癆老奶奶,元音結(jié)構(gòu)最早就是在她身上看到的。Begu? 說(shuō)這些模式清晰到你可以拿紙筆把它們轉(zhuǎn)寫成人類字母
發(fā)現(xiàn)過(guò)程:模型告訴你往哪挖,但不幫你挖
Begu? 團(tuán)隊(duì)沒有拿通用大模型去分析鯨魚。他們自己搭了一個(gè)基于 GAN 的模型,思路是模擬嬰兒學(xué)語(yǔ)言的過(guò)程:模型有一個(gè)「嘴巴」,需要改變形狀來(lái)模仿它聽到的聲音,同時(shí)還要傳遞信息
他們叫這個(gè)框架「信息性模仿」(informative imitation)
![]()
經(jīng)過(guò)九年義務(wù)教育的我們,應(yīng)該都會(huì)說(shuō)話吧
這個(gè)模型先在人類語(yǔ)音上驗(yàn)證過(guò),腦信號(hào)對(duì)比實(shí)驗(yàn)顯示模型內(nèi)部的處理過(guò)程跟人腦聽語(yǔ)音時(shí)的活動(dòng)很接近。然后把同一套方法用在鯨魚身上
關(guān)鍵是可解釋性。他們用一個(gè)叫 CDEF 的技術(shù),能做到單個(gè)神經(jīng)元級(jí)別的分析:取出某個(gè)神經(jīng)元,看它編碼了什么,然后因果性地操縱這個(gè)神經(jīng)元來(lái)驗(yàn)證。在這些模型里,單個(gè)神經(jīng)元確實(shí)能代表數(shù)據(jù)中某個(gè)有意義的特征
Begu? 反復(fù)用了一個(gè)說(shuō)法:AI 在科學(xué)發(fā)現(xiàn)中的角色是金屬探測(cè)器。它告訴你往哪挖,但挖的活兒還是你自己干
回頭看都容易,但當(dāng)時(shí)花了很長(zhǎng)時(shí)間。他說(shuō)如果沒有模型一直提示頻譜有信息,他們大概率不會(huì)在這個(gè)方向上挖這么久
6000 種人類語(yǔ)言不夠用,得讓 AI 再造幾千種
研究動(dòng)物之前有個(gè)實(shí)際問(wèn)題:怎么練習(xí)解碼一種你完全不了解的交流系統(tǒng)
Begu? 團(tuán)隊(duì)做了個(gè)叫 Conlang Crafter 的管線。多個(gè)模型互相配合,自動(dòng)生成全新的人造語(yǔ)言,從語(yǔ)音到詞法到句法,完整的語(yǔ)法體系,能翻譯句子
Conlang Crafter 生成的外星語(yǔ)言樣本
人類有 6000 到 7000 種語(yǔ)言,但它們之間共性很多。其他物種的交流系統(tǒng)可能跟人類語(yǔ)言完全不同。所以得有練習(xí)材料
你可以讓 Conlang Crafter 生成一種由外星頭足類物種使用的語(yǔ)言,音素是顏色值和手勢(shì)而非輔音元音,用 ASCII 表示。模型能跑出來(lái)
造 Klingon 和 Dothraki 需要語(yǔ)言學(xué)家手工干很久。現(xiàn)在這個(gè)管線能批量生成,給解碼完全陌生的交流系統(tǒng)提供訓(xùn)練數(shù)據(jù)
鯨魚有方言,而且會(huì)故意「秀」方言
Begu? 說(shuō)他聽一分鐘鯨魚交流就能大致判斷它們來(lái)自哪片海域
更有意思的是,不同方言群在海洋中碰面時(shí),會(huì)故意放大自己的方言特征。跟 1960 年代一個(gè)經(jīng)典語(yǔ)言學(xué)研究一樣:Martha's Vineyard 的島民跟外地人說(shuō)話時(shí)口音反而更重,用來(lái)強(qiáng)化身份認(rèn)同
![]()
Begu? 之前發(fā)過(guò)一篇論文, 大致說(shuō): 如果我們聽懂了動(dòng)物在說(shuō)什么,現(xiàn)有的法律體系怎么辦
研究團(tuán)隊(duì)還首次錄下了抹香鯨的分娩過(guò)程。11 頭雌鯨聚到一起幫忙接生,把新生兒托舉到水面。分娩期間交流量暴增。而且周圍突然出現(xiàn)了大量領(lǐng)航鯨和弗氏海豚,Begu? 說(shuō)跨物種交流可能比我們以為的更多
模型在發(fā)展自己的語(yǔ)言
做可解釋性研究時(shí),Begu? 發(fā)現(xiàn)模型被訓(xùn)練執(zhí)行高難度任務(wù)時(shí),會(huì)在內(nèi)部發(fā)展自己的通信協(xié)議。一開始團(tuán)隊(duì)看到模型里有些奇怪的靜默,不知道是什么。打開模型內(nèi)部才發(fā)現(xiàn),模型在用這些靜默傳遞信息
他的判斷是,隨著 Agent 發(fā)展,模型之間的通信大概率不會(huì)用人類語(yǔ)言,效率不夠。它們會(huì)發(fā)明自己的協(xié)議。理解這些協(xié)議需要可解釋性
復(fù)雜思維可能不需要語(yǔ)言
Kevin Weil 提了一個(gè)問(wèn)題:推理模型在思考時(shí)說(shuō)話方式完全不同,會(huì)自言自語(yǔ)、回溯、糾錯(cuò),這算語(yǔ)言嗎
Begu? 覺得更有意思的是另一個(gè)現(xiàn)象:你可以訓(xùn)練一個(gè)模型讓它的鏈?zhǔn)剿季S變成亂碼,推理性能不會(huì)大幅下降
如果復(fù)雜思維可以在沒有可讀語(yǔ)言的情況下存在,那語(yǔ)言可能只是最外面一層,用來(lái)把內(nèi)部世界傳達(dá)給別人
鯨魚可能也是這樣。它們的內(nèi)部世界可能比它們的「語(yǔ)言」所能表達(dá)的要復(fù)雜得多
離聽懂你家狗還有多遠(yuǎn)
Kevin Weil 說(shuō)他 9 歲的女兒聽說(shuō)今天的主題后問(wèn)了一個(gè)問(wèn)題:我們什么時(shí)候能跟狗說(shuō)話
![]()
Kevin Weil 和 Begu? 討論「能不能跟狗說(shuō)話」
Begu? 的回答是,我們需要的是一個(gè)通道。有些物種天然提供這個(gè)通道,比如非洲灰鸚鵡 Alex 能模仿人類語(yǔ)言,科學(xué)家通過(guò)它發(fā)現(xiàn)鸚鵡會(huì)計(jì)數(shù)、能區(qū)分形狀和顏色。在 Alex 之前,沒人知道鸚鵡能做到這些
AI 有可能成為其他物種的這種通道。但 Begu? 說(shuō)他作為語(yǔ)言學(xué)家,現(xiàn)階段更想先「聽」,搞清楚它們的系統(tǒng)怎么運(yùn)作的,而不是急著去「翻譯」
Kevin Weil 接了一句:如果你能解碼狗的語(yǔ)言,你手上就是一家萬(wàn)億美元公司
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.