網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從鴿子到人工智能，強(qiáng)化學(xué)習(xí)怎樣按人類的意愿行事？

2025-10-23 10:13:37　來源: 墨子沙龍

上海舉報(bào)

分享至

人工智能（AI）堪稱當(dāng)下最熱門的科技詞匯之一。隨著ChatGPT、DeepSeek等人工智能工具的出現(xiàn)，我們?cè)谟H眼見證甚至親自體驗(yàn)人工智能的力量的同時(shí)，卻也在目睹學(xué)術(shù)界和產(chǎn)業(yè)界領(lǐng)軍人物對(duì)人工智能的潛在風(fēng)險(xiǎn)發(fā)出警告：本應(yīng)和人類相向而行的人工智能，卻很有可能和人類背道而馳。而如果我們想避免發(fā)生人工智能挑戰(zhàn)人類的事情，當(dāng)務(wù)之急是解決“對(duì)齊問題”。

美國計(jì)算機(jī)科學(xué)暢銷書作家布萊恩·克里斯汀（Brian Christian）就瞄準(zhǔn)“對(duì)齊問題”，在他的作品《人機(jī)對(duì)齊：如何讓人工智能學(xué)習(xí)人類價(jià)值觀》中以廣闊的視野探討了諸多涉及人工智能的關(guān)鍵問題，呈現(xiàn)了機(jī)器學(xué)習(xí)和人類價(jià)值觀之間的深層聯(lián)系。以下這些來自克里斯汀書中的內(nèi)容，讓我們看到早期對(duì)鴿子和其他動(dòng)物的研究如何啟發(fā)了當(dāng)今人工智能中的強(qiáng)化學(xué)習(xí)以及背后的挑戰(zhàn)和困境。

1943年，斯金納在研究一個(gè)戰(zhàn)時(shí)秘密項(xiàng)目，這個(gè)項(xiàng)目最初是由通用磨坊食品公司贊助的。通用磨坊把明尼阿波利斯金牌面粉廠的頂樓給斯金納做實(shí)驗(yàn)室。這個(gè)項(xiàng)目是當(dāng)時(shí)最大膽的構(gòu)想之一：斯金納打算訓(xùn)練鴿子啄食轟炸目標(biāo)的圖像，然后把鴿子3只一組放在真正的炸彈里，在投彈時(shí)制導(dǎo)。“我和同事們知道，”斯金納說，“在全世界眼中，我們是瘋子。”

斯金納意識(shí)到，許多人會(huì)認(rèn)為這個(gè)項(xiàng)目瘋狂且殘忍。關(guān)于瘋狂，他指出，人類將動(dòng)物（超越人類）的感官用于人類目的的歷史悠久且有傳奇色彩：導(dǎo)盲犬、搜尋松露的豬，等等。關(guān)于殘忍，他辯解道：“我們是否有權(quán)將低等生物轉(zhuǎn)化為不自知的英雄，思考這個(gè)倫理問題是和平時(shí)期才有的奢侈。”

▲斯金納

斯金納長期致力于強(qiáng)化研究，他著名的“斯金納盒子”可以說是桑代克迷箱在20世紀(jì)中期的升級(jí)版。盒子中的燈、杠桿和機(jī)械食物給料器（通常是用自動(dòng) 售貨機(jī)改裝）可以對(duì)強(qiáng)化進(jìn)行精確和定量的研究，它們將被幾代研究人員沿用（例如舒爾茨將其用于研究猴子的多巴胺）。1950年代，斯金納利用他的盒子研究動(dòng)物如何在各種條件下學(xué)會(huì)采取行動(dòng)來最大化獎(jiǎng)勵(lì)（通常是以食物的形式）。他提出了“強(qiáng)化程序”的概念，測(cè)試了各種類型的強(qiáng)化程序并觀察效果。例如，他比較了按“比率”強(qiáng)化（一定數(shù)量的正確行為會(huì)得到獎(jiǎng)勵(lì)）與按“間隔”強(qiáng)化（一定時(shí)間后的正確行為會(huì)得到獎(jiǎng)勵(lì)）。他測(cè)試了“固定”和“可變”強(qiáng)化，前者的行為數(shù)量或時(shí)長保持不變，后者允許波動(dòng)。斯金納的著名發(fā)現(xiàn)是，最強(qiáng)烈、最重復(fù)、最持久的行為往往來自可變比率的程序——也就是說，獎(jiǎng)勵(lì)出現(xiàn)在重復(fù)多次的行為之后，但重復(fù)次數(shù)會(huì)波動(dòng)。這些發(fā)現(xiàn)對(duì)理解賭博成癮有一定啟示——可悲的是，它們無疑也啟發(fā)了如何設(shè)計(jì)更容易讓玩家上癮的賭博游戲。

▲一個(gè)以小鼠為實(shí)驗(yàn)對(duì)象的斯金納盒子

然而，在頂樓的秘密實(shí)驗(yàn)室，斯金納還面臨另一個(gè)挑戰(zhàn)：不僅要弄清楚哪些強(qiáng)化程序能植入最根深蒂固的簡單行為，還要弄清楚如何僅僅通過獎(jiǎng)勵(lì)來產(chǎn)生相對(duì)復(fù)雜的行為。有一次，當(dāng)他和同事試圖教鴿子擊球時(shí)，困難變得很明顯。他們建了一個(gè)微型保齡球館，里面有木球和玩具球瓶，打算在鴿子向球猛擊時(shí)給予它第一次食物獎(jiǎng)勵(lì)。不幸的是，什么都沒發(fā)生。鴿子沒有這樣做。實(shí)驗(yàn)員等啊等啊……最終失去了耐心。

然后他們改變了策略。如斯金納所述：

我們決定強(qiáng)化任何與擊球稍有關(guān)聯(lián)的反應(yīng)，也許起初只是看向球的行為，然后選擇更接近最終目標(biāo)的反應(yīng)。結(jié)果令我們驚訝。幾分鐘后，球開始在盒子壁間碰撞，就好像鴿子是壁球冠軍。

效果是如此驚人，以至于斯金納的兩位助手——瑪麗安·布雷蘭（Marian Breland）和凱勒·布雷蘭（Keller Breland）夫妻倆——決定放棄心理學(xué)學(xué)術(shù)生涯，成立一家動(dòng)物訓(xùn)練公司。“我們想利用斯金納的行為控制原理來謀生，”瑪麗安說。他們的動(dòng)物行為公司將成為全世界同行業(yè)最大的公司，訓(xùn)練各種動(dòng)物在電視、電影、商業(yè)廣告和海洋世界等主題公園中表演。不僅僅是謀生：他們建立了一個(gè)王國。

斯金納也認(rèn)為,在面粉廠秘密實(shí)驗(yàn)室的微型保齡球館里的這一刻對(duì)他是一種頓悟，改變了他職業(yè)生涯的軌跡。他認(rèn)為，關(guān)鍵是“通過強(qiáng)化與最終目標(biāo)大致相似的行為來逐漸塑造行為，而不是等待完全一樣的行為”。

然而，鴿子計(jì)劃最終沒有付諸實(shí)施。鴿子們干得非常出色，如此出色，以至于轉(zhuǎn)移了政府科學(xué)研究和發(fā)展辦公室委員會(huì)的注意力。“由活著的鴿子執(zhí)行任務(wù)的景象，不管多么美麗，”斯金納寫道，“只會(huì)提醒委員會(huì)我們的提議多么不切實(shí)際。”斯金納當(dāng)時(shí)還不知道，政府正在努力推進(jìn)曼哈頓計(jì)劃，研發(fā)一種殺傷半徑非常大的炸彈，用他的話來說，“有一段時(shí)間，精確轟炸的需要似乎已經(jīng)徹底消失了”。然而，鴿子項(xiàng)目最終在海軍研究實(shí)驗(yàn)室找到了安頓之所，改名為 ORCON（“生物控制”的簡稱），研究一直持續(xù)到戰(zhàn)后的20世紀(jì)50年代。

斯金納認(rèn)為這個(gè)概念已經(jīng)證明可行，在20世紀(jì)50年代末，他自豪地寫道：“可以說，用生物來制導(dǎo)，不再是一個(gè)瘋狂的想法。”雖然可行，但已經(jīng)不合時(shí)宜。關(guān)鍵是他們發(fā)現(xiàn)了塑造：通過簡單獎(jiǎng)勵(lì)來灌輸復(fù)雜行為，獎(jiǎng)勵(lì)一連串近似的行為。“這使得塑造動(dòng)物的行為成為可能，”斯金納寫道，“就像雕塑家捏黏土一樣。”這個(gè)想法，以及這個(gè)術(shù)語，將在斯金納的職業(yè)生涯中扮演關(guān)鍵角色。他從一開始就意識(shí)到，它對(duì)商業(yè)和家庭生活都有影響。

他寫道：“其中一些（強(qiáng)化程序）類似工業(yè)中廣泛使用的不固定的日工資或計(jì)件工資；還有一些類似賭博機(jī)中精心設(shè)計(jì)的偶然事件，具有誘導(dǎo)持續(xù)行為的能力，讓人欲罷不能。”他還認(rèn)為強(qiáng)化對(duì)養(yǎng)育子女可能產(chǎn)生顯著影響：“對(duì)強(qiáng)化的科學(xué)分析有助于更好地理解人際關(guān)系。無論是否有意，我們幾乎總是在強(qiáng)化他人的行為。”斯金納指出，父母的注意力是一個(gè)強(qiáng)大的強(qiáng)化因素，父母如果對(duì)禮貌的要求反應(yīng)遲鈍，就可能在不知不覺中訓(xùn)練孩子變得煩人和愛出風(fēng)頭。（他說，補(bǔ)救方法是對(duì)可接受的吸引注意力的行為——而不是大喊大叫或不禮貌的行為——做出更迅速、更一致的回應(yīng)。）

也許最具預(yù)言性的是，斯金納認(rèn)為，基于他的研究發(fā)現(xiàn)的原理，廣義的教育，無論是針對(duì)人還是動(dòng)物，可能會(huì)成為一個(gè)嚴(yán)格的、客觀的領(lǐng)域，這個(gè)領(lǐng)域有可能實(shí)現(xiàn)飛躍。正如他所說：“人們常說，教學(xué)是一門藝術(shù)，但我們?cè)絹碓接欣碛上Ｍ罱K會(huì)成為一門科學(xué)。”斯金納可能比他預(yù)想的更正確。在21世紀(jì)，機(jī)器學(xué)習(xí)專家也可能會(huì)使用“塑造”這個(gè)術(shù)語，而且用法同心理學(xué)家一樣。對(duì)獎(jiǎng)勵(lì)的研究，尤其是如何戰(zhàn)略性地管理獎(jiǎng)勵(lì)以獲得你想要的行為，而不是你不想要的行為，的確已成為一門嚴(yán)格的定量科學(xué)，盡管可能不是像斯金納想象的那樣針對(duì)生物學(xué)習(xí)者。

“試錯(cuò)法”這個(gè)短語可能是蘇格蘭哲學(xué)家亞歷山大·貝恩（Alexander Bain）在1855年創(chuàng)造的，用來描述人類和動(dòng)物是如何學(xué)習(xí)。（他創(chuàng)造的另一個(gè)短語—— “探索實(shí)驗(yàn)”——也很貼切，但似乎沒有流行起來。）

從最基本的角度來說，強(qiáng)化學(xué)習(xí)是通過試錯(cuò)學(xué)習(xí)，這種試錯(cuò)（也可以說是探索）最簡單的算法形式是所謂的“ε-貪婪”（厄普西隆―貪婪）算法。希臘字母 ε在數(shù)學(xué)上常用來表示“一點(diǎn)點(diǎn)”，ε-貪婪的意思就是“貪婪，除了一點(diǎn)點(diǎn)時(shí)間外”。一個(gè)按照ε-貪婪運(yùn)行的自主體，大部分時(shí)間——比如說，99%——會(huì)根據(jù)到目前為止的有限經(jīng)驗(yàn)，采取它認(rèn)為能帶來最大收益的行動(dòng)。但是偶爾——例如，1%——會(huì)完全隨機(jī)地嘗試一些東西。比方說，在雅達(dá)利游戲中，偶爾隨機(jī)敲擊按鈕，看看會(huì)發(fā)生什么。

如何用這種探索行為學(xué)習(xí)，有許多不同的風(fēng)格，但基本想法是相同的——反復(fù)學(xué)習(xí)，多做讓你得到獎(jiǎng)勵(lì)的事情，少做讓你受懲罰的事情。你可以嘗試顯式地理解世界是如何運(yùn)作的（“基于模型的”強(qiáng)化學(xué)習(xí)），或者打磨你的直覺（“無模型的”強(qiáng)化學(xué)習(xí)）來做到這一點(diǎn)。你也可以通過學(xué)習(xí)某種狀態(tài)或行為能帶來多少收益來做到這一點(diǎn)（“價(jià)值”學(xué)習(xí)），或者只需知道哪些策略總體上做得更好（“策略”學(xué)習(xí)）。不管怎樣，幾乎所有方法都是基于這樣一個(gè)想法：首先偶然成功，然后傾向于去做更多看起來有效的事情。

事實(shí)證明，有些任務(wù)比其他任務(wù)更適用這種方法。

例如，在像《太空入侵者》這樣的游戲中，成群的敵人向你撲來，你所能做的就是左移、右移和射擊。隨機(jī)敲擊按鈕可能有機(jī)會(huì)干掉幾個(gè)游戲角色，每個(gè)角色都值幾分，這些初步的分?jǐn)?shù)就可以用來啟動(dòng)學(xué)習(xí)過程，通過學(xué)習(xí)，某些行為模式得到加強(qiáng)，更好的策略得到發(fā)展。例如，你可能會(huì)發(fā)現(xiàn)，只有射擊才會(huì)得分，所以你會(huì)更頻繁地射擊，得分也會(huì)更多。這類游戲一般都有“密集”的獎(jiǎng)勵(lì)，從而相對(duì)容易學(xué)習(xí)。

在其他游戲中，比如國際象棋，獎(jiǎng)勵(lì)不是那么立竿見影，但它們?nèi)匀皇谴_定的。一盤棋要么輸要么贏要么和棋，一般幾十步，幾乎不可能下到幾百步。即使你對(duì)策略一無所知，只會(huì)在棋盤上隨意擺弄，至少你很快就會(huì)知道你是贏了、輸了還是和棋。

然而，在許多情況下，獲得任何收益都是奇跡。斯金納就有親身體會(huì)，他在獎(jiǎng)勵(lì)鴿子在迷你保齡球館擊球時(shí)發(fā)現(xiàn)了這一點(diǎn)。鴿子不知道它面對(duì)的是什么游戲，可能需要幾年時(shí)間才能做出正確行為。當(dāng)然，它（和斯金納）在那之前早就餓死了。

機(jī)械學(xué)習(xí)者也是如此。例如，讓人形機(jī)器人將足球踢進(jìn)網(wǎng)，可能需要對(duì)幾十個(gè)關(guān)節(jié)施加成千上萬次精確的扭矩，所有這些都必須完美協(xié)調(diào)。很難想象機(jī)器人隨意轉(zhuǎn)動(dòng)幾十個(gè)關(guān)節(jié)能直立起來，與球進(jìn)行有意義的接觸更難，更不要說將球送入網(wǎng)。

強(qiáng)化學(xué)習(xí)研究人員稱這個(gè)為稀疏獎(jiǎng)勵(lì)問題，或者更簡潔地稱為稀疏問題。如果是根據(jù)最終目標(biāo)或與最終目標(biāo)相當(dāng)接近的東西來給獎(jiǎng)勵(lì)，那么人們基本上只能等待，直到隨機(jī)按按鈕或動(dòng)作產(chǎn)生預(yù)期的效果。數(shù)學(xué)可以證明，大多數(shù)強(qiáng)化學(xué)習(xí)算法最終都會(huì)實(shí)現(xiàn)，但實(shí)際上，可能在太陽毀滅后很久才會(huì)實(shí)現(xiàn)。如果你試圖訓(xùn)練一個(gè)圍棋程序來擊敗世界冠軍，而世界冠軍每次投子認(rèn)輸你都獎(jiǎng)勵(lì)它1分，否則就給0分，你將會(huì)等很長時(shí)間。

稀疏問題還有安全隱患。如果你打算利用ε-貪婪強(qiáng)化學(xué)習(xí)開發(fā)一種能力極強(qiáng)的超智能 AI，并且決定，如果它能治愈癌癥，你就獎(jiǎng)勵(lì)它1分，如果它不能治愈癌癥，得0分，那你得小心，因?yàn)樵谒玫降谝粋€(gè)獎(jiǎng)勵(lì)之前，它將不得不做大量隨機(jī)嘗試。其中許多嘗試都很笨拙。

和布朗大學(xué)的邁克爾·利特曼（Michael Littman）聊天時(shí)，我問他，他對(duì)強(qiáng)化學(xué)習(xí)的研究對(duì)他教育子女有沒有幫助。他立刻想到了稀疏問題。他曾和妻子開玩笑說要對(duì)兒子使用稀疏獎(jiǎng)勵(lì)：“這樣怎么樣？在他學(xué)會(huì)說中文前，我們不要給他東西吃。那會(huì)是很好的激勵(lì)手段！我們看看這行不行得通！”利特曼笑了。“我妻子頭腦非常清醒……她說：‘不，我們不玩這個(gè)游戲。’”

同斯金納一樣，利特曼當(dāng)然知道不能那樣做。事實(shí)上，稀疏問題已經(jīng)促使強(qiáng)化學(xué)習(xí)研究者去追溯斯金納的時(shí)代，他們相當(dāng)直接地借鑒了他的建議。具體來說，他關(guān)于塑造的想法已經(jīng)啟發(fā)了兩種不同但又相互交織的思想：一種是關(guān)于課程，另一種是關(guān)于激勵(lì)。

（本文摘編自《人機(jī)對(duì)齊：如何讓人工智能學(xué)習(xí)人類價(jià)值觀》的“塑造”一章，配圖和標(biāo)題為編者所加）

書名：人機(jī)對(duì)齊：如何讓人工智能學(xué)習(xí)人類價(jià)值觀

?♂? 作者：[美]布萊恩·克里斯汀

譯者：唐璐

內(nèi)容簡介

如今的“機(jī)器學(xué)習(xí)”系統(tǒng)已具備非凡能力，能夠在各種場(chǎng)合代替我們看和聽，并代表我們做決定。但是警鐘已經(jīng)敲響。隨著機(jī)器學(xué)習(xí)飛速發(fā)展，人們的擔(dān)憂也在與日俱增。如果我們訓(xùn)練的人工智能（AI）做的事情與我們真正的目的不符，就會(huì)引發(fā)潛在的風(fēng)險(xiǎn)和倫理問題。研究人員稱之為對(duì)齊問題（the alignment problem）。

暢銷書作家布萊恩·克里斯汀用生動(dòng)的筆調(diào)，清晰闡釋了AI與我們息息相關(guān)的問題。在書中，我們將認(rèn)識(shí)第一批積極應(yīng)對(duì)對(duì)齊問題的學(xué)者，了解他們?yōu)榱吮苊釧I發(fā)展的局面失控，付出的卓絕努力和雄心勃勃的計(jì)劃。克里斯汀不僅精練地描繪了機(jī)器學(xué)習(xí)的發(fā)展史，并且親自深入科研一線同科學(xué)家對(duì)話，準(zhǔn)確呈現(xiàn)了機(jī)器學(xué)習(xí)最前沿的進(jìn)展。讀者可以清晰認(rèn)識(shí)到，對(duì)齊問題研究的成敗，將對(duì)人類的未來產(chǎn)生決定性影響。對(duì)齊問題還是一面鏡子，將人類自身的偏見和盲點(diǎn)暴露出來，讓我們看清自己從未闡明的假設(shè)和經(jīng)常自相矛盾的目標(biāo)。這是一部精彩紛呈的跨學(xué)科史詩，不僅審視了人類的科技，也審視了人類的文化，時(shí)而讓人沮喪，時(shí)而又柳暗花明。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.