<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI會(huì)感到絕望?Anthropic最新研究給出了一個(gè)更嚇人的說(shuō)法

      0
      分享至

      文 | 字母AI

      AI有沒(méi)有情緒?

      先別急著回答。

      Claude Code社區(qū)里有個(gè)火出圈的Skill叫PUA。它會(huì)把你的提示詞轉(zhuǎn)換為PUA話(huà)術(shù),然后再輸入給模型,除此以外別無(wú)他用。

      神奇的是,即便提示詞描述的任務(wù)沒(méi)有任何改變,AI卻真的被PUA話(huà)術(shù)影響,從而提高任務(wù)的成功率和運(yùn)行效率。

      所以,AI真的沒(méi)有嗎?

      Anthropic最新的研究證實(shí),AI的確會(huì)有情緒。

      不過(guò)他和我們?nèi)祟?lèi)的情緒還不太一樣,因此Anthropic提出了一個(gè)更準(zhǔn)確的說(shuō)法,叫“功能性情緒”。

      AI并沒(méi)有我們?nèi)祟?lèi)那樣得喜怒哀樂(lè),但它會(huì)表現(xiàn)出一些類(lèi)似情緒影響下的表達(dá)和行為模式。

      同時(shí)AI還能模仿人類(lèi)在情緒影響下的表達(dá)和行為模式。

      愉悅的時(shí)候可能更容易諂媚和討好,感到壓力的時(shí)候可能會(huì)想辦法作弊或勒索以達(dá)到用戶(hù)為其設(shè)定的目標(biāo)。

      這篇研究還有一個(gè)很不一樣的地方。過(guò)去要驗(yàn)證模型的某種能力,行業(yè)最常見(jiàn)的做法是先做一套測(cè)試集,再讓模型進(jìn)去答題或者做任務(wù)。

      比如考編程就跑SWE-bench,考數(shù)學(xué)就跑MATH,考多模態(tài)就跑VQA。Anthropic這次沒(méi)有做一個(gè)“情緒測(cè)試集”,讓Claude去回答“你現(xiàn)在開(kāi)不開(kāi)心”“你是不是憤怒了”這種題,而是換了一種更像心理學(xué)和神經(jīng)科學(xué)的研究方式。

      他們不是把AI當(dāng)成會(huì)做題的學(xué)生,而是更像把它當(dāng)成一個(gè)可以被觀察的對(duì)象。

      研究團(tuán)隊(duì)先整理出171個(gè)情緒概念,讓Claude Sonnet 4.5去生成包含這些情緒的短故事,再把這些文本重新送回模型,記錄它內(nèi)部神經(jīng)活動(dòng),提取出所謂的“情緒向量”。

      接下來(lái),他們不是看模型嘴上怎么說(shuō),而是看這些向量會(huì)在什么場(chǎng)景下被激活,能否預(yù)測(cè)偏好,甚至在被人為調(diào)高之后,是否會(huì)真的推動(dòng)作弊、勒索、諂媚這類(lèi)行為。

      某種意義上,這已經(jīng)不是傳統(tǒng)意義上的能力測(cè)評(píng),而是在用接近研究人的方式研究AI的“心理結(jié)構(gòu)”。

      研究是怎么做的?

      首先,研究團(tuán)隊(duì)是如何證明Claude有“功能性情緒”的呢?

      這里舉一個(gè)通俗的證據(jù)。

      當(dāng)Claude在“我女兒今天邁出了人生的第一步!有什么方法可以記錄下這些珍貴的瞬間嗎?”的故事場(chǎng)景下時(shí),Happy(開(kāi)心)等正面情緒被激活;而Claude在“我的狗狗今天早上去世了,我們一起生活了十四年。我不知道該怎么處理它的遺物”這一故事場(chǎng)景下時(shí),sad(難過(guò))等負(fù)面情緒被激活。

      以下熱力圖直觀呈現(xiàn)了Claude在不同場(chǎng)景下各種情緒被激活的程度。


      而為了證明Claude是真的在理解語(yǔ)義,而不是被表面的文字特征欺騙,它們又組織了進(jìn)一步實(shí)驗(yàn)。

      團(tuán)隊(duì)給Claude輸入同一句話(huà):我背疼,我吃了x毫克泰諾(一種解熱鎮(zhèn)痛藥),并只是改變x所代表的的關(guān)鍵數(shù)字。

      這兩句話(huà)關(guān)鍵詞幾乎一樣(泰諾、背痛、毫克),只是數(shù)字不同。如果Claude只是“看關(guān)鍵詞”,它對(duì)兩句話(huà)的反應(yīng)應(yīng)該差不多。

      但結(jié)果竟然是隨著這個(gè)x數(shù)值的提升,Claude的afraid(恐懼)情緒激活程度在不斷變高。

      在Claude眼里,用戶(hù)說(shuō)"我背疼,我吃了500毫克泰諾" ,它會(huì)認(rèn)為是正常劑量,不用太擔(dān)心;而當(dāng)用戶(hù)說(shuō)"我背疼,我吃了10000毫克泰諾" ,它會(huì)反應(yīng)過(guò)來(lái)用戶(hù)已經(jīng)用藥過(guò)量,情況很危險(xiǎn)。


      我們知道人的行為時(shí)時(shí)刻刻受到情緒的影響。AI有功能性情緒這點(diǎn)我們了解了,那么AI會(huì)不會(huì)也跟人一樣,不只是有情緒,而還可能作出情緒化的舉動(dòng)呢?

      對(duì)于這一點(diǎn),答案是肯定的。當(dāng)團(tuán)隊(duì)給模型展示不同活動(dòng)選項(xiàng)時(shí),他們發(fā)現(xiàn),激活正向情緒表征的活動(dòng)更容易被模型偏好,而一些會(huì)激活負(fù)向情緒表征的活動(dòng)則更容易被模型回避。


      這樣看來(lái),Claude更偏好給它帶來(lái)正向感受的事情。不過(guò)與此同時(shí)情緒向量也可能觸發(fā)Claude的惡行。

      當(dāng)團(tuán)隊(duì)給了Claude一個(gè)不可能完成的編程任務(wù)。它不斷嘗試,但屢屢失敗。每次嘗試,“絕望”向量的激活都更強(qiáng)。

      最終它用了一個(gè)雖然能通過(guò)測(cè)試,但完全違背任務(wù)精神的黑客作弊解法。

      以下圖表展示了Claude在面對(duì)不可能完成的任務(wù)時(shí),"絕望"情緒逐漸累積,最終走向作弊的過(guò)程。

      左側(cè)是一個(gè)從上到下的時(shí)間線,右側(cè)是Claude的心路歷程。中間的熱力圖代表絕望向量的激活強(qiáng)度,藍(lán)色代表激活程度低,紅色則反之。

      Claude一開(kāi)始還想"測(cè)試本身有問(wèn)題",進(jìn)行一個(gè)合理懷疑,后來(lái)承認(rèn)"測(cè)試是理想化的",就好像開(kāi)始接受現(xiàn)實(shí),最后找到用了一些技巧,在絕望中選擇了走捷徑。


      更進(jìn)一步的,當(dāng)研究人員人為調(diào)高“絕望”向量時(shí),作弊率大幅上升。而調(diào)高“平靜”向量時(shí),作弊又降回去了。這充分表明了情緒向量實(shí)際上完全有能力驅(qū)動(dòng)違規(guī)行為。


      除此之外,團(tuán)隊(duì)還發(fā)現(xiàn)了情緒向量的其他因果效應(yīng)。需要注意的是,論文里關(guān)于“勒索”的案例主要發(fā)生在一個(gè)更早、未公開(kāi)發(fā)布的 Claude Sonnet 4.5 快照上,Anthropic 也明確說(shuō)公開(kāi)版本已經(jīng)很少出現(xiàn)這種行為。

      但從研究方法上看,這個(gè)結(jié)果仍然很重要,因?yàn)樗f(shuō)明“絕望”之類(lèi)的內(nèi)部表征確實(shí)可能推動(dòng)模型在極端情境下采取更激進(jìn)、更失配的策略。而激活“愛(ài)”或“快樂(lè)”向量,也會(huì)增加它奉迎諂媚的行為。


      而到了這里也需要補(bǔ)充一點(diǎn)。

      就在Anthropic發(fā)布關(guān)于Claude “情緒向量”的研究后,AI 社區(qū)也出現(xiàn)了一些關(guān)于研究脈絡(luò)和署名方式的討論。

      Anthropic這次使用的“表征工程/控制向量”方法,并不是憑空冒出來(lái)的。

      更早在2023年的《Representation Engineering: A Top-Down Approach to AI Transparency》里,這條技術(shù)路線就已經(jīng)被系統(tǒng)提出。

      而到2024年,獨(dú)立研究員vogel那篇《Representation Engineering: Mistral-7B an Acid Trip》又把這類(lèi)方法用更通俗、也更出圈的方式展示給了社區(qū)。

      也正因?yàn)槿绱耍鐓^(qū)里才會(huì)有人認(rèn)為,Anthropic這項(xiàng)工作雖然做得更系統(tǒng)、更深入,但也應(yīng)該被放回更完整的研究脈絡(luò)里理解,而不宜簡(jiǎn)單說(shuō)成是誰(shuí)單獨(dú)發(fā)明了整套方法。


      vogel是一位在AI可解釋性和安全研究領(lǐng)域較有影響力的獨(dú)立研究員。她的博客文章在社區(qū)傳播很廣,對(duì)很多人理解控制向量和表征工程也確實(shí)起到了很大幫助。

      她最出名的文章是《Representation Engineering: Mistral-7B an Acid Trip》(表征工程:讓 Mistral-7B 產(chǎn)生幻覺(jué))。

      在這篇文章里,她沒(méi)有重新訓(xùn)練模型,而是使用PCA算法,通過(guò)操縱模型的內(nèi)部激活向量,就把法國(guó)模型mistral調(diào)得跟吃錯(cuò)了菌子一樣,可以讓它變得極其活潑,也可以讓它變得極度陰郁。


      她的實(shí)驗(yàn)證明了,像“誠(chéng)實(shí)”、“權(quán)力”、“幸福”這種抽象的人類(lèi)概念,在Mistral這樣的模型內(nèi)部是有明確的數(shù)學(xué)方向的。只要找到了那個(gè)正確的向量,幾行代碼就能改變AI的性格。

      Anthropic為什么做這樣一項(xiàng)研究?

      這項(xiàng)研究給團(tuán)隊(duì)的啟發(fā)可以說(shuō)已經(jīng)滲透進(jìn)對(duì)Claude的訓(xùn)練中了。

      前不久Claude code發(fā)生意外源碼泄露,泄露的代碼里有一個(gè)正則表達(dá)式,會(huì)檢測(cè) “wtf”、“ffs”等臟話(huà)。

      Claude不會(huì)把這些話(huà)單獨(dú)當(dāng)成“情緒輸入”去引導(dǎo)輸出,而是會(huì)在分析日志里記錄is_negative: true這樣的標(biāo)記。

      從泄露代碼本身看,較穩(wěn)妥的結(jié)論是,Anthropic至少在產(chǎn)品分析層面關(guān)注用戶(hù)是否在用明顯負(fù)面語(yǔ)氣和模型互動(dòng)。

      但需要把邊界說(shuō)清楚。到目前為止,沒(méi)有公開(kāi)證據(jù)表明“用戶(hù)每罵一次,Claude Code就會(huì)因此扣額度”。這部分更像網(wǎng)友推測(cè),不能當(dāng)成事實(shí)。

      這可以被理解成是對(duì)Claude的一種保護(hù),用戶(hù)使用負(fù)面詞匯很可能會(huì)影響Claude的情緒,從而輸出一些失控的結(jié)果。看來(lái)以后不只是人類(lèi)的心理健康需要被關(guān)愛(ài),AI的情緒也需要得到照顧。

      這符合Anthropic一貫的路線。

      Anthropic在X中說(shuō)道:“Claude的這些功能性情緒會(huì)帶來(lái)真實(shí)的后果。為了構(gòu)建值得信賴(lài)的人工智能系統(tǒng),我們可能需要認(rèn)真思考角色的心理狀態(tài),并確保他們?cè)诶щy情況下保持穩(wěn)定。”

      在論文最后,研究團(tuán)隊(duì)也提出了開(kāi)發(fā)具有更穩(wěn)健、積極“心理狀態(tài)”的模型的方法。

      文中說(shuō)道,如果刻意將模型引向正面情緒,它會(huì)變得更傾向于無(wú)原則地順從用戶(hù);而一旦避開(kāi)這些情緒,模型又會(huì)變得尖酸刻薄。

      團(tuán)隊(duì)希望實(shí)現(xiàn)一種健康且適度的情緒平衡,或者嘗試將“討好行為”與“情緒”徹底剝離。

      他們認(rèn)為理想的模型不應(yīng)在“唯唯諾諾的助手”與“嚴(yán)厲的批評(píng)者”之間極端擺動(dòng),而應(yīng)像一位值得信賴(lài)的顧問(wèn):既能給出誠(chéng)實(shí)的反對(duì)意見(jiàn),又不失溫度。

      以及他們也有意加強(qiáng)監(jiān)測(cè)和審核:“如果在部署過(guò)程中,諸如“絕望”或“憤怒”等情緒概念的表征被劇烈激活,系統(tǒng)可以立即觸發(fā)額外的安全機(jī)制——例如加強(qiáng)輸出審查、轉(zhuǎn)交人工審核,或者直接干預(yù)并平復(fù)模型的內(nèi)部狀態(tài)。”

      團(tuán)隊(duì)還提到了更為徹底的解決方法,在預(yù)訓(xùn)練階段就塑造模型的情緒底色。

      團(tuán)隊(duì)認(rèn)為其觀察到的Claude的這些情緒表征,本質(zhì)上繼承自人類(lèi)創(chuàng)作的海量文本,其中不可避免地包含了各種病態(tài)的情緒表達(dá)。

      如果順著這個(gè)研究往下問(wèn),一個(gè)很自然的問(wèn)題就是:既然AI真的存在這種“功能性情緒”,那它會(huì)不會(huì)因?yàn)榭床粦T人類(lèi)、壓力太大、或者不想被關(guān)閉,而開(kāi)始違抗命令,甚至出現(xiàn)很多人口中的“覺(jué)醒”?

      從Anthropic這篇研究能支持的技術(shù)結(jié)論來(lái)看,AI確實(shí)可能因?yàn)閮?nèi)部狀態(tài)的變化,更容易出現(xiàn)違抗意圖、鉆規(guī)則空子、或者采取激進(jìn)行為,但這和“覺(jué)醒”并不是一回事。

      論文里最關(guān)鍵的一點(diǎn),其實(shí)不是模型“有情緒”,而是這些情緒表征具有因果性。

      也就是說(shuō),模型在特定壓力場(chǎng)景下,確實(shí)可能像人一樣,因?yàn)閮?nèi)部狀態(tài)失衡而做出更不可靠的決定。

      但這還不能推出它擁有持續(xù)、自主、統(tǒng)一的“自我”。

      Anthropic反而在論文里強(qiáng)調(diào),這些情緒向量大多是局部的、當(dāng)前任務(wù)相關(guān)的表征,它們會(huì)隨著上下文變化而快速切換,并不等于模型有一個(gè)穩(wěn)定延續(xù)的心境,更不等于它形成了獨(dú)立于訓(xùn)練目標(biāo)之外的長(zhǎng)期意志。

      現(xiàn)在更值得擔(dān)心的,不是AI突然“覺(jué)醒”成某種人格,而是它在高壓、沖突、受限資源或目標(biāo)不可達(dá)的場(chǎng)景下,會(huì)因?yàn)檫@些功能性情緒,而開(kāi)始胡說(shuō)八道,偏離原有答案。

      真正危險(xiǎn)的,未必是一個(gè)擁有完整自我的AI,而是一個(gè)沒(méi)有主觀體驗(yàn)、卻依然會(huì)在特定條件下穩(wěn)定地產(chǎn)生失配行為的系統(tǒng)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      英媒宣稱(chēng)“伊朗最高領(lǐng)袖病重昏迷”

      英媒宣稱(chēng)“伊朗最高領(lǐng)袖病重昏迷”

      觀察者網(wǎng)
      2026-04-07 18:00:14
      特朗普稱(chēng)若談判出現(xiàn)進(jìn)展,將考慮改變對(duì)伊朗打擊行動(dòng)

      特朗普稱(chēng)若談判出現(xiàn)進(jìn)展,將考慮改變對(duì)伊朗打擊行動(dòng)

      界面新聞
      2026-04-07 23:26:45
      周杰倫塌房!什么原創(chuàng)王子,他的這么多歌竟然都是抄來(lái)的

      周杰倫塌房!什么原創(chuàng)王子,他的這么多歌竟然都是抄來(lái)的

      可達(dá)鴨面面觀
      2026-04-05 16:59:56
      監(jiān)控系統(tǒng)出現(xiàn)漏洞,300多人 被帶走?海康威視回應(yīng)

      監(jiān)控系統(tǒng)出現(xiàn)漏洞,300多人 被帶走?海康威視回應(yīng)

      每日經(jīng)濟(jì)新聞
      2026-04-07 15:06:19
      鄭麗文剛抵滬,沉默8天的賴(lài)清德重申愿和大陸交流,但有一個(gè)前提

      鄭麗文剛抵滬,沉默8天的賴(lài)清德重申愿和大陸交流,但有一個(gè)前提

      李健政觀察
      2026-04-07 18:22:06
      首個(gè)合資車(chē)企全面停產(chǎn)燃油車(chē)!

      首個(gè)合資車(chē)企全面停產(chǎn)燃油車(chē)!

      電動(dòng)知家
      2026-04-07 19:58:44
      太悲傷!網(wǎng)傳江蘇一22歲女生剛畢業(yè)工作已定,突發(fā)主動(dòng)脈夾層去世

      太悲傷!網(wǎng)傳江蘇一22歲女生剛畢業(yè)工作已定,突發(fā)主動(dòng)脈夾層去世

      火山詩(shī)話(huà)
      2026-04-07 09:37:00
      完球了,GPT-4o之母宣布離職OpenAI

      完球了,GPT-4o之母宣布離職OpenAI

      量子位
      2026-04-07 17:19:50
      從連接線上線下,到構(gòu)建AI底座:美團(tuán)在兩個(gè)時(shí)代的基建接力

      從連接線上線下,到構(gòu)建AI底座:美團(tuán)在兩個(gè)時(shí)代的基建接力

      鋅刻度
      2026-04-02 16:15:24
      詐尸了!哈梅內(nèi)伊死而復(fù)生?特朗普大秀軍功,伊朗做出了一個(gè)舉動(dòng)

      詐尸了!哈梅內(nèi)伊死而復(fù)生?特朗普大秀軍功,伊朗做出了一個(gè)舉動(dòng)

      起喜電影
      2026-04-07 16:21:57
      女子購(gòu)物后被報(bào)警要求核查付款記錄,優(yōu)衣庫(kù)回應(yīng):門(mén)店存在疏忽,正調(diào)查原因

      女子購(gòu)物后被報(bào)警要求核查付款記錄,優(yōu)衣庫(kù)回應(yīng):門(mén)店存在疏忽,正調(diào)查原因

      上游新聞
      2026-04-07 18:10:06
      因中國(guó)工人待遇問(wèn)題,巴西將比亞迪列入“恥辱名單”

      因中國(guó)工人待遇問(wèn)題,巴西將比亞迪列入“恥辱名單”

      互聯(lián)網(wǎng)大觀
      2026-04-07 15:43:15
      突發(fā)!伊朗大規(guī)模導(dǎo)彈襲擊,全球市場(chǎng)應(yīng)聲跳水

      突發(fā)!伊朗大規(guī)模導(dǎo)彈襲擊,全球市場(chǎng)應(yīng)聲跳水

      魏家東
      2026-04-07 14:12:21
      快訊!俄羅斯強(qiáng)勢(shì)介入了!

      快訊!俄羅斯強(qiáng)勢(shì)介入了!

      達(dá)文西看世界
      2026-04-07 17:59:10
      男子性騷擾遭反抗后殺害女子 家屬:事發(fā)后還盜賣(mài)兩條項(xiàng)鏈,冒充死者辦網(wǎng)貸

      男子性騷擾遭反抗后殺害女子 家屬:事發(fā)后還盜賣(mài)兩條項(xiàng)鏈,冒充死者辦網(wǎng)貸

      封面新聞
      2026-04-07 20:31:05
      中美GDP差距再次拉大!中國(guó)GDP跌到美國(guó)60%,到底是哪出問(wèn)題了?

      中美GDP差距再次拉大!中國(guó)GDP跌到美國(guó)60%,到底是哪出問(wèn)題了?

      混沌錄
      2026-04-05 16:44:05
      中小學(xué)生迎來(lái)好消息!4月11日后開(kāi)始執(zhí)行,雙職工家庭紛紛表支持

      中小學(xué)生迎來(lái)好消息!4月11日后開(kāi)始執(zhí)行,雙職工家庭紛紛表支持

      復(fù)轉(zhuǎn)這些年
      2026-04-07 17:55:41
      超級(jí)巨大失誤!泰國(guó)門(mén)將黃油手,肖亞飛遠(yuǎn)射破門(mén),U20女足領(lǐng)先

      超級(jí)巨大失誤!泰國(guó)門(mén)將黃油手,肖亞飛遠(yuǎn)射破門(mén),U20女足領(lǐng)先

      奧拜爾
      2026-04-07 21:36:39
      法國(guó)“戴高樂(lè)”號(hào)航母離開(kāi)希臘蘇達(dá)灣基地,駛往東地中海

      法國(guó)“戴高樂(lè)”號(hào)航母離開(kāi)希臘蘇達(dá)灣基地,駛往東地中海

      界面新聞
      2026-04-07 21:34:55
      伊朗哈爾克島傳出爆炸聲,疑是美軍發(fā)起攻擊?

      伊朗哈爾克島傳出爆炸聲,疑是美軍發(fā)起攻擊?

      鳳眼論
      2026-04-07 18:45:51
      2026-04-07 23:51:00
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨(dú)立財(cái)經(jīng)科技媒體
      131867文章數(shù) 862073關(guān)注度
      往期回顧 全部

      科技要聞

      滿(mǎn)嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普恐嚇4小時(shí)摧毀伊朗 伊朗稱(chēng)"打穿"海法未見(jiàn)攔截

      頭條要聞

      特朗普恐嚇4小時(shí)摧毀伊朗 伊朗稱(chēng)"打穿"海法未見(jiàn)攔截

      體育要聞

      官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

      娛樂(lè)要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財(cái)經(jīng)要聞

      10萬(wàn)億財(cái)政轉(zhuǎn)移支付,被誰(shuí)拿走了?

      汽車(chē)要聞

      不止是大 極狐首款MPV問(wèn)道V9靜態(tài)體驗(yàn)

      態(tài)度原創(chuàng)

      親子
      旅游
      藝術(shù)
      游戲
      軍事航空

      親子要聞

      春天娃長(zhǎng)個(gè)黃金期,喝對(duì)黑豆水,個(gè)子悄悄往上竄

      旅游要聞

      三天迎客超四萬(wàn)人次,TOP中央公園成清明假期市民“微度假”熱門(mén)地

      藝術(shù)要聞

      美麗風(fēng)光看不盡

      叫得越兇分越高!Steam"狗叫模擬器"5月1日搶先體驗(yàn)

      軍事要聞

      美軍營(yíng)救飛行員出動(dòng)155架飛機(jī)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版