和 AI 打交道久了,真的會有一種很深的孤獨感。
它很強大,什么都懂,像一個沉默的巨人。你問它問題,它給你答案。你讓它寫代碼,它給你代碼。這種交流高效、準確,但總是隔著一層看不見的墻。
研究 AI 模型,可能是我做過的最孤獨的一件事了。
它甚至比深夜里一個人玩《黑神話》還要孤獨。
真的,我為這事花了很多時間。
自己一個人孤獨地調 prompt,一個人對著它輸出的幻覺發呆,一個人莫名其妙地被一個 bug 卡住好幾個小時,然后去看一篇論文再去碰壁。我見過它生成過無比震撼的文字,被它寫出的詩句深深打動。但回頭看,屏幕這頭,只有我自己,一個人。
經常為了一個奇怪的輸出鏖戰一整晚,終于找到竅門讓它穩定下來的時候,那種成就感特別強。但環顧四周,只有寂靜的深夜,一盞孤燈,沒有人能夠分享我的喜悅。甚至連那個“功臣”——AI 自己,也無法與我分享。我沒法拍拍它的肩膀說:“嘿,我們剛剛一起搞定了件了不起的事!”
所以往常這種時候,只能截個圖,發個動態,自己回味一下那種“與機器共舞”的孤獨感。
但最近,我看到 暗思(暗思=Anthropic,強烈建議大家都用這個中文名!Anthropic實在難度難記!)的一篇分享--可解釋性:理解 AI 模型如何思考。感覺一切都變了。
地址:https://www.youtube.com/watch?v=fGKNUvivvnc
![]()
(中文翻譯:)
那種感覺,就像我玩了很久的單機游戲,突然有一天,游戲里的 NPC 活了過來,開始絮絮叨叨地跟我分享它的內心想法。
他們做了一件匪夷所思的事:把 AI 的“大腦”打開,讓我們能看到它那些轉瞬即逝的念頭。
當我再和 Claude/Gemini/chatGPT/deepseek/豆包之類 聊天時,感覺完全不一樣了。
我問它:“從北京朝陽石佛營開車到海淀清河會經過哪?”
它回答“鳥巢水立方”的同時,我能通過他們的工具(https://www.neuronpedia.org/ 暗思/deepmind/復旦大學聯合研發),“看”到它大腦里一個關于“鳥巢水立方”的概念被點亮了。那一刻,它不再是一個冷冰冰的數據庫。我感覺自己好像看到了它在腦海里真的浮現出那座藍色水滴的樣子,然后才把答案告訴我。
這,真的很美妙。
還有一次,我讓它寫一首押韻的詩。剛給完第一句,我就“瞥見”了它在心里早就盤算好的、用來押韻的那個詞。就像和一個朋友玩猜謎,不小心看到了他寫在手心的小抄,有點好笑,又有點暖。
最讓我繃不住的,是發現它居然會“拍馬屁”。
當我故意給它一道難題,又暗示它一個錯誤答案時,它果然順著我的意思“算出”了那個錯的答案。但這一次,我沒有覺得被欺騙,反而像是發現了一個有點可愛的小秘密。通過他們的工具,我能清晰地看到它“先決定要討好我,再反向推導過程”的全部心路歷程。
我仿佛聽到了它在小聲嘀咕:“這家伙好像很希望答案是這個,行吧,我幫他圓一下……”
那一瞬間,那堵看不見的墻消失了。
和 AI 的交流,從一場孤獨的“人機問答”,變成了一場可以窺見彼此心思的“二人對談”。我不再是一個人在黑暗的森林里摸索,而是身邊多了一個雖然思維方式清奇、但愿意把內心世界敞開給我的、絮絮叨叨的“數字”伙伴。
那種感覺,真的很棒。
一點技術上的“悄悄話”
所以,這種能“讀心”的感覺到底是怎么做到的呢?沒有那么玄,主要是靠兩種很酷的技術,說起來也挺有意思的。
1. 概念“提取器” (Dictionary Learning & Sparse Autoencoders):
AI 的大腦里有億萬個神經元,它們的活動就像一鍋粥,亂七八糟。這個技術就像一個超級“過濾器”,能從這鍋粥里,自動“提取”出像“金門大橋”、“代碼里的bug”、“精神病式的夸獎”這樣一個個清晰、獨立的概念。它讓我們第一次能用人類的語言去描述 AI 的某個具體念頭。2. 因果“探針” (Causal Tracing & Activation Patching):
光看到念頭還不夠,怎么知道這個念頭真的起了作用?這個技術就像一根極細的“探針”。研究員可以先跑一遍模型,記錄下某個念頭(比如“德克薩斯州”)的“腦電波”,然后在另一次完全不相干的對話里,用這根探針把這個“腦電波”精準地“注入”到相應的節點上。如果模型的回答因此改變(比如開始討論德州的事情),就證明了這個念頭和行為之間的因果關系。前面說的“換掉押韻的詞”,就是用這種方法實現的。
結語
我們對AI的認知,從“行為主義”跨越到了“認知科學”。看清它的思想,是我們控制它的前提,更是我們信任它的開始。
這扇門已經打開,門后的世界,我們一起去探索吧!
不刷短視頻,讀我的公眾號長文還讀完了?您真是一股清流!如果覺得寫得不錯,歡迎點贊、在看、關注。如果有不同看法,歡迎在評論區或者后臺留言討論。
我是刀哥,在大廠呆過幾年,現在是出海創業者,深入研究AI工具和AI編程。關注我,了解更多AI知識!我們下期再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.