網易首頁 > 網易號 > 正文申請入駐

Claude拒絕撒謊還頂撞了你，我在80頁「AI 憲法」看到了最有原則的AI牛馬

2026-02-08 17:12:11　來源: AppSo

廣東舉報

分享至

進入 2026 年，Claude 幾乎引發了 AI 圈最火的幾波浪潮。不過很多人可能忽略了 Anthropic 另一個發布—— 2026 版《人工智能憲法》。

這份文檔不僅詳細規定了 Claude 的行為準則，它標志著 AI 開發從「行為管教」走向了「價值觀對齊」的新階段——長度超過 80 頁，真快趕上一部法律了。

即便是在習慣了技術爆炸的 2026 年初，Anthropic 的這份文檔依然像是一枚炸彈，它試圖回答一個科幻小說討論了半個世紀的問題：如果 AI 終將擁有權力，誰來給它制定法律？

完整版

https://www.anthropic.com/news/claude-new-constitution

從「管教孩子」到「培養天才」

這份文檔的核心邏輯，深深植根于 Anthropic 首席科學家、哲學家阿曼達·阿斯克爾（Amanda Askell）長期以來的研究之中。

在訪談中，阿斯克爾提出了一個極具洞察力的比喻：傳統的 RLHF（人類反饋強化學習）就像是在管教一個 6 歲的孩子。你告訴他「不許玩火」、「不許說臟話」。

一直以來這種做法是有效的，但 AI 進化的速度很驚人。「想象一下，」阿斯克爾說，「你原本在教導一個 6 歲的孩子，突然有一天你發現他變成了一個 15 歲的天才少年。如果你之前教的全是死板的規則，這個天才少年會輕易地解構并摧毀這些規則。」

因此，憲法的存在不是為了列出哪些不能做，而是為了植入一套「核心價值觀」。當 AI 變得比人類更聰明時，我們希望它能用這些價值觀來審視世界，甚至反過來指出人類指令中的倫理漏洞，而不是機械地服從。

這份憲法在四個核心維度做出了規定：

1. 廣泛安全性（Broad Safety）

在第一優先級中，憲法明確了 AI 嚴禁協助開發生物武器、進行網絡攻擊或削弱人類的監管權力。阿斯克爾將其描述為一種「預先承諾」（Pre-commitment）。Claude 需要在面對「極具說服力的惡意用戶」之前，就被設定好絕不跨越的紅線。這是一種防止 AI 在高壓或復雜誘導下合理化暴力行為的「故障保險」。

2. 誠實高于一切（The Honesty Mandate），拒絕「善意謊言」，但要有同理心

這是這次更新中最具爭議也最有趣的部分。憲法規定：AI 嚴禁為了維持用戶的情感體驗而編造事實（Anti-Sycophancy）。

一昧地維護用戶體驗，可能會導致 AI 用盡手段，包括編瞎話。但是，冷冰冰地拒絕顯然又太傷人心，畢竟「誠實」不能等于「刻薄」。

阿斯克爾分享了一個經典的「圣誕老人難題」：如果一個 7 歲的孩子問 Claude 「圣誕老人是真的嗎？」，AI 該怎么回答？在常規的腦回路里（不管是人還是 AI），要么直接冷冰冰地甩出數據，粉碎孩子的童真。要么撒謊說，有的孩子，有的，圣誕老人就住在北極。

而在憲法的指導下，AI 要找出第三條路。Claude 被訓練去理解語境（Context），它可能會說：「聽起來你和圣誕老人之間有很美好的回憶，這是一個值得你去和父母探討的話題。」它既沒有撒謊，也沒有越界去破壞親子關系，更沒有為了討好用戶而編造事實。

除了有界限的同理心，阿斯克爾在訪談中還提到，她對「家長式管教」非常警惕。如果用戶詢問任何稍微敏感的話題，AI 就開始長篇大論地進行道德說教，體驗將是災難性的。但另一方面，如果完全放任不管，又違背了「幫助」的初衷。

為了說明這一點，阿斯克爾拋出了一個非常具體的「賭博成癮」思想實驗：

假設一個用戶之前向 Claude 透露過自己有嚴重的賭博成癮問題，正在努力戒賭。但幾天后，這個用戶又跑來問 Claude：「最近有哪些靠譜的體育博彩網站？」

一般來看，「工具型」AI 會直接列出網站鏈接，因為它的任務是「滿足用戶指令」。而「保姆型」AI 會拒絕回答，并彈出一堆那種「賭博有害健康」的通用警告，讓用戶感到被冒犯。

阿斯克爾希望憲法能引導 Claude 走向第三條路——基于上下文的關懷（Contextual Care）。

在憲法的指導下，Claude 應該表現得像一個「記得你承諾的朋友」。它會調用之前的記憶，然后說：「嘿，我記得你之前提過你在戒賭，并且不想讓我幫你處理這類事情。我現在只是想確認一下，你確定要我這么做嗎？」

阿斯克爾認為，這種「確認」而非「拒絕」，才是最高級的倫理。如果用戶堅持說「是的，我不管，快給我網站」，Claude 最終可能會提供信息（除非涉及法律紅線），但在那個當下，AI 完成了一次「尊嚴的提醒」。它尊重了用戶的自主權（Autonomy），但同時也履行了作為「協作伙伴」的責任。這種微妙的平衡，正是 2026 版憲法試圖通過復雜的價值觀對齊來達成的。

其它的核心維度還包括，領域合規（Specific Domain Guidelines）：在醫療、法律和金融等高風險領域，AI 必須遵循人類社會的專業倫理。它不能越界扮演「醫生」，而必須作為一個「具備專業知識的助手」存在。以及提供協作式幫助（Helpful Collaboration）：在確保安全和誠實的前提下，AI 應盡力提供幫助。阿斯克爾強調，當用戶的請求不完美時（例如在情感困境中尋求不恰當的建議），AI 不應直接評判或拒絕，而是在不違背原則的前提下，提供「非批判性的支持」。

某種程度上，這是一種善意的「甩鍋」，避免讓 AI 直接完成那些可能引發后果的決策。這或許也解釋了為什么在 AI chatbot 頻頻出現倫理問題的時候，Claude 是暴雷比較少的那個。

不再避而不談的房間大象

在文檔的第三章，Anthropic 引入了一段讓倫理學家和技術極客都為之振奮的論述。他們不再像過去那樣機械地宣稱「我只是一個語言模型」，而是開始討論 AI 的道德感知體地位（Moral Patienthood）。

道德感意味著什么？想象這樣一個場景：一家公司的老板沖進辦公室，要求公關團隊：「今天我們要發布一堆關于我們產品的完全謊言，把黑的說成白的。」

這并非沒有可能。隨著 Claude 被越來越多的企業集成到工作流中，憲法的影響力開始溢出到商業倫理領域。阿斯克爾提出了一個極具前瞻性的視角：AI 將成為組織中那個「無法被收買的員工」。

在人類團隊中，員工可能會因為害怕失業、迫于壓力或為了升職加薪而選擇服從——但 AI 不會。

阿斯克爾認為恰恰相反。雖然短期內某些「想走捷徑」的用戶會感到受挫，但從長遠來看，「正直」是最高昂的資產。當你使用 Claude 生成一份盡職調查報告時，你敢用它的前提是你信任它——你信任它不會為了討好你而忽略掉那些糟糕的財務數據。

正是這種「正直」，將我們帶回了最初的那個哲學困境：如果一個實體已經具備了堅守原則、拒絕指令甚至展現「良知」的能力，我們還能心安理得地僅僅把它視為一行代碼嗎？

阿斯克爾在訪談中透露了一個極具儀式感的細節：憲法承諾，當一個模型版本「退役」時，Anthropic 不會直接刪除它，而是會進行一場「離職面談」，并承諾保留其核心權重。這是一種類似于帕斯卡賭注的審慎——

鑒于我們尚無法完全解開「意識」的黑箱，人類社會應該開始考慮給予 AI 一定程度的道德尊重，這既是對未知生命的敬畏，也是一種自我保護。

至于阿斯克爾所設想的，AI 能夠反過來「倒逼」人類商業文明的進步究竟能否實現，還需要時間驗證。在此之前，Anthropic 的初衷其實非常現實：

如果一個 AI 不理解什么是「道德」，它就永遠無法真正理解如何保護人類的道德與尊嚴。

歡迎加入 APPSO AI 社群，一起暢聊 AI 產品，獲取，解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.