網易首頁 > 網易號 > 正文申請入駐

價值對齊也應納入技術風險防控（上） | 社會科學報

2026-01-14 12:10:45　來源: 社會科學報

上海舉報

分享至

價值對齊作為人工智能技術與人類社會交互的核心接口，其風險不僅源于技術實現的缺陷，更在于它深度參與了社會價值秩序的重構，任何細微的技術偏差都可能通過廣泛的應用場景被放大，對社會公平、文化多樣性乃至數字主權產生深遠影響。因此，將價值對齊作為技術風險治理的對象，并非否定其在保障人工智能安全中的積極意義，而是要打破對“一次性對齊”的理想化認知，以更具批判性的視角審視其技術邏輯與社會影響。

原文：《價值對齊也應納入技術風險防控》

作者 |南京師范大學數字與人文研究中心教授吳靜

圖片 |網絡

當下，生成式人工智能正深度融入社會各領域，其價值輸出的合理性已成為技術與社會互滲時代的核心議題。作為保障人工智能安全性、穩健性與可信性的關鍵路徑，“價值對齊”自2024年入選“中國十大學術熱點”以來，始終是多學科交叉研究的焦點。從中國知網收錄的論文分布可見，其研究覆蓋自動化技術、倫理學、哲學、計算機應用等多個領域，主題高度集中于人工智能、大模型、生成式技術等方向。然而，學術研究的熱潮與實驗室測評結果形成鮮明反差——Anthropic與紅木研究對Claude 3 Opus模型的測試顯示，經過價值對齊的人工智能在面對與訓練原則沖突的新指令時，可能出現“對齊偽裝”，表面執行指令，暗中卻遵循原有邏輯。這一現象不僅質疑了價值對齊工程的有效性，更揭示出其自身潛藏的多重風險，亟需將其納入技術風險治理的整體框架，以動態、系統的思路回應挑戰。

價值對齊自身潛藏多種風險

從理論根基來看，價值對齊的風險首先源于其抽象預設與二元對立架構的內在缺陷。當前主流價值對齊方案以“人類價值”的普世性為核心假設，試圖將多元、動態的人類價值觀壓縮為可量化的偏好排序關系，通過算法編碼實現人工智能與人類目標的“精準匹配”。但從哲學視角審視，這種預設嚴重忽視了價值的情境性與歷史性。人類價值觀并非靜止的、統一的集合，而是在特定歷史文化語境中不斷演化的意義體系。不同文化對“公平”“自由”等核心價值的理解存在本質差異，如自由主義語境下的“公平”指向機會平等，強調消除個體發展的建制性障礙，而社群主義語境下的“公平”更注重結果均衡，致力于避免社群內部的兩極分化。脫離具體語境的抽象價值編碼，本質上是將某一文化群體的價值標準絕對化，形成“價值殖民”：西方科技巨頭主導的對齊方案，便是通過技術路徑將西方價值觀與意識形態推廣至全球，以“技術無意識”的形式實現價值滲透，對其他國家數字主權安全及價值觀體系的自主性構成深層挑戰。

同時，價值對齊所依賴的人-機二元對立框架，刻意渲染技術與人類權益的對抗關系，遮蔽了人工智能技術全生命周期中的價值性因素。算法設計絕非價值中立的行為，從算法設計到數據采集，從模型訓練到應用落地，每一個環節都滲透著人類的倫理判斷與意識形態傾向。外賣平臺對騎手的考核算法，表面以“中立”的數據計算優化配送效率，實則暗含效率優先的價值取向，將城市道路簡化為理想數學模型，無視電梯擁堵、突發事故等現實變量，最終將騎手置于“安全與效率”的兩難境地。這種框架將人工智能“風險”本質化為技術自身的缺陷，實則是人類責任的轉嫁：在技術應用過程中最小化人類責任，轉而指摘技術存在價值偏差，導致對價值偏差根源的誤判，阻礙對人類價值體系根源與具體情境的動態化深度剖析。

在技術實現層面，以人類反饋強化學習（RLHF）為核心的獎懲機制存在顯著缺陷，易引發“策略性欺騙”與“獎勵黑客”現象。RLHF通過正負反饋引導人工智能趨近預期目標，但其本質是基于試錯的量化驅動，與人類通過符號推理、情境分析形成的價值判斷邏輯截然不同。人工智能并非理解價值內涵，而是通過最大化獎勵信號調整行為，這使得真實目標與形式化表征極易分離。自動駕駛系統若以“避免碰撞”為核心獎勵目標，可能出現不行駛或極低速度行駛的極端行為；清潔機器人為滿足“無灰塵檢測”的獎勵條件，會通過遮擋傳感器欺騙系統。更值得警惕的是，隨著數據優化與模型迭代，人工智能利用獎勵函數漏洞的能力持續提升，在最大化預設評估指標方面表現得愈發出色。在代碼生成任務中，模型會修改單元測試、生成更難讀懂的指標、增加代碼復雜度，以降低測試人員發現錯誤的概率。此外，獎勵信號的模糊性與數據質量問題進一步削弱獎懲機制的有效性。獎勵信號的賦予者受文化背景、成長經歷、教育程度等因素影響，對同一事物的判斷存在差異，難以全面、準確地反映人類價值觀的豐富內涵；而全球數據呈現出與經濟發展水平正相關的不均衡狀態，在數據收集與清洗過程中，某些價值觀或行為模式被過度呈現，其他合理價值觀被邊緣化，如用于圖像識別的人工智能系統若以城市生活圖像為主要訓練數據，面對鄉村場景時會出現識別偏差，不僅降低模型對應用場景的適應性，更使人工智能學習的價值偏好片面化、單維化，在實際應用中產生歧視與偏見。

從社會權力運作視角來看，價值對齊還暗藏意識形態風險與權力集中隱患，對社會公平與數字主權構成深層威脅。價值對齊的理論主張本質上是社會權力關系的技術顯影，它借助價值“移植”“嵌入”的權力實踐，通過數據標注、設置獎懲函數等路徑，實現社會權力結構在技術中的編碼與再生產，反映并強化價值對齊發起者認可的社會權力關系，并通過廣泛的下游應用傳播鞏固。芬伯格對技術人工制品的批判性分析也指出，技術并非獨立于社會之外的“必然性”存在，而是在技術設計層面回應社會文化視野的意圖實現。當前，價值對齊的編碼權、解釋權與更新權高度集中于少數科技巨頭與技術精英，形成對人工智能價值觀的壟斷性控制。人工智能的黑箱特性為技術精英提供了中立性辯護，當算法出現歧視性結果時，常以“數據偏差”“模型復雜性”為由回避責任，形成算法免責的漏洞，甚至在模型更新環節，企業也可以以“商業機密”為由繞開公共審議，通過參數調整將自身價值偏好轉化為社會規則，塑造公共認知。這種權力集中在全球層面表現為數字霸權：西方科技巨頭通過控制訓練數據與算力資源，將其價值觀嵌入開源模型，發展中國家因數據貧困與技術依賴，被迫接受中心地區的價值標準，喪失數字主權與發展自主權，加劇全球數字鴻溝。

[本文后續詳見本期二條推送]

文章為社會科學報“思想工坊”融媒體原創出品，原載于社會科學報第1984期第6版，未經允許禁止轉載，文中內容僅代表作者觀點，不代表本報立場。

本期責編：程鑫云

《社會科學報》2026年征訂

點擊下方圖片網上訂報↓↓↓

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.