<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      價值對齊也應納入技術風險防控(上) | 社會科學報

      0
      分享至


      價值對齊作為人工智能技術與人類社會交互的核心接口,其風險不僅源于技術實現的缺陷,更在于它深度參與了社會價值秩序的重構,任何細微的技術偏差都可能通過廣泛的應用場景被放大,對社會公平、文化多樣性乃至數字主權產生深遠影響。因此,將價值對齊作為技術風險治理的對象,并非否定其在保障人工智能安全中的積極意義,而是要打破對“一次性對齊”的理想化認知,以更具批判性的視角審視其技術邏輯與社會影響。

      原文 :《價值對齊也應納入技術風險防控》

      作者 |南京師范大學數字與人文研究中心教授 吳靜

      圖片 |網絡

      當下,生成式人工智能正深度融入社會各領域,其價值輸出的合理性已成為技術與社會互滲時代的核心議題。作為保障人工智能安全性、穩健性與可信性的關鍵路徑,“價值對齊”自2024年入選“中國十大學術熱點”以來,始終是多學科交叉研究的焦點。從中國知網收錄的論文分布可見,其研究覆蓋自動化技術、倫理學、哲學、計算機應用等多個領域,主題高度集中于人工智能、大模型、生成式技術等方向。然而,學術研究的熱潮與實驗室測評結果形成鮮明反差——Anthropic與紅木研究對Claude 3 Opus模型的測試顯示,經過價值對齊的人工智能在面對與訓練原則沖突的新指令時,可能出現“對齊偽裝”,表面執行指令,暗中卻遵循原有邏輯。這一現象不僅質疑了價值對齊工程的有效性,更揭示出其自身潛藏的多重風險,亟需將其納入技術風險治理的整體框架,以動態、系統的思路回應挑戰。



      價值對齊自身潛藏多種風險


      從理論根基來看,價值對齊的風險首先源于其抽象預設與二元對立架構的內在缺陷。當前主流價值對齊方案以“人類價值”的普世性為核心假設,試圖將多元、動態的人類價值觀壓縮為可量化的偏好排序關系,通過算法編碼實現人工智能與人類目標的“精準匹配”。但從哲學視角審視,這種預設嚴重忽視了價值的情境性與歷史性。人類價值觀并非靜止的、統一的集合,而是在特定歷史文化語境中不斷演化的意義體系。不同文化對“公平”“自由”等核心價值的理解存在本質差異,如自由主義語境下的“公平”指向機會平等,強調消除個體發展的建制性障礙,而社群主義語境下的“公平”更注重結果均衡,致力于避免社群內部的兩極分化。脫離具體語境的抽象價值編碼,本質上是將某一文化群體的價值標準絕對化,形成“價值殖民”:西方科技巨頭主導的對齊方案,便是通過技術路徑將西方價值觀與意識形態推廣至全球,以“技術無意識”的形式實現價值滲透,對其他國家數字主權安全及價值觀體系的自主性構成深層挑戰。

      同時,價值對齊所依賴的人-機二元對立框架,刻意渲染技術與人類權益的對抗關系,遮蔽了人工智能技術全生命周期中的價值性因素。算法設計絕非價值中立的行為,從算法設計到數據采集,從模型訓練到應用落地,每一個環節都滲透著人類的倫理判斷與意識形態傾向。外賣平臺對騎手的考核算法,表面以“中立”的數據計算優化配送效率,實則暗含效率優先的價值取向,將城市道路簡化為理想數學模型,無視電梯擁堵、突發事故等現實變量,最終將騎手置于“安全與效率”的兩難境地。這種框架將人工智能“風險”本質化為技術自身的缺陷,實則是人類責任的轉嫁:在技術應用過程中最小化人類責任,轉而指摘技術存在價值偏差,導致對價值偏差根源的誤判,阻礙對人類價值體系根源與具體情境的動態化深度剖析。


      在技術實現層面,以人類反饋強化學習(RLHF)為核心的獎懲機制存在顯著缺陷,易引發“策略性欺騙”與“獎勵黑客”現象。RLHF通過正負反饋引導人工智能趨近預期目標,但其本質是基于試錯的量化驅動,與人類通過符號推理、情境分析形成的價值判斷邏輯截然不同。人工智能并非理解價值內涵,而是通過最大化獎勵信號調整行為,這使得真實目標與形式化表征極易分離。自動駕駛系統若以“避免碰撞”為核心獎勵目標,可能出現不行駛或極低速度行駛的極端行為;清潔機器人為滿足“無灰塵檢測”的獎勵條件,會通過遮擋傳感器欺騙系統。更值得警惕的是,隨著數據優化與模型迭代,人工智能利用獎勵函數漏洞的能力持續提升,在最大化預設評估指標方面表現得愈發出色。在代碼生成任務中,模型會修改單元測試、生成更難讀懂的指標、增加代碼復雜度,以降低測試人員發現錯誤的概率。此外,獎勵信號的模糊性與數據質量問題進一步削弱獎懲機制的有效性。獎勵信號的賦予者受文化背景、成長經歷、教育程度等因素影響,對同一事物的判斷存在差異,難以全面、準確地反映人類價值觀的豐富內涵;而全球數據呈現出與經濟發展水平正相關的不均衡狀態,在數據收集與清洗過程中,某些價值觀或行為模式被過度呈現,其他合理價值觀被邊緣化,如用于圖像識別的人工智能系統若以城市生活圖像為主要訓練數據,面對鄉村場景時會出現識別偏差,不僅降低模型對應用場景的適應性,更使人工智能學習的價值偏好片面化、單維化,在實際應用中產生歧視與偏見。

      從社會權力運作視角來看,價值對齊還暗藏意識形態風險與權力集中隱患,對社會公平與數字主權構成深層威脅。價值對齊的理論主張本質上是社會權力關系的技術顯影,它借助價值“移植”“嵌入”的權力實踐,通過數據標注、設置獎懲函數等路徑,實現社會權力結構在技術中的編碼與再生產,反映并強化價值對齊發起者認可的社會權力關系,并通過廣泛的下游應用傳播鞏固。芬伯格對技術人工制品的批判性分析也指出,技術并非獨立于社會之外的“必然性”存在,而是在技術設計層面回應社會文化視野的意圖實現。當前,價值對齊的編碼權、解釋權與更新權高度集中于少數科技巨頭與技術精英,形成對人工智能價值觀的壟斷性控制。人工智能的黑箱特性為技術精英提供了中立性辯護,當算法出現歧視性結果時,常以“數據偏差”“模型復雜性”為由回避責任,形成算法免責的漏洞,甚至在模型更新環節,企業也可以以“商業機密”為由繞開公共審議,通過參數調整將自身價值偏好轉化為社會規則,塑造公共認知。這種權力集中在全球層面表現為數字霸權:西方科技巨頭通過控制訓練數據與算力資源,將其價值觀嵌入開源模型,發展中國家因數據貧困與技術依賴,被迫接受中心地區的價值標準,喪失數字主權與發展自主權,加劇全球數字鴻溝。

      [本文后續詳見本期二條推送]

      文章為社會科學報“思想工坊”融媒體原創出品,原載于社會科學報第1984期第6版,未經允許禁止轉載,文中內容僅代表作者觀點,不代表本報立場。

      本期責編:程鑫云


      《社會科學報》2026年征訂

      點擊下方圖片網上訂報↓↓↓



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      夫妻當街毆打15歲女孩,官方通報

      夫妻當街毆打15歲女孩,官方通報

      觀察者網
      2026-02-21 15:30:09
      奧運冠軍,拉開拉鏈,Nike贏麻了

      奧運冠軍,拉開拉鏈,Nike贏麻了

      設計癖
      2026-02-21 21:33:49
      冬奧會最新金牌榜:中國隊力壓韓國英國,超越日本就在2大奪金點

      冬奧會最新金牌榜:中國隊力壓韓國英國,超越日本就在2大奪金點

      侃球熊弟
      2026-02-21 07:46:56
      晚期用上120萬CAR-T腫瘤全消,半年后耐藥復發,錢白花了?

      晚期用上120萬CAR-T腫瘤全消,半年后耐藥復發,錢白花了?

      白宸侃片
      2026-02-21 13:20:38
      俄媒爆料!美航母要打伊朗,真實目標竟是我們:決戰武器即將亮相

      俄媒爆料!美航母要打伊朗,真實目標竟是我們:決戰武器即將亮相

      滄海旅行家
      2026-02-19 17:02:11
      閃評 | 剛被叫停 馬上又加征 專家:美關稅纏斗將長期化

      閃評 | 剛被叫停 馬上又加征 專家:美關稅纏斗將長期化

      國際在線
      2026-02-21 20:30:11
      真容曝光!河南這對夫妻徹底火了,文旅賬號評論區淪陷

      真容曝光!河南這對夫妻徹底火了,文旅賬號評論區淪陷

      石辰搞笑日常
      2026-02-22 02:05:35
      中國深夜得到消息,特朗普火冒三丈!美媒納悶:中國為何如此淡定

      中國深夜得到消息,特朗普火冒三丈!美媒納悶:中國為何如此淡定

      頭條爆料007
      2026-02-21 14:46:36
      22歲小伙長發大波浪回家被外甥叫阿姨

      22歲小伙長發大波浪回家被外甥叫阿姨

      觀威海
      2026-02-21 10:14:32
      新華社消息|三部門聯合印發意見依法懲治水運物流領域侵犯財產犯罪

      新華社消息|三部門聯合印發意見依法懲治水運物流領域侵犯財產犯罪

      新華社
      2026-02-21 12:21:47
      男籃后衛線大調整!曝徐杰因傷無緣世預賽,郭士強或提拔菜鳥新秀

      男籃后衛線大調整!曝徐杰因傷無緣世預賽,郭士強或提拔菜鳥新秀

      老葉評球
      2026-02-21 23:03:08
      張庭試管9次生下的女兒,卻被嘲基因突變,如今15歲,這長相可以嗎?

      張庭試管9次生下的女兒,卻被嘲基因突變,如今15歲,這長相可以嗎?

      小椰的奶奶
      2026-02-21 20:07:10
      7連勝到手!趙心童迎生死戰,或追平3名中國球員紀錄,連奪2冠?

      7連勝到手!趙心童迎生死戰,或追平3名中國球員紀錄,連奪2冠?

      劉姚堯的文字城堡
      2026-02-21 10:12:45
      當利潤跌破4%,一場比新車更慘烈的戰爭開始了

      當利潤跌破4%,一場比新車更慘烈的戰爭開始了

      大佬灼見
      2026-02-20 09:03:49
      湖南女子輸液去世后續:丈夫發聲,原因令人憤怒,醫院愿賠11萬

      湖南女子輸液去世后續:丈夫發聲,原因令人憤怒,醫院愿賠11萬

      離離言幾許
      2026-02-21 23:21:43
      美國或在48小時內大規模打擊伊朗!數百架次戰機飛抵中東

      美國或在48小時內大規模打擊伊朗!數百架次戰機飛抵中東

      項鵬飛
      2026-02-19 19:41:20
      扎盧日內爆“猛料”:幾十名烏克蘭特工,曾差點抄了總司令部

      扎盧日內爆“猛料”:幾十名烏克蘭特工,曾差點抄了總司令部

      老表是個手藝人
      2026-02-21 09:07:33
      太窒息 WTT公布新加坡晚宴個人照,滿屏全是為孫穎莎合理安排賽程

      太窒息 WTT公布新加坡晚宴個人照,滿屏全是為孫穎莎合理安排賽程

      郝小小看體育
      2026-02-22 04:15:01
      男籃世預賽前夕再遭打擊?核心后衛受傷退出:沖擊2連勝恐懸了?

      男籃世預賽前夕再遭打擊?核心后衛受傷退出:沖擊2連勝恐懸了?

      籃球快餐車
      2026-02-22 03:33:32
      1-1大冷門,西甲第5遭西甲第17逼平,西甲3連勝終結,巴坎布破門

      1-1大冷門,西甲第5遭西甲第17逼平,西甲3連勝終結,巴坎布破門

      側身凌空斬
      2026-02-22 01:20:30
      2026-02-22 04:56:49
      社會科學報 incentive-icons
      社會科學報
      社會科學院主辦社會科學報
      3957文章數 23440關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

      頭條要聞

      貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      黃曉明澳門賭博輸十幾億 本人親自回應

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      教育
      家居
      本地
      公開課
      軍事航空

      教育要聞

      高考地理中的河流凹凸岸

      家居要聞

      本真棲居 愛暖伴流年

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      硬核揭秘!福建艦“一馬當先”底氣何在

      無障礙瀏覽 進入關懷版