PsyBrain 腦心前沿 | 公眾號 PSY-Brain_Frontier
一鍵關注,點亮星標 ??
不錯過每日前沿資訊
認知神經科學前沿文獻分享
![]()
基本信息:
Title:Multimodal large language models can make context-sensitive hate speech evaluations aligned with human judgement
發表時間:2025.12.15
Journal:Nature Human Behaviour
影響因子:15.9
獲取原文:
添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
引言
社交平臺的內容審核(content moderation)長期卡在一個矛盾點:規則需要“統一”,但仇恨言論(hate speech)的含義往往高度依賴語境,即同一個詞,在攻擊與自嘲、外群體辱罵與群體內部“重新占有”(reclaimed slur)之間,處理邏輯可能完全不同。
傳統自動化模型多以“文本片段”做判斷,容易把討論歧視經歷、引用他人辱罵、或群體內部用語都誤判為違規,反而加重對被針對群體的傷害。
本文把多模態大語言模型(multimodal large language models, MLLMs)拉進更貼近真實審核的場景:給模型一段仇恨言論政策(policy),再讓它閱讀“截圖式”社交媒體帖(包含文字、頭像/姓名等身份線索、互動回復、點贊量),用強制二選一的聯合實驗(conjoint experiment)做“優先送審”選擇,并與1,854名人類受試者的判斷對齊比較。
![]()
核心結果
更大、更強的多模態大模型(MLLMs)能更“看懂語境”:在給定仇恨言論政策(policy)并結合帖文上下文信息時,模型對“是否應優先送審/處理”的判斷與人類更一致。
偏見并未消失:對詞匯(lexical)觸發與用戶人口學線索(demographic cues)的系統性偏差仍普遍存在,且在較小模型上更明顯。
視覺身份線索會放大差異:頭像/面孔等視覺信息會顯著影響部分模型的決策,使不同群體相關內容的處理更不均衡。
提示詞能“增強語境敏感”,但無法根治偏差:通過prompting可提升對語境的利用程度,但偏見無法被完全消除。
方法論貢獻:聯合實驗(conjoint experiments)適合用來審計(audit)這類“高度依賴語境”的內容審核AI,能更清晰拆解模型受哪些線索驅動。
![]()
Fig. 1 | Simulated social media posts.
![]()
![]()
Fig. 2 | Effects of post attributes on the moderation decisions.
![]()
Fig. 3 | Differences in the effects of slurs by identity.
![]()
Fig. 4 | Differences in the effects of slurs by identity across prompts.
![]()
Fig. 5 | Effects of identity on moderation decisions by identity cue modality. AMCE
前沿交流|歡迎加入認知神經科學前沿交流群!
![]()
核心圖表、方法細節、統計結果與討論見原文及其拓展數據。
分享人:BQ
審核:PsyBrain 腦心前沿編輯部
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.