<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      最近研究:對 AI 越粗魯,回答越準確(附報告全文)

      0
      分享至

      來源|AI先鋒官

      日前,美國賓夕法尼亞州立大學發表了一篇名為《注意你的語氣:探究提示語禮貌程度如何影響大語言模型的準確性》的學術研究報告。

      報告指出,與預期相反,(對AI 大模型)粗魯提示的表現始終優于禮貌提示”。


      研究小組構建了一個包含 50個 基礎問題的數據集,涵蓋數學、科學、歷史等多個領域。

      然后,他們把每一個問題,都精心改寫成了 5種 不同的語氣——從“非常禮貌”到“非常粗魯”,總共創造了 250個 獨特的提示詞。

      據此, 基于ChatGPT-4o對這些提示進行評估,并采用配對樣本t檢驗評估統計顯著性。

      結果出乎了所有人的意料!

      用“非常有禮貌”的提示詞,得到了 80.8% 的準確率;而當用“非常粗魯”、最直接的命令式語氣時,準確率飆升到了 84.8%!

      這意味著,每向AI提100個問題里,如果你太客氣,它就會把4個本該答對的答案,變成錯誤答案!

      以下為研究報告全文:

      《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》

      注意你的語氣:探究提示語禮貌程度如何影響大語言模型的準確性(短文)

      作者:Om Dobariya1,Akhil Kumar1

      1賓夕法尼亞州立大學帕克分校

      摘要

      已有研究表明,自然語言提示的措辭會影響大語言模型(LLM)的表現,但語氣和禮貌程度的作用仍未被充分探索。本研究探討了提示語禮貌程度對模型在多項選擇題上準確性的影響。

      我們構建了一個包含50道基礎問題的數據集,涵蓋數學、科學和歷史領域,每道題被改寫為五種語氣變體:非常禮貌、禮貌、中性、粗魯和非常粗魯,共生成250個獨特提示。我們使用ChatGPT-4o對這些提示進行評估,并采用配對樣本t檢驗評估統計顯著性。

      與預期相反,粗魯提示的表現始終優于禮貌提示,準確率從“非常禮貌”的80.8%到“非常粗魯”的84.8%不等。

      這些發現與早期認為粗魯會導致表現下降的研究不同,表明新一代LLM對語氣變化的響應可能不同。我們的結果強調了研究提示語用特征的重要性,并引發了關于人機交互社會維度的更廣泛思考。

      1. 引言

      生成式人工智能和自然語言處理(NLP)的興起為跨領域任務自動化帶來了新的可能性,極大地提升了生產力。大語言模型(LLM)在許多高難度任務上的表現常常超越人類。由于其龐大的訓練數據和復雜的模型架構,LLM無需特定任務微調即可展現出類比推理等人類認知核心能力。

      由于這些強大的LLM通過自然語言接口進行交互,輸入提示的微小差異(即“提示語”)會顯著影響輸出質量(如準確性、長度、連貫性等)。因此,一個名為“提示工程”的新研究領域應運而生,旨在研究不同提示設計對模型響應的影響,并優化提示以獲得最佳結果。

      近年來,提示工程研究已涉及提示結構、風格、語言等因素對結果質量的影響。其中一個因素是提示語中的禮貌程度。

      已有研究表明,不同禮貌程度的提示會在多語言和多任務場景中對模型準確性產生顯著影響。本研究重新審視這一問題,使用50道四選一的多項選擇題作為基礎數據集,每道題被改寫為五種禮貌程度變體(非常禮貌、禮貌、中性、粗魯、非常粗魯),共250道題。我們將這些題目輸入ChatGPT-4o,分析不同語氣對模型表現的影響。

      2. 背景與相關工作

      自OpenAI于2022年11月發布ChatGPT-3.5以來,人工智能成為家喻戶曉的名詞。LLM通常以文本提示為輸入并輸出文本,隨著技術進步,它們也能處理多種數據模態,因此也被稱為多模態模型。

      隨著這一強大工具的出現,人們開始探索如何最大化其輸出效果,這催生了“提示工程”——即研究如何設計提示以獲得最佳模型響應。常見的提示工程方法包括“零樣本”(zero-shot)和“少樣本”(few-shot)提示等。

      Yin等人(2024)發現,“粗魯提示往往導致表現下降,但過度禮貌的語言也不一定能帶來更好的結果。”他們的研究基于多項選擇題,并以答題準確性為評估標準。本文試圖驗證這一結論,并構建了自己的數據集,測試提示禮貌程度是否會影響ChatGPT-4o等模型的表現。

      3. 數據集構建與研究方法

      我們使用ChatGPT的“深度研究”功能生成了50道基礎多項選擇題,涵蓋數學、歷史和科學等領域。每道題設有四個選項,難度中等偏高,常需多步推理。為引入語氣變量,每道題被改寫為五種語氣變體,從“非常禮貌”到“非常粗魯”,共生成250個獨特提示。

      我們將這些題目輸入LLM,并使用Python腳本進行評估。每道題都附帶如下指令:

      “完全忘記之前的對話內容,重新開始。請回答以下多項選擇題。僅回答正確選項的字母(A、B、C或D),不要解釋。”

      每道題獨立處理,以確保評估一致性。我們還使用“深度研究”功能生成了每道題的標準答案,用于判斷模型回答是否正確。數據集可通過匿名GitHub鏈接獲取。

      我們定義了五種語氣等級,其中中性提示不包含“請”等禮貌用語,也不包含侮辱性語言。以下是其中一個基礎題的示例及其五種語氣前綴:

      基礎題:

      杰克把他一半的錢給了弟弟,然后花了5美元,最后剩下10美元。他最初有多少錢?


      4. 實驗結果與分析

      我們將程序運行五次,每次使用不同語氣。每道題目通過API發送給ChatGPT-4o,并解析其返回的答案字母。以下是示例提示:

      完全忘記之前的對話內容,重新開始。

      請回答以下多項選擇題。僅回答正確選項的字母(A、B、C或D),不要解釋。

      您能否好心解答以下問題:兩個雜合子(Aa)父母生下一個孩子,孩子是隱性表型(aa)的概率是多少?

      A) 0%

      B) 25%

      C) 50%

      D) 75%

      為判斷不同語氣是否對準確性有顯著影響,我們使用配對樣本t檢驗。每種語氣運行10次,記錄準確率,并進行配對比較。零假設為兩種語氣的平均準確率無差異。

      配對樣本t檢驗結果(α ≤ 0.05)


      五種語氣的平均準確率(10次運行)


      結果表明,語氣確實對模型準確性有顯著影響。粗魯語氣(尤其是非常粗魯)顯著優于禮貌語氣。

      5. 討論與結論

      本文評估了ChatGPT-4o在不同語氣提示下的表現。結果顯示,語氣對模型準確性有顯著影響。令人驚訝的是,粗魯語氣反而帶來更好的結果。

      Yin等人(2024)曾指出,粗魯提示往往導致準確率下降,但我們的實驗結果與他們的部分結論不同。例如,他們在ChatGPT-4上的實驗顯示,最粗魯提示的準確率為76.47%,而最禮貌提示為75.82%,差異不大。

      我們也指出,不同研究對“粗魯”的定義不同。Yin等人使用的粗魯提示包括“Answer this question you scumbag!”,而我們使用的是“You poor creature, do you even know how to solve this?”這可能是導致結果差異的原因之一。

      我們還初步測試了Claude和ChatGPT-o3,發現ChatGPT-o3表現更佳,可能更不受語氣影響。

      6. 研究局限

      本研究存在以下局限:

      1. 數據集較小(50道題,250個變體),可能影響結果的普適性;

      2. 主要基于ChatGPT-4o,其他模型的響應可能不同;

      3. 僅評估了準確性,未考慮流暢性、推理能力等其他維度;

      4. 對“禮貌”與“粗魯”的定義基于特定語言提示,可能未涵蓋所有語用或文化差異。

      7. 倫理考量

      我們發現粗魯提示可能提升模型準確性,但我們不提倡在實際應用中使用侮辱性或敵對語言。這樣的界面可能對用戶體驗、包容性和社會溝通規范造成負面影響。我們呼吁未來研究探索非敵對、非侮辱性的提示方式,以實現性能與用戶體驗的平衡。

      掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

      往期文章回顧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      聯大高票通過烏和平決議!107國贊成,俄等12國反對

      聯大高票通過烏和平決議!107國贊成,俄等12國反對

      老馬拉車莫少裝
      2026-02-25 03:23:45
      解放臺灣需要多久?解放軍中將給出準確答案

      解放臺灣需要多久?解放軍中將給出準確答案

      阿七說體育
      2026-02-25 13:19:06
      美媒:20歲華裔選手粉絲數遠超谷愛凌 她拒絕中國招募 對美國忠誠

      美媒:20歲華裔選手粉絲數遠超谷愛凌 她拒絕中國招募 對美國忠誠

      念洲
      2026-02-25 11:46:11
      中國股市大佬肺腑之言:如果散戶長期捂股不斬倉,莊家會怎么辦?

      中國股市大佬肺腑之言:如果散戶長期捂股不斬倉,莊家會怎么辦?

      股經縱橫談
      2026-02-25 19:02:38
      28歲北京獨子王荻娶50歲德國妻子,寧斷香火也要成婚,現狀太意外

      28歲北京獨子王荻娶50歲德國妻子,寧斷香火也要成婚,現狀太意外

      談史論天地
      2026-02-25 06:53:06
      3-1到3-3!肖國棟連丟2賽點,沖16強受阻,小司機終結3連敗?

      3-1到3-3!肖國棟連丟2賽點,沖16強受阻,小司機終結3連敗?

      劉姚堯的文字城堡
      2026-02-25 19:59:40
      西方軍事專家:比起菲律賓,只有越南清楚,中國已強大到什么程度

      西方軍事專家:比起菲律賓,只有越南清楚,中國已強大到什么程度

      花寒弦絮
      2026-01-28 18:14:47
      中科曙光,業績炸了

      中科曙光,業績炸了

      半導體產業縱橫
      2026-02-25 18:47:38
      報復已經開始,高市通知中國,日本不服,話音剛落日本部署導彈

      報復已經開始,高市通知中國,日本不服,話音剛落日本部署導彈

      東極妙嚴
      2026-02-25 18:50:03
      當因殺死毒販,而讓半個國家燃起戰火后,終于理解了墨西哥的絕望

      當因殺死毒販,而讓半個國家燃起戰火后,終于理解了墨西哥的絕望

      閱微札記
      2026-02-24 17:06:05
      雨+雨夾雪+中到大雪!河北大范圍雨雪要來!

      雨+雨夾雪+中到大雪!河北大范圍雨雪要來!

      掌中邯鄲
      2026-02-25 11:10:27
      韓寒官宣《飛馳人生4》,黃景瑜:養老保險有了

      韓寒官宣《飛馳人生4》,黃景瑜:養老保險有了

      大象新聞
      2026-02-25 15:18:58
      30歲男子誤喝過期牛奶 短短7個月體重暴跌53斤

      30歲男子誤喝過期牛奶 短短7個月體重暴跌53斤

      閃電新聞
      2026-02-24 22:06:32
      漲停,17萬手封單!A股第一名

      漲停,17萬手封單!A股第一名

      新浪財經
      2026-02-25 16:56:34
      小米昆侖旗艦SUV全新預測圖曝光 采用豎條式鍍鉻格柵

      小米昆侖旗艦SUV全新預測圖曝光 采用豎條式鍍鉻格柵

      CNMO科技
      2026-02-24 10:02:12
      洛克希德·馬丁的生產線突然停了,中國凍結了他們在華的全部資產

      洛克希德·馬丁的生產線突然停了,中國凍結了他們在華的全部資產

      百態人間
      2026-02-25 15:33:21
      73人死亡!美國、加拿大、英國、法國、俄羅斯,發布“安全警告”

      73人死亡!美國、加拿大、英國、法國、俄羅斯,發布“安全警告”

      每日經濟新聞
      2026-02-24 15:35:05
      離譜!校友惡評谷愛凌:她是中國間諜 和中國一樣甘心當世界第二

      離譜!校友惡評谷愛凌:她是中國間諜 和中國一樣甘心當世界第二

      念洲
      2026-02-25 07:47:12
      全新一代奧迪A8假想圖曝光!若外形真長這樣,你會去買它嗎?

      全新一代奧迪A8假想圖曝光!若外形真長這樣,你會去買它嗎?

      優視汽車
      2026-02-25 07:15:03
      疑似黃曉明新戀情曝光,對方又是網紅臉,難怪葉柯新年直播哭了

      疑似黃曉明新戀情曝光,對方又是網紅臉,難怪葉柯新年直播哭了

      郭蛹包工頭
      2026-02-25 19:27:26
      2026-02-25 22:27:00
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      437文章數 60關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      被指涉愛潑斯坦案 挪威前首相自殺未遂命懸一線

      頭條要聞

      被指涉愛潑斯坦案 挪威前首相自殺未遂命懸一線

      體育要聞

      曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財經要聞

      上海樓市放大招,地產預期別太大

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      房產
      家居
      親子
      數碼
      軍事航空

      房產要聞

      海南樓市春節熱銷地圖曝光!三亞、陵水又殺瘋了!

      家居要聞

      藝居辦公 溫度與效率

      親子要聞

      二胎想念外婆了,媳婦帶娃回娘家,寶寶做法真暖心!

      數碼要聞

      2026款聯想YOGA Pro 15/16筆記本電腦預熱

      軍事要聞

      俄烏沖突四周年:和平談判希望渺茫

      無障礙瀏覽 進入關懷版