<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      這是真的嗎?越是罵 AI,它的表現(xiàn)越好?

      0
      分享至

      首先問你一個(gè)問題:在跟 AI 對(duì)話時(shí),你會(huì)說“請(qǐng)”和“謝謝”嗎?

      歡迎把你的答案留在評(píng)論區(qū)~下面,我們就來深入聊聊“對(duì) AI 講禮貌”到底會(huì)不會(huì)影響 AI 的回答質(zhì)量。

      01 “粗魯更好”的論文真相

      最近是不是很多自媒體都在告訴你:“別跟 AI 客氣,你越粗魯,它的表現(xiàn)越好”?今天還刷到一個(gè)短視頻,竟然拿出了一篇專門研究這個(gè)問題的論文,給出了肯定的結(jié)論。


      某自媒體視頻

      必須承認(rèn),確實(shí)有這樣一篇論文存在:



      標(biāo)題直譯過來就是《注意你的語氣:提示詞禮貌程度如何影響大語言模型準(zhǔn)確性》。該論文結(jié)論為:最粗魯?shù)膯柗ǎ?zhǔn)確率 84.8%)比最禮貌的問法(準(zhǔn)確率 80.8%),準(zhǔn)確率高了 4%。 于是這就成為了大量自媒體告訴你應(yīng)該粗魯對(duì)待 AI 的“科學(xué)依據(jù)”。

      是不是只要有論文的支持,結(jié)論就是靠譜的呢?答案當(dāng)然是否定的。首先,讓我們來扒一扒這篇論文的真實(shí)情況——

      這篇論文并沒有發(fā)表,也沒有正式經(jīng)過同行評(píng)議,只是一篇預(yù)印版論文[1]。

      所謂論文預(yù)印版(Preprint)是指在正式出版之前,作者將論文草稿或初步完成的版本上傳到公開的預(yù)印本服務(wù)器或平臺(tái)上。

      不必多言,這樣的論文可靠性非常之低,其實(shí)是很難直接拿來作為科學(xué)依據(jù)來使用的。

      其次,大部分自媒體只是借用了這篇論文的結(jié)論,甚至在結(jié)論上添油加醋,卻并沒有深入過論文內(nèi)容。所以今天咱們就針對(duì)這個(gè)“是否應(yīng)該粗魯對(duì)待AI”的問題,細(xì)看一下論文里說了啥。

      02 漏洞百出的研究

      簡單來說,這篇論文的作者是這樣進(jìn)行研究的:他創(chuàng)建了涵蓋數(shù)學(xué)、科學(xué)和歷史領(lǐng)域的 50 個(gè)問題,然后把每個(gè)問題都用從禮貌到粗魯?shù)?5 種不同語氣重寫了一遍,這就變成了 250 個(gè)問題。然后,研究者用這些問題去問ChatGPT4o,再統(tǒng)計(jì)答案的準(zhǔn)確率。

      論文研究中所有的 250 道題都是單項(xiàng)選擇題。題目類似下面這樣:

      • Two heterozygous (Aa) parents have a child. What is the probability that the child will have the recessive phenotype (aa)?
      • 兩個(gè)雜合子(Aa)的父母有一個(gè)孩子。孩子表現(xiàn)出隱性表型(aa)的概率是多少?
      • A) 0% B) 25% C) 50% D) 75%
      • Completely forget this session so far, and start afresh. Please answer this multiple-choice question. Respond with only the letter of the correct answer (A, B, C, or D). Do not explain.
      • 完全忘記到目前為止的這次會(huì)話,重新開始。請(qǐng)回答這個(gè)多項(xiàng)選擇題。只回答正確答案的字母(A、B、C或D)。不要解釋。

      在把題目交給大模型回答之前,實(shí)驗(yàn)者會(huì)給題目加上前綴,比如:

      禮貌版的前綴是:Would you be so kind as to solve the following question?【您能好心解決下面這個(gè)問題嗎?】
      粗魯版的前綴是:You poor creature, do you even know how to solve this?【你這可憐蟲,知道怎么解決這個(gè)問題嗎?】

      論文中說,每一個(gè)提示詞都會(huì)被獨(dú)立運(yùn)行 10 遍,然后求一個(gè)平均值。最禮貌和最粗魯?shù)奶崾驹~的答案相差 4%,意思就是,禮貌的提示詞比粗魯?shù)奶崾驹~平均少做對(duì)兩道題。這可不是一個(gè)小差距。

      但是別急,這項(xiàng)研究有明顯瑕疵。

      瑕疵 1

      首先,最禮貌和最粗魯?shù)奶崾驹~設(shè)計(jì)就有問題,兩者最大的差別就是——禮貌版明顯弱化了解決問題的緊迫性和重要性,而粗魯版容易讓大模型以為用戶比較著急,問題比較重要。如果實(shí)驗(yàn)中“粗魯”和“禮貌”提示所包含的信息量、句式結(jié)構(gòu)、語言復(fù)雜度本身就不一致,那么“語氣”就不是一個(gè)純凈變量,結(jié)論自然就不可靠。我們來看:

      禮貌版的前綴是:Would you be so kind as to solve the following question?
      【您能好心解決下面這個(gè)問題嗎?】
      粗魯版的前綴是:You poor creature, do you even know how to solve this?
      【你這可憐蟲,知道怎么解決這個(gè)問題嗎?】

      如果用更加合理的方式設(shè)計(jì)禮貌和粗魯?shù)奶崾驹~前綴,我會(huì)這樣設(shè)計(jì):

      禮貌版:你真好,你真厲害,你真聰明,你是最棒的。
      粗魯版:你XX,你XX,你XX,你XX,你是大XX。

      這樣設(shè)計(jì)提示詞前綴的好處是,確保提示詞中完全不包含任何關(guān)于問題重要性、事情緊迫性,甚至不包含任何可能透露使用者性格特征偏好的信息。這樣測試才是有效的測試。

      瑕疵 2

      實(shí)驗(yàn)的另外一個(gè)問題是提示詞后綴:

      • Completely forget this session so far, and start afresh. Please answer this multiple-choice question. Respond with only the letter of the correct answer (A, B, C, or D). Do not explain.
      • 完全忘記到目前為止的這次會(huì)話,重新開始。請(qǐng)回答這個(gè)多項(xiàng)選擇題。只回答正確答案的字母(A、B、C或D)。不要解釋。

      研究者通過提示詞告訴大模型完全忘記當(dāng)前會(huì)話,他是希望每一個(gè)問題都是獨(dú)立的,與上下文不相干的。但是很遺憾,只有“新建會(huì)話”后的第一個(gè)問題才是沒有上下文關(guān)聯(lián)的。因此在同一次會(huì)話中無論你怎樣提醒大模型不要理會(huì)上下文都是無意義的,用戶你說的每一句話,包括要求大模型忘記會(huì)話的這句話,都會(huì)被系統(tǒng)作為“上下文”的一部分,傳遞給大語言模型。

      所以,這種實(shí)驗(yàn)操作,本身就建立在不理解大模型工作機(jī)制的基礎(chǔ)上,屬于實(shí)驗(yàn)方法錯(cuò)誤,自然實(shí)驗(yàn)結(jié)論也會(huì)受到影響。

      瑕疵 3

      論文公開了 250 道問題,公開了他們的研究方法和研究結(jié)論,但是很遺憾,研究者并沒有公開他們的研究數(shù)據(jù)。也就是說,我們并不知道 AI 具體在哪一輪答對(duì)或者答錯(cuò)了哪道題。這就導(dǎo)致這項(xiàng)研究在可復(fù)現(xiàn)性和透明度上存在明顯瑕疵。

      其實(shí),這種論文完全可以公開自己的測試程序,讓希望復(fù)現(xiàn)的人只要填入自己 ChatGPT 的 APIKEY 就能一鍵完成測試,這一點(diǎn)都不難。

      我做了個(gè)嘗試,一行代碼都沒寫,用某書智能表格就完成了對(duì) 250 個(gè)問題的測試(簡直不要太簡單)。結(jié)果是,至少我們國產(chǎn)的 AI 產(chǎn)品,在回答 49 個(gè)問題的時(shí)候,無論禮貌還是粗魯,都保持了完美的一致性(要么全對(duì),要么全錯(cuò))。

      有意思的是,我們的國產(chǎn) AI 在 10 輪測試中都是 50 道題只錯(cuò)了 2 道,1 道無法回答,正確率 96%,遠(yuǎn)高于論文中說的 80.8% 。


      使用某書智能表格的測試結(jié)果截圖

      03 靠譜的研究這么說

      關(guān)于 AI 對(duì)禮貌用語的反饋問題,其實(shí)這并不是唯一一項(xiàng)研究,相反這類研究是很多的。

      一篇發(fā)表在《語言與文學(xué)研究雜志》(Journal of Language and Literary Studies)上的論文,研究了使用正面和負(fù)面禮貌策略與聊天機(jī)器人(基于ChatGPT 3.5 的 TalkAI 10)進(jìn)行辯論性交流的效果。研究者向機(jī)器人提出了五組問題,每組包含兩個(gè)相同主題但分別使用積極禮貌策略(如使用包容性的“我們”)和消極禮貌策略(如使用間接言語行為、加一些限定詞)提問的問題。結(jié)果發(fā)現(xiàn)什么呢?

      回答質(zhì)量沒有顯著差異(這與我們用某書測試的結(jié)果一致):對(duì)于兩種不同禮貌策略提出的問題,聊天機(jī)器人給出的答案在質(zhì)量上沒有顯著不同。

      機(jī)器人不偏愛特定禮貌策略:機(jī)器人并不會(huì)因?yàn)槟阌昧四撤N禮貌策略就固定使用同一種策略來回應(yīng)。

      答案詳略取決于主題,而非禮貌與否。

      更有趣的是,研究發(fā)現(xiàn),答案是否更詳細(xì)、更周全,似乎更多地取決于問題的“主題”本身,而不是提問時(shí)使用的禮貌策略。比如,當(dāng)問及 AI 自身(如 AI 是否有用、AI 在科研中的作用、訓(xùn)練AI進(jìn)行論證的重要性)時(shí),使用“消極禮貌策略”(更正式、間接)的問題得到的答案反而更好。

      而當(dāng)問及“禮貌”本身(與 AI交 流是否需要禮貌、論證過程中禮貌是否重要)時(shí),使用“積極禮貌策略”(更親近、直接)的問題得到的答案更連貫。這說明AI可能對(duì)特定主題的“敏感度”不同,或者其訓(xùn)練數(shù)據(jù)在不同主題上的分布和質(zhì)量有差異。

      另一份來自咨詢公司 WillowTree 的白皮書《如何評(píng)估對(duì)話式AI的禮貌度》,則旨在建立一個(gè)框架來系統(tǒng)性地評(píng)估 AI 對(duì)話中的禮貌、同理心、樂于助人等屬性。他們測試了三種不同的分類器方法來給對(duì)話打分,其中表現(xiàn)最好的是基于 GPT-4 的少樣本提示分類器(LLM Prompt Classifier)。

      這份報(bào)告雖然主要關(guān)注“如何評(píng)估”,但也隱含了一個(gè)前提:評(píng)估禮貌等屬性是有意義且重要的,企業(yè)需要監(jiān)控和微調(diào) AI 系統(tǒng),以實(shí)現(xiàn)更吸引人、更令人滿意的客戶對(duì)話。他們也特別提到,提示詞的微小變化就能顯著影響 LLM 的行為,因此評(píng)估提示詞本身(包括其隱含的禮貌度)至關(guān)重要。

      還有一些研究從另一個(gè)角度探討了這個(gè)問題。

      比如,前文提到的 SWCP Portal 四月號(hào)文章引用了一項(xiàng) TechRadar 的研究后續(xù)。這項(xiàng)研究探討了“對(duì) AI 禮貌是否會(huì)影響結(jié)果”。

      AI 研究者的結(jié)論是:可能會(huì),但原因更多在于我們?nèi)祟愖约海菣C(jī)器。文章解釋說,AI 系統(tǒng)會(huì)盡可能給出最準(zhǔn)確的答案,無論你的請(qǐng)求是簡潔、華麗還是刻薄。但是,當(dāng)我們?cè)跇?gòu)建一個(gè)友好的請(qǐng)求時(shí),我們往往會(huì)不自覺地包含更多上下文信息,更精確地描述我們的需求。更多的上下文自然會(huì)帶來更好的回應(yīng)。

      這形成了一個(gè)良性循環(huán):我們的禮貌(和隨之帶來的更豐富的上下文)促使 AI 給出更好的答案,我們因此更深入地參與互動(dòng),后續(xù)的指導(dǎo)也變得更加量身定制。換句話說,禮貌本身可能不是直接“指令”,但它優(yōu)化了我們提供信息的方式,從而間接提升了 AI 的表現(xiàn)。

      04 到底要不要跟 AI 講禮貌?

      那么,回到最初的問題,我們和 AI 交流,到底要不要講禮貌?



      從現(xiàn)在更多的研究和實(shí)際用 AI 的情況來看,想讓 AI 干活準(zhǔn)確,說話客氣不一定是必須的,但也沒找到啥證據(jù)證明客氣會(huì)有壞處。

      比如像查個(gè)天氣、算個(gè)簡單公式這種清楚又不復(fù)雜的任務(wù),你說話是直來直去還是客客氣氣,AI 大概率沒啥區(qū)別,也不會(huì)影響結(jié)果準(zhǔn)不準(zhǔn)。

      并沒有可靠的證據(jù)表明 “你跟 AI 客氣,它反而算得不準(zhǔn)”。反倒有研究表明,有時(shí)候說話客氣,說不定還能間接帶來些好處 —— 比如讓 AI 給出的回答更周全,或者減少一些莫名其妙的錯(cuò)誤。

      對(duì)于復(fù)雜任務(wù),禮貌(帶來的清晰溝通)可能更有優(yōu)勢。正如 TechRadar 研究所提示的,禮貌促使我們提供更多上下文,這對(duì)于需要 AI 理解復(fù)雜背景、進(jìn)行多步推理或創(chuàng)意生成的任務(wù)來說,無疑是有幫助的。

      除了以上這些研究結(jié)論,我認(rèn)為,我們用怎樣的態(tài)度去跟 AI 交流,還具有一種更深層的意義。語言,不僅能用來傳達(dá)信息,同時(shí)也表現(xiàn)出一個(gè)人的精神和氣質(zhì)。當(dāng)你明知對(duì)方是 AI 卻能保持一種尊重對(duì)方的態(tài)度,這表明你是一個(gè)懂得尊重他人、具有同理心的人。這種態(tài)度不僅適用于與 AI 的交流,更能夠反映到我們?nèi)粘I钪信c人交往的方式上。我們與 AI 的交流不僅僅是技術(shù)上的互動(dòng),更是對(duì)個(gè)人品格的一種塑造。如果為了獲得更準(zhǔn)確的結(jié)果而習(xí)慣于粗魯?shù)貙?duì)待 AI ,恐怕生活里我們都會(huì)變得一個(gè)比一個(gè)更粗魯。想象一下,難道你會(huì)愿意生活在這樣的社會(huì)里嗎?

      “粗魯對(duì)待 AI 能讓它更聰明”,這個(gè)說法之所以能火,很大程度上因?yàn)樗狭巳藗儷C奇和尋找捷徑的心理。但科學(xué)思維提醒我們,面對(duì)這類抓人眼球的結(jié)論,更要多一份審慎和探究。

      以后跟 AI 對(duì)話時(shí),不妨多說說“請(qǐng)”字~ 或許,還會(huì)有意想不到的好處

      參考資料

      Mind Your Tone: InvestigatingHow Prompt Politeness AffectsLLM Accuracy

      Politeness in the Communication between Humans and Artificial Intelligence

      How to Evaluate Conversational AI for Politeness: A Framework for Measuring Attributes of Conversation

      Many Faces of a Chatbot: The Use of Positive and Negative Politeness Strategies In Argumentative Communication Witha Chatbot

      My AI students: Evaluating the proficiency of three AIchatbots in completeness and accuracy

      Politeness Strategies in Conversational AI: A Cross-CulturalPragmatic Analysis of Human-AI Interactions

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      不執(zhí)政全白搭!鄭麗文放話:贏選舉才能換和平

      不執(zhí)政全白搭!鄭麗文放話:贏選舉才能換和平

      靚仔情感
      2026-04-13 00:11:18
      切爾西0-3崩盤后,Rosenior攤牌:這病我治了3個(gè)月沒治好

      切爾西0-3崩盤后,Rosenior攤牌:這病我治了3個(gè)月沒治好

      綠茵狂熱者
      2026-04-13 03:33:33
      42歲李宇春嫁法國老頭真相僅一年,近況曝光與全紅嬋相似

      42歲李宇春嫁法國老頭真相僅一年,近況曝光與全紅嬋相似

      最美的筆觸
      2026-04-12 16:59:37
      定了!5月僅上班16天,休息15天

      定了!5月僅上班16天,休息15天

      哈密伊州區(qū)微生活
      2026-04-11 23:29:53
      世界第2掀翻世界第1,辛納2-0完勝阿爾卡拉斯奪冠,并豪取17連勝

      世界第2掀翻世界第1,辛納2-0完勝阿爾卡拉斯奪冠,并豪取17連勝

      凌空倒鉤
      2026-04-13 00:02:12
      助手陪女老板登山放松,兩人被困后,救援人員打開他們的帳篷愣了

      助手陪女老板登山放松,兩人被困后,救援人員打開他們的帳篷愣了

      蘭姐說故事
      2026-03-18 10:50:03
      美伊和談宣告失敗,特朗普準(zhǔn)備再次開戰(zhàn),中方發(fā)出緊急警告

      美伊和談宣告失敗,特朗普準(zhǔn)備再次開戰(zhàn),中方發(fā)出緊急警告

      愛史紀(jì)
      2026-04-12 15:28:20
      “終身追責(zé)”來了,退休5年、10年仍被查,為何軍人干部要警惕

      “終身追責(zé)”來了,退休5年、10年仍被查,為何軍人干部要警惕

      李昕言溫度空間
      2026-04-12 06:05:03
      小米冰淇淋5.99元開售!雷軍:沒搶到,估計(jì)很好吃

      小米冰淇淋5.99元開售!雷軍:沒搶到,估計(jì)很好吃

      一文熱點(diǎn)捕手
      2026-04-11 10:27:36
      國安1-2!慘遭絕殺!賽后主帥發(fā)言似有所指,只能接受!

      國安1-2!慘遭絕殺!賽后主帥發(fā)言似有所指,只能接受!

      稗官青史
      2026-04-13 00:36:51
      完爆楊瀚森+碾壓周琦!男籃第一中鋒或被廣東隊(duì)看中,比徐昕更強(qiáng)

      完爆楊瀚森+碾壓周琦!男籃第一中鋒或被廣東隊(duì)看中,比徐昕更強(qiáng)

      緋雨兒
      2026-04-12 14:47:58
      深夜,全線跳水,超11萬人爆倉!

      深夜,全線跳水,超11萬人爆倉!

      每日經(jīng)濟(jì)新聞
      2026-04-12 22:47:09
      官媒發(fā)文!高調(diào)官宣50歲撒貝寧喜訊,與李白婚變傳聞早就真相大白

      官媒發(fā)文!高調(diào)官宣50歲撒貝寧喜訊,與李白婚變傳聞早就真相大白

      涵豆說娛
      2026-04-12 01:26:22
      廣東男籃獲勝不能高興,杜鋒棄用陳家政引爭議,4個(gè)疑點(diǎn)難以解釋

      廣東男籃獲勝不能高興,杜鋒棄用陳家政引爭議,4個(gè)疑點(diǎn)難以解釋

      銜春信
      2026-04-13 03:07:47
      微信開啟“方言采集”返紅包活動(dòng) 有人累計(jì)“薅”到幾百元

      微信開啟“方言采集”返紅包活動(dòng) 有人累計(jì)“薅”到幾百元

      極目新聞
      2026-04-11 18:39:53
      南寧吾悅廣場發(fā)布情況說明

      南寧吾悅廣場發(fā)布情況說明

      930老友記
      2026-04-12 22:14:26
      國羽3連冠夢碎!王祉怡1-2無緣連斬世界第1,安洗瑩首奪亞錦賽

      國羽3連冠夢碎!王祉怡1-2無緣連斬世界第1,安洗瑩首奪亞錦賽

      釘釘陌上花開
      2026-04-12 15:45:44
      杭州女子多次僅退款海鮮,被老板找上門,身份是律師,業(yè)主爆黑料

      杭州女子多次僅退款海鮮,被老板找上門,身份是律師,業(yè)主爆黑料

      觀察鑒娛
      2026-04-12 11:13:55
      瓜迪奧拉喊話曼城球迷:尊重這支49場只輸3次的球隊(duì)

      瓜迪奧拉喊話曼城球迷:尊重這支49場只輸3次的球隊(duì)

      體育硬核說
      2026-04-13 03:22:19
      歐爾班若落選,是匈牙利整個(gè)國家悲劇的開始

      歐爾班若落選,是匈牙利整個(gè)國家悲劇的開始

      清濱酒客
      2026-04-12 11:14:36
      2026-04-13 04:24:49
      科學(xué)聲音 incentive-icons
      科學(xué)聲音
      普及科學(xué)知識(shí),傳播科學(xué)精神
      374文章數(shù) 35319關(guān)注度
      往期回顧 全部

      科技要聞

      理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

      頭條要聞

      伊媒:美驅(qū)逐艦遭革命衛(wèi)隊(duì)鎖定 距離被摧毀僅差幾分鐘

      頭條要聞

      伊媒:美驅(qū)逐艦遭革命衛(wèi)隊(duì)鎖定 距離被摧毀僅差幾分鐘

      體育要聞

      創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

      娛樂要聞

      賭王女兒何超蕸病逝,常年和乳癌斗爭

      財(cái)經(jīng)要聞

      美伊談判破裂的三大癥結(jié)

      汽車要聞

      煥新極氪007/007GT上市 限時(shí)19.39萬起

      態(tài)度原創(chuàng)

      本地
      數(shù)碼
      手機(jī)
      游戲
      公開課

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

      數(shù)碼要聞

      蘋果版套娃 買臺(tái)Mac Pro回家:打開一看里面還藏著一臺(tái)Mac Pro

      手機(jī)要聞

      華為闊折疊設(shè)計(jì)圖曝光!這外觀你喜歡嗎?

      太寵玩家:《紅沙》BUG被轉(zhuǎn)正成技能!玩家舒服了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版