<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      “專家人設(shè)”反而讓 AI 變笨?研究實(shí)錘:一句“你是資深工程師”,代碼準(zhǔn)確率不升反降!

      0
      分享至

      編譯 | 鄭麗媛

      出品 | CSDN(ID:CSDNnews)

      如果你也經(jīng)常這樣寫 Prompt——

      “你是一位資深全棧工程師,請(qǐng)幫我寫一套生產(chǎn)級(jí)系統(tǒng)代碼……”

      那這篇研究,可能會(huì)讓你重新審視自己的使用習(xí)慣。

      一直以來,“給 AI 加人設(shè)”幾乎成了默認(rèn)操作。從寫代碼、寫文檔,到做架構(gòu)設(shè)計(jì),不少開發(fā)者都會(huì)在開頭先“鋪墊一句”,試圖把模型“催眠”成一個(gè)更專業(yè)的版本。但問題是:這種看似提升專業(yè)性的技巧,可能正在悄悄拉低結(jié)果質(zhì)量。

      近日,一項(xiàng)來自美國(guó)南加州大學(xué)(USC)的最新研究,對(duì)這一做法給出了一個(gè)有些反直覺的結(jié)論:讓 AI 扮演“專家”,并不會(huì)讓它更擅長(zhǎng)解決專業(yè)問題,反而在編程和數(shù)學(xué)任務(wù)上會(huì)明顯變差。(論文地址:https://arxiv.org/abs/2603.18507)



      一項(xiàng)研究:為什么“專家人設(shè)”會(huì)翻車?

      所謂“人設(shè)提示”(Persona-based Prompting),本質(zhì)上就是一種“角色扮演式”的 Prompt 技術(shù)。它的核心邏輯很簡(jiǎn)單:通過一句身份設(shè)定,讓模型進(jìn)入某種“工作狀態(tài)”。

      這種方法在 2023 年開始被廣泛討論,并迅速在開發(fā)者社區(qū)流行開來。無論是教程、課程,還是各種 Prompt 模板,幾乎都會(huì)建議你這樣寫:

      ● “你是一位經(jīng)驗(yàn)豐富的機(jī)器學(xué)習(xí)工程師……”

      ● “你是一名精通系統(tǒng)設(shè)計(jì)的架構(gòu)師……”

      ● “請(qǐng)以安全專家的視角分析以下問題……”

      理論上來說,這種方法似乎很合理。畢竟模型是“語言驅(qū)動(dòng)”的,那多給一點(diǎn)上下文,不就能讓它“更像專家”嗎?但來自南加州大學(xué)(USC)的研究人員在一篇論文中指出:

      “人設(shè)提示是否有效,很大程度上要看任務(wù)類型。”

      也就是說,并不是“加了人設(shè)就一定能變強(qiáng)”,而是“用對(duì)了才行”。具體來說,該研究團(tuán)隊(duì)將任務(wù)大致分成兩類:

      (1)一類是依賴“對(duì)齊能力”的任務(wù),比如寫作、角色扮演、遵守規(guī)則、安全策略等。在這些場(chǎng)景中,模型需要的是“行為符合預(yù)期”,而不是絕對(duì)正確的答案。

      (2)一類則是依賴“知識(shí)和推理能力”的任務(wù),比如數(shù)學(xué)計(jì)算、代碼生成、事實(shí)問答。這些任務(wù)則更依賴模型在預(yù)訓(xùn)練階段學(xué)到的知識(shí)儲(chǔ)備。

      基于這兩類任務(wù),研究團(tuán)隊(duì)得到的實(shí)驗(yàn)結(jié)果為:在“人設(shè)提示”的加持下,第一類任務(wù)表現(xiàn)有所提升;但在第二類任務(wù)中,模型表現(xiàn)卻出現(xiàn)了系統(tǒng)性下降。


      真正的問題:它在“演”,而不是在“算”

      為了量化這種影響,研究人員使用了一個(gè)經(jīng)典評(píng)測(cè)基準(zhǔn):MMLU(大規(guī)模多任務(wù)語言理解測(cè)試)。這個(gè)測(cè)試覆蓋多個(gè)學(xué)科,常被用來衡量大模型的綜合能力。

      評(píng)測(cè)之后,結(jié)果非常直接:

      ● 不加“人設(shè)”:準(zhǔn)確率 71.6%

      ● 加“專家人設(shè)”:準(zhǔn)確率 68.0%

      更重要的是,這種下降幾乎出現(xiàn)在所有學(xué)科類別中,而不僅僅是個(gè)別任務(wù)。這說明了一個(gè)問題:“人設(shè)提示”確實(shí)改變了模型的行為方式,但這種改變,并不總是好的。

      對(duì)于這個(gè)結(jié)果,研究團(tuán)隊(duì)給出的解釋非常耐人尋味:

      “人設(shè)前綴可能激活了模型的‘指令執(zhí)行模式’,從而擠占了原本用于‘事實(shí)回憶’的能力。”

      解釋一下,從模型機(jī)制來看,大語言模型本質(zhì)上是在做“概率生成”。當(dāng)你告訴它“你是一位專家”,它并不會(huì)獲得任何新的知識(shí),也不會(huì)解鎖新的推理能力,但會(huì)進(jìn)入一種更偏“指令執(zhí)行”和“角色模擬”的模式。而這,就帶來了一個(gè)微妙但關(guān)鍵的變化:原本用于“從預(yù)訓(xùn)練數(shù)據(jù)中檢索事實(shí)”的能力,被部分“擠占”了。

      簡(jiǎn)單來說,就是模型開始更關(guān)注“如何像專家說話”,而不是“答案本身是否正確”。這也是為什么在編程和數(shù)學(xué)任務(wù)中,“人設(shè)”反而成為了模型的負(fù)擔(dān)。

      不過,雖然準(zhǔn)確性下降,但在人類更關(guān)心的“安全”和“規(guī)范”上,人設(shè)提示確實(shí)有明顯幫助。

      例如,在安全性測(cè)試中引入一個(gè)類似“安全審查員(Safety Monitor)”的人設(shè)后,模型拒絕惡意請(qǐng)求的能力將明顯提升。其中在 JailbreakBench 測(cè)試中:原始模型拒絕率為53.2%,但加了“人設(shè)”后拒絕率提升 17.7 個(gè)百分點(diǎn),變?yōu)?0.9%。


      對(duì)開發(fā)者來說,有點(diǎn)反直覺的結(jié)論

      基于以上發(fā)現(xiàn),研究人員在論文中明確表示:

      讓 AI 扮演“專家程序員”,不會(huì)提升代碼質(zhì)量或?qū)嵱眯浴?/blockquote>

      這對(duì)很多開發(fā)者來說,可能是一個(gè)需要“糾正”的習(xí)慣。

      因?yàn)樵趯?shí)際使用中,大量開發(fā)者的 Prompt 都包含類似話術(shù): “你是 Google 級(jí)別的架構(gòu)專家” 、 “你擁有 20 年開發(fā)經(jīng)驗(yàn)”……這些描述看似增強(qiáng)了“專業(yè)性”,實(shí)際上并沒有給模型帶來任何實(shí)質(zhì)性的能力提升。

      不過研究也指出,雖然“泛化的人設(shè)”沒什么用,但具體、細(xì)粒度的約束卻是有效的。例如:

      ● 明確前端框架(React / Vue)

      ● 指定架構(gòu)模式(微服務(wù) / 單體)

      ● 限定工具鏈(Docker / Kubernetes)

      ● 描述代碼風(fēng)格、接口規(guī)范

      因?yàn)楸举|(zhì)上來說,這些屬于“對(duì)齊信息”、“需求約束”,而不是“身份設(shè)定”,它們的作用是幫助模型更好地對(duì)齊你的目標(biāo),而不是讓它“扮演某個(gè)人”。


      一個(gè)更工程化的解法:PRISM

      既然人設(shè)提示“有利有弊”,那有沒有辦法兩者兼顧呢?

      針對(duì)這個(gè)問題,研究團(tuán)隊(duì)提出了一種新的方法,叫做 PRISM(基于意圖的人設(shè)路由機(jī)制)。它的核心思想有點(diǎn)像“動(dòng)態(tài)開關(guān)”:一般情況下保持原始模型,主要確保知識(shí)與準(zhǔn)確性,僅在需要時(shí)啟用“人設(shè)行為”。

      在實(shí)現(xiàn)上,它借助了一種叫 LoRA(低秩適配)的技術(shù),通過一個(gè)“門控機(jī)制”來自動(dòng)判斷使用哪種模式。簡(jiǎn)單來說,這就讓模型具備一種能力:該認(rèn)真的時(shí)候就認(rèn)真算,該演的時(shí)候再去演。

      在論文的最后,研究人員總結(jié)了一條非常實(shí)用的經(jīng)驗(yàn)法則:

      ● 當(dāng)你更關(guān)心“對(duì)齊”(安全、格式、規(guī)則)時(shí)→可以加人設(shè),并具體描述要求;

      ● 當(dāng)你更關(guān)心“準(zhǔn)確性和事實(shí)”時(shí)→ 不要加任何設(shè)定,直接提問。

      某種程度上來說,“你是一位專家”這句話,本質(zhì)上更像是寫給人看的,而不是寫給模型看的——它滿足的是人類對(duì)“專業(yè)感”的心理預(yù)期,卻未必真能提升結(jié)果質(zhì)量。

      有時(shí)候,想讓模型輸出得更好,并不用讓它“更像人”,而是盡量別干擾它本就擅長(zhǎng)的事情。

      參考鏈接:https://www.theregister.com/2026/03/24/ai_models_persona_prompting/

      110 萬美金懸賞!

      AMD 2026 線上黑客松大賽來襲

      從 MXFP4 MoE 算子爆改,到真實(shí)千倍并發(fā)下的吞吐量極限拉扯

      不看資歷,只看絕對(duì)速度

      挑戰(zhàn)DeepSeek?R1/KimiK2.5極致并發(fā)

      入圍即能拿 1 萬美金

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      我敢說,大部分會(huì)跟我一樣,選擇黑色衣服那個(gè)女孩!

      我敢說,大部分會(huì)跟我一樣,選擇黑色衣服那個(gè)女孩!

      草莓解說體育
      2026-04-12 17:05:01
      全員“梓涵”消失不見,老師崩潰!新一批爛大街名字再次來襲

      全員“梓涵”消失不見,老師崩潰!新一批爛大街名字再次來襲

      譚老師地理大課堂
      2026-04-12 20:21:47
      國(guó)家發(fā)改委:當(dāng)前外部環(huán)境不確定性不穩(wěn)定性明顯增強(qiáng),要堅(jiān)持油氣核心需求自主保障,確保糧食、能源這兩個(gè)飯碗牢牢端在自己手中

      國(guó)家發(fā)改委:當(dāng)前外部環(huán)境不確定性不穩(wěn)定性明顯增強(qiáng),要堅(jiān)持油氣核心需求自主保障,確保糧食、能源這兩個(gè)飯碗牢牢端在自己手中

      上觀新聞
      2026-04-17 11:36:07
      黑白絲姐妹,你想單槍匹馬對(duì)壘?還是省省吧

      黑白絲姐妹,你想單槍匹馬對(duì)壘?還是省省吧

      飛娛日記
      2026-04-18 10:58:25
      10級(jí)大風(fēng)+沙塵暴+大暴雪+強(qiáng)降溫!內(nèi)蒙古強(qiáng)冷空氣來襲,呼和浩特連發(fā)寒潮+霜凍+大風(fēng)預(yù)警!

      10級(jí)大風(fēng)+沙塵暴+大暴雪+強(qiáng)降溫!內(nèi)蒙古強(qiáng)冷空氣來襲,呼和浩特連發(fā)寒潮+霜凍+大風(fēng)預(yù)警!

      魯中晨報(bào)
      2026-04-18 10:52:19
      賀希寧:沒想取得多大成就掙多少錢 希望通過自己讓更多人熱愛籃球

      賀希寧:沒想取得多大成就掙多少錢 希望通過自己讓更多人熱愛籃球

      狼叔評(píng)論
      2026-04-18 11:36:04
      賴清德親自下令叫停,“陸委會(huì)”改口堵死恢復(fù)兩岸直航的口子!

      賴清德親自下令叫停,“陸委會(huì)”改口堵死恢復(fù)兩岸直航的口子!

      荊楚寰宇文樞
      2026-04-17 22:57:42
      你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

      你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

      夜深愛雜談
      2026-02-21 21:37:02
      440公斤濃縮鈾引爆美伊危機(jī),伊朗導(dǎo)彈產(chǎn)能激增

      440公斤濃縮鈾引爆美伊危機(jī),伊朗導(dǎo)彈產(chǎn)能激增

      享用人生
      2026-04-15 21:19:18
      深大一口氣停招26個(gè)專業(yè),這些“坑”你還在踩嗎?

      深大一口氣停招26個(gè)專業(yè),這些“坑”你還在踩嗎?

      牛鍋巴小釩
      2026-04-17 13:18:03
      女子利用天氣預(yù)報(bào)頻繁購買飛機(jī)延誤險(xiǎn),5年買中900多次,獲賠近300萬,被抓時(shí):我符合保險(xiǎn)理賠要求

      女子利用天氣預(yù)報(bào)頻繁購買飛機(jī)延誤險(xiǎn),5年買中900多次,獲賠近300萬,被抓時(shí):我符合保險(xiǎn)理賠要求

      譚老師地理大課堂
      2026-04-15 20:11:42
      王健林被逼債38億后,妻子林寧被扒底朝天,難怪王思聰能逍遙國(guó)外

      王健林被逼債38億后,妻子林寧被扒底朝天,難怪王思聰能逍遙國(guó)外

      大魚簡(jiǎn)科
      2026-04-17 22:07:20
      大瓜!董事長(zhǎng)的私生子

      大瓜!董事長(zhǎng)的私生子

      挖掘機(jī)007
      2026-04-17 20:30:22
      假吃就別演了!看于和偉吃包子,讓多少演員無地自容

      假吃就別演了!看于和偉吃包子,讓多少演員無地自容

      糊咖娛樂
      2026-04-17 14:47:44
      792萬新生兒的殘酷真相:不超20年,無數(shù)家族可能撐不過下一代

      792萬新生兒的殘酷真相:不超20年,無數(shù)家族可能撐不過下一代

      一口娛樂
      2026-04-18 10:24:52
      徐帆回應(yīng)離婚5個(gè)月,馮小剛狀態(tài)曝光,他的“小心思”再藏不住了

      徐帆回應(yīng)離婚5個(gè)月,馮小剛狀態(tài)曝光,他的“小心思”再藏不住了

      可樂談情感
      2026-04-17 19:29:36
      優(yōu)思益15億騙局大起底:神秘操盤手浮出水面

      優(yōu)思益15億騙局大起底:神秘操盤手浮出水面

      新浪財(cái)經(jīng)
      2026-04-17 18:14:15
      壞事變好事!網(wǎng)傳上海一福利院接收健康女嬰,領(lǐng)養(yǎng)者多為本地中產(chǎn)

      壞事變好事!網(wǎng)傳上海一福利院接收健康女嬰,領(lǐng)養(yǎng)者多為本地中產(chǎn)

      火山詩話
      2026-04-17 16:43:11
      燒錢!曝北京向前同曦小外援開出15萬美金月薪 多方面未能達(dá)成簽約

      燒錢!曝北京向前同曦小外援開出15萬美金月薪 多方面未能達(dá)成簽約

      狼叔評(píng)論
      2026-04-18 11:12:10
      警告三次不如動(dòng)真格一次!中方勒令停運(yùn),巴拿馬運(yùn)河效率暴跌

      警告三次不如動(dòng)真格一次!中方勒令停運(yùn),巴拿馬運(yùn)河效率暴跌

      墨流蘇影
      2026-04-18 10:31:17
      2026-04-18 13:03:00
      CSDN incentive-icons
      CSDN
      成就一億技術(shù)人
      26461文章數(shù) 242269關(guān)注度
      往期回顧 全部

      科技要聞

      傳Meta下月擬裁8000 大舉清退人力為AI騰位

      頭條要聞

      牛彈琴:特朗普迎來最興奮的一天 三個(gè)細(xì)節(jié)信息量很大

      頭條要聞

      牛彈琴:特朗普迎來最興奮的一天 三個(gè)細(xì)節(jié)信息量很大

      體育要聞

      時(shí)隔25年重返英超!沒有人再嘲笑他了

      娛樂要聞

      《穿普拉達(dá)的女王2》疑似辱華?

      財(cái)經(jīng)要聞

      "影子萬科"2.0:管理層如何吸血萬物云?

      汽車要聞

      奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬元起

      態(tài)度原創(chuàng)

      親子
      數(shù)碼
      房產(chǎn)
      旅游
      教育

      親子要聞

      春天給娃喝蘋果水,健脾養(yǎng)胃強(qiáng)體質(zhì),助力長(zhǎng)個(gè)子

      數(shù)碼要聞

      折疊鍵盤能讓iPad變生產(chǎn)力工具?實(shí)測(cè)結(jié)果來了:太雞肋

      房產(chǎn)要聞

      官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

      旅游要聞

      把訪古追成頂流審美,潮織就新圖景

      教育要聞

      為什么人一緊張就什么都做不了?

      無障礙瀏覽 進(jìn)入關(guān)懷版