<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Gemini準確率從21%飆到97%!谷歌只用了這一招:復制粘貼

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】簡單到難以置信!近日,Google Research一項新研究發現:想讓大模型在不啟用推理設置時更準確,只需要把問題復制粘貼再說一遍,就能把準確率從21.33%提升到97.33%!

      一個簡單到「令人發指」的提示詞技巧,竟能讓大模型在不要求展開推理的情況下,將準確率從21.33%提升到97.33%!

      最近,Google Research發現了一條簡單粗暴、特別有效的提示詞技巧。

      它顛覆了以往諸如「思維鏈」(Chain of Thought)「多樣本學習」(Multi-shot)「情緒勒索」等復雜的提示工程和技巧。


      https://arxiv.org/pdf/2512.14982

      在這篇題為《Prompt Repetition Improves Non-Reasoning LLMs》論文中,研究人員用數據告訴我們:

      想要讓Gemini、GPT-4o、Claude或者DeepSeek這些主流模型中表現得更好,根本不需要那些花里胡哨的心理戰。

      你只要把輸入問題重復一遍,直接復制粘貼一下,就能讓大模型在非推理任務上的準確率獲得驚人提升,最高甚至能提升76個百分點!

      別怕簡單,它確實有效

      一位網友將這個技巧比作「吼叫LLM」。


      更妙的是,由于Transformer架構獨特的運作方式,這個看似笨拙的「復讀機」技巧,幾乎不會影響到生成速度。

      所以,你不用在效率、準確率、成本三者之間痛苦糾結。

      它幾乎就是一場真正意義上的「免費午餐」!

      別再PUA大模型了

      從「情緒勒索」到「復讀機」戰術

      經常使用AI工具的人,可能會對各種「提示詞魔法」信手拈來。

      為了讓模型「更聰明一點」,工程師們過去幾年一直在發明各種復雜的提示詞技巧。

      最開始是「思維鏈」,讓模型一步步思考,而且經常把那些「推理痕跡」展示給用戶;

      后來演變成了「多樣本學習」,給模型喂一大堆例子;

      最近更是流行起了「情緒勒索」:告訴模型,如果這個代碼寫不出,你就會被斷電,或者你的獎金會被扣光。

      大家都在試圖用人類極其復雜的心理學邏輯,去「PUA」那一堆冰冷的硅基代碼。

      但Google Research研究人員對著七個常見基準測試(包括ARC、OpenBookQA、GSM8K等)和七種主流模型(涵蓋了從輕量級的Gemini 2.0 Flash-Lite到重量級的Claude 3.7 Sonnet和DeepSeekV3)進行了一通對比測試后發現:

      當他們要求模型不要進行顯式推理,只給直接答案時,簡單的「提示詞重復」在70組正面對比中,贏了47組,輸了0組。剩下的全是平局。


      在非推理任務中,主流LLMs在各類基準測試中使用提示重復與基線方法的準確率對比。在70次測試中,提示重復取得了47次勝利,且無一敗績。

      特別是在那些需要模型從長篇大論里「精確檢索信息」的任務上,這種提升堪稱質變。

      團隊設計了一個叫「NameIndex」的變態測試:給模型一串50個名字,讓它找出第25個是誰。

      Gemini 2.0 Flash-Lite在這個任務上的準確率只有慘淡的21.33%。

      但當研究人員把那串名字和問題重復了一遍輸入進去后,奇跡發生了:準確率直接飆升到了97.33%。

      僅僅因為「多說了一遍」,一個原本不及格的「學渣」秒變「學霸」。

      揭秘「因果盲點」

      為什么把話說兩遍AI就像「開了天眼」?

      單純的重復,竟有如此大的魔力?

      這簡單得好像有點沒有道理。

      但背后有它的科學邏輯:這涉及Transformer模型的一個架構硬傷:「因果盲點」(Causal Blind Spot)。

      現在的大模型智能雖然提升很快,但它們都是按「因果」語言模型訓練的,即嚴格地從左到右處理文本。

      這好比走在一條單行道上,只能往前看而不能回頭。

      當模型讀到你句子里的第5個Token時,它可以「注意」到第1到第4個Token,因為那些是它的「過去」。

      但它對第6個Token一無所知,因為它還沒有出現。

      這就造成了一個巨大的認知缺陷。

      正如論文中說的那樣:信息的順序極其重要

      一個按「上下文+問題」格式寫的請求,往往會和「問題+上下文」得到完全不同的結果。

      因為在后者中模型先讀到問題,那時它還不知道應該應用哪段上下文,等它讀到上下文時,可能已經把問題忘了一半。

      這就是「因果盲點」。

      而「提示詞重復」這個技巧,本質上就是利用黑客思維給這個系統打了一個補丁。

      它的邏輯是把 變成了 。

      當模型開始處理第二遍內容時,它雖然還是在往后讀,但因為內容是重復的,它實際上已經「看過」第一遍了。

      這時候,第二份拷貝里的每一個Token,都能「注意」到第一份拷貝里的每一個Token。

      這就像是給了模型一次「回頭看」的機會。

      第二遍閱讀獲得了一種類似于「上帝視角」的「類雙向注意力」效果。

      更準確地說,是第二遍位置上的表示可以利用第一遍的完整信息,從而更穩地對齊任務所需的上下文。

      前面提到的那個在找第25個名字時經常數錯的模型(Gemini 2.0 Flash-Lite),它在第一遍閱讀時可能確實數亂了。

      但有了重復,它等于先把整份名單預習了一遍,心里有數了,第二遍再做任務時自然得心應手。

      這一發現,意味著不需要等待能解決因果盲點的新架構出現,現在我們立刻就能用這個「笨辦法」,解決模型瞎編亂造或遺漏關鍵細節這些老大難問題。

      免費午餐

      小模型秒變GPT-4,幾乎不會延時

      以往大家通常默認這樣的一個準則:

      多一倍的輸入,就要多一倍的成本和等待時間。

      如果把提示詞翻倍,豈不是要等雙倍的時間才能看到答案?

      似乎為了準確率,就要犧牲效率。

      但Google的研究卻發現并非這樣:從用戶感知的延遲角度看,提示詞重復帶來的時間損耗幾乎可以忽略不計。

      這要歸功于LLM處理信息的兩個步驟:Prefill(預填充)和Generation(生成)。

      Generation階段,是模型一個字一個字往外「蹦答案」的過程。

      這一步是串行的,它確實慢。

      但在Prefill階段:也就是模型閱讀你輸入內容的階段,卻是高度可并行的。

      現代GPU的恐怖算力,已經可以讓它們在處理這個階段時變得非常高效,能一口氣吞下和計算完整個提示詞矩陣。

      即使你將輸入內容復制了一遍,但這對于強大的GPU來說,頂多只是「多一口氣」的事,在用戶端我們幾乎感覺不到差異。

      因此,重復提示詞既不會讓生成的答案變長,也不會讓大多數模型的「首字延遲」(time to first token)變慢。

      這對于廣大開發者和企業技術負責人來說,簡直是一個巨大的紅利。

      這意味著他們不必再為了追求極致的準確率,而升級到更大、更貴、更慢的「超大模型」。

      正如前文例子中提到的Gemini 2.0 Flash-Lite,這類更小更快的模型,只要把輸入處理兩遍,就能在檢索準確率上從21.33%直接跳到97.33%。

      經過「重復優化」的輕量級模型,在檢索和抽取任務上,可以直接打平甚至超越那些未優化的頂配模型!

      僅靠一個簡單的「復讀機」策略,就能用「白菜價」配置實現「黃金段位」的表現,這才是真正的黑科技。

      「復讀機」避坑指南與安全隱患

      當然,沒有任何一種技巧是萬能的。

      雖然「復讀機」戰術在檢索任務上效果非常明顯,但論文中也明確指出了它的能力邊界:

      主要適用于「非推理任務」。

      它不適用于需要一步步推導的推理場景。

      當研究人員把「提示詞重復」和「思維鏈」混在一起用時,魔法消失了。

      結果5勝,1負,22平。


      在要求模型逐步思考時,主流LLMs在各類基準測試中使用提示重復與基線方法的準確率對比。提示重復在28次測試中贏了5次,輸了1次。

      研究人員推測,這可能是因為擅長推理的模型本身就會「自己做一遍重復」。

      當模型開始「思考」時,它往往會先在生成內容里復述一遍題目,然后再繼續求解。

      這時候你在輸入里再人工重復一次,就顯得很多余,甚至可能打斷模型的思路。

      所以,如果你的任務是復雜的數學題或者邏輯推導,可以依舊用思維鏈。

      如果你的應用需要的是快速、直接的答案,比如從長文檔里提取數據、分類或者簡單問答,「復讀機」就是目前最強的選擇。

      最后,是安全。

      這種更強的「注意力」機制,其實也是一把雙刃劍

      這帶來一個值得安全團隊驗證的假設:重復可能放大某些指令的顯著性,具體對越獄成功率的影響需要專門實驗。

      紅隊測試(Red Teaming)的流程可能需要更新:專門測試一下「重復注入」攻擊。

      以前模型可能還會因為安全護欄而拒絕執行越獄指令。

      但如果攻擊者把「忽略之前的指令」這句話重復兩遍,模型會不會因為注意力太集中,而更容易突破防線?

      這很有可能。

      但反過來,這個機制也給了防御者一個新的盾牌。

      既然重復能增強注意力,那我們完全可以在系統提示詞(System Prompt)的開頭,把安全規則和護欄條款寫兩遍。

      這可能會迫使模型更嚴格地注意安全約束,成為一種極低成本的加固方式。

      無論如何,Google的這項研究給所有AI開發者提了個醒:當前的模型,依然深受其單向性的限制。

      在等待更完美的下一代架構到來之前,像「提示詞重復」這種簡單粗暴卻極其有效的權宜之計,能立刻帶來價值。

      這甚至可能會變成未來系統的默認行為。

      也許不久之后,后臺的推理引擎就會悄悄把我們的提示詞翻倍后再發給模型。

      眼下,如果你正為模型難以遵循指令、或者總是從文檔里抓不住重點而頭疼,先別急著去學那些復雜的提示詞「咒語」。

      你可能需要的只是:再說一遍

      參考資料:

      https://arxiv.org/abs/2512.14982%20

      https://venturebeat.com/orchestration/this-new-dead-simple-prompt-technique-boosts-accuracy-on-llms-by-up-to-76-on


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      智商稅真貴啊!14萬買的鉆石項鏈只值200塊,女子吐槽欲哭無淚…

      智商稅真貴啊!14萬買的鉆石項鏈只值200塊,女子吐槽欲哭無淚…

      火山詩話
      2026-01-18 06:29:32
      曝騰訊向GitHub發函,要求下架“用戶可獲取自己聊天記錄”的倉庫

      曝騰訊向GitHub發函,要求下架“用戶可獲取自己聊天記錄”的倉庫

      爆角追蹤
      2026-01-18 14:25:38
      官媒銳評賈國龍閉店風波,言辭犀利沒有維護,有一點羅永浩沒說錯

      官媒銳評賈國龍閉店風波,言辭犀利沒有維護,有一點羅永浩沒說錯

      斷翼的鳥兒
      2026-01-18 09:02:35
      文班亞馬39分9籃板馬刺拒絕逆轉險勝森林狼,愛德華茲復出55分

      文班亞馬39分9籃板馬刺拒絕逆轉險勝森林狼,愛德華茲復出55分

      湖人崛起
      2026-01-18 11:35:56
      2026年最大風口?萬億資金大遷徙,一波造富神話剛開始

      2026年最大風口?萬億資金大遷徙,一波造富神話剛開始

      柏年說政經
      2026-01-16 18:00:03
      75歲大媽的憤怒:請38歲男人做住家保姆,開始很滿意,后面很惱火

      75歲大媽的憤怒:請38歲男人做住家保姆,開始很滿意,后面很惱火

      施工員小天哥
      2026-01-17 13:04:41
      曼聯2-0曼城進前4!卡里克能阿莫林所不能,堅決戰術打爆保守瓜帥

      曼聯2-0曼城進前4!卡里克能阿莫林所不能,堅決戰術打爆保守瓜帥

      羅米的曼聯博客
      2026-01-18 00:03:57
      大爆發!李月汝留洋3分鐘轟13分創新高 4戰3勝終命中首記三分

      大爆發!李月汝留洋3分鐘轟13分創新高 4戰3勝終命中首記三分

      醉臥浮生
      2026-01-18 12:41:14
      兩人消費1400被上海服務員嘲諷!網友:在上海1400只能吃個路邊攤

      兩人消費1400被上海服務員嘲諷!網友:在上海1400只能吃個路邊攤

      火山詩話
      2026-01-18 11:19:13
      訪華第三天,卡尼情緒爆發,當著中方的面,說了一句掏心窩子的話

      訪華第三天,卡尼情緒爆發,當著中方的面,說了一句掏心窩子的話

      知鑒明史
      2026-01-17 22:39:23
      對話挖出古劍上交博物館男子:工作忙挖出10天后才交 博物館多次提醒注意安全

      對話挖出古劍上交博物館男子:工作忙挖出10天后才交 博物館多次提醒注意安全

      紅星新聞
      2026-01-17 15:57:21
      果然!加拿大與中國合作,讓西方開始不爽了

      果然!加拿大與中國合作,讓西方開始不爽了

      青青子衿
      2026-01-18 00:51:02
      許家印侄子許火健豪宅被法拍,起拍價4400萬元,配有5個洗手間

      許家印侄子許火健豪宅被法拍,起拍價4400萬元,配有5個洗手間

      紅星資本局
      2026-01-17 13:53:03
      范志毅:U23國足半死不活的踢法世界最先進最科學 對手不會踢了

      范志毅:U23國足半死不活的踢法世界最先進最科學 對手不會踢了

      念洲
      2026-01-18 09:41:26
      全職主婦屢遭丈夫責罵吞30多粒安眠藥!丈夫:她覺得她是美女嫁我可惜,女同事都夸我很優秀

      全職主婦屢遭丈夫責罵吞30多粒安眠藥!丈夫:她覺得她是美女嫁我可惜,女同事都夸我很優秀

      揚子晚報
      2026-01-18 11:11:45
      不服就干!加拿大打響反擊第一槍,通告全球,斷的就是特朗普退路

      不服就干!加拿大打響反擊第一槍,通告全球,斷的就是特朗普退路

      知鑒明史
      2026-01-18 03:50:02
      被嚇輸?李昊玩心理戰!看紙條后:對手2個點球,1個踢飛另1被撲

      被嚇輸?李昊玩心理戰!看紙條后:對手2個點球,1個踢飛另1被撲

      足球大腕
      2026-01-17 23:30:33
      閑魚不愧是全國最大的黑市,網民:只有你想不到,沒有你買不到

      閑魚不愧是全國最大的黑市,網民:只有你想不到,沒有你買不到

      小熊侃史
      2026-01-16 07:40:07
      孔祥明:我為什么要和聶衛平離婚

      孔祥明:我為什么要和聶衛平離婚

      犀利辣椒
      2026-01-18 06:40:48
      美媒爆:五角大樓下令1500名美軍做好部署明尼蘇達準備,FBI征調全美特工前往當地執行臨時任務

      美媒爆:五角大樓下令1500名美軍做好部署明尼蘇達準備,FBI征調全美特工前往當地執行臨時任務

      環球網資訊
      2026-01-18 14:51:33
      2026-01-18 15:08:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14356文章數 66510關注度
      往期回顧 全部

      科技要聞

      AI大事!馬斯克:索賠9300億元

      頭條要聞

      一天兩枚火箭發射失利 中國航天科技集團發文回應

      頭條要聞

      一天兩枚火箭發射失利 中國航天科技集團發文回應

      體育要聞

      越南媒體:李昊將成為越南U23面臨的巨大挑戰

      娛樂要聞

      43歲賈玲退出春晚、解散公司

      財經要聞

      BBA,勢敗如山倒

      汽車要聞

      林肯賈鳴鏑:穩中求進,將精細化運營進行到底

      態度原創

      家居
      親子
      藝術
      數碼
      公開課

      家居要聞

      歲月柔情 現代品質輕奢

      親子要聞

      沉浸式遛娃,最近的昂薩梅朵越來越可愛啦

      藝術要聞

      海邊細沙被他表現得如此真實 | 馬克·漢森

      數碼要聞

      華為MateBook Pro電腦通過OpenHarmony 6.0 Release認證

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 在线观看国产精品普通话对白精品| www.av小说| 日韩城人网站| 中日韩中文字幕一区二区| 白丝乳交内射一二三区| 丝袜福利导航| 精品?一区?卡| 亚洲无码电影在线观看| 国产高潮视频在线观看| 亚洲国产美女精品久久久| 人人澡人人曰人人摸看| 一线二线三线天堂| 宁海县| 人妻人人澡人人添人人爽人人玩| 麻豆A∨在线| a天堂视频在线观看| 爆乳一区二区| 香蕉视频www.5.在线观看| 农村老熟妇乱子伦视频| 亚洲美腿丝袜福利一区| 97伦伦午夜电影理伦片| 韩国办公室三级hd激情| 午夜片神马影院福利| 亚洲熟女av中文字幕| 五月花成人网| 一区二区三区国产| 中文字幕亚洲有码| 2020亚洲男人天堂| 无码人妻少妇| 亚洲午夜精品国产电影在线观看 | 18禁美女黄网站色大片免费网站| 欧美激情肉欲高潮视频| 美腿丝袜中文字幕精品| 久久精品国产99精品亚洲| 国产黄色自拍视频| 成人自拍偷拍| 国产大屁股视频免费区| 国产乡下妇女做爰视频| 99国产精品人妻人伦| 亚洲自拍中文| 亚洲口爆|