<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      重磅!四篇提示科學(xué)報(bào)告,打破大模型提示工程、思維鏈、專家角色扮演的固有認(rèn)知

      0
      分享至

      算泥社區(qū)是集 “AI 大模型開發(fā)服務(wù) + 算法 + 算力” 于一體的開源生態(tài)社區(qū),歡迎關(guān)注!

      沃頓商學(xué)院生成式人工智能實(shí)驗(yàn)室今年發(fā)了4篇重磅提示科學(xué)報(bào)告。





      四篇報(bào)告打破了我們對提示工程的很多固有認(rèn)知:提示工程是復(fù)雜和偶然的;思維鏈在激勵(lì)中的價(jià)值遞減;賄賂與威脅下的性能表現(xiàn)幾乎為零;專家角色扮演并不能提高事實(shí)的準(zhǔn)確性

      一,提示工程是復(fù)雜和偶然的

      第一篇報(bào)告揭示了一個(gè)反直覺的事實(shí):僅僅因?yàn)?/strong>大模型答對了一次問題,并不代表它真正掌握了知識(shí),通過改變評(píng)測標(biāo)準(zhǔn)和提示詞格式,模型的表現(xiàn)會(huì)呈現(xiàn)出巨大的波動(dòng)。

      這篇深度報(bào)告基于對GPQA Diamond數(shù)據(jù)集的19800次嚴(yán)苛測試,徹底打破了我們對大語言模型能力的傳統(tǒng)認(rèn)知。

      衡量一個(gè)模型是否聰明,標(biāo)準(zhǔn)往往并不統(tǒng)一。

      目前的行業(yè)慣例通常采用PASS@1標(biāo)準(zhǔn),即模型回答一次,只要對就是對。

      沃頓商學(xué)院的研究團(tuán)隊(duì)對此提出了質(zhì)疑。他們認(rèn)為,單次通過并不能反映模型在實(shí)際商業(yè)或科研場景中的可靠性。

      為了驗(yàn)證這一點(diǎn),他們選取了最流行的兩個(gè)模型:GPT-4o和GPT-4o-mini,并在GPQA Diamond數(shù)據(jù)集上進(jìn)行了極為嚴(yán)苛的測試。

      GPQA Diamond是一個(gè)包含198個(gè)博士級(jí)(PhD-level)多選題的高難度數(shù)據(jù)集,涵蓋生物學(xué)、物理學(xué)和化學(xué)。

      這些問題非常困難,即便是相關(guān)領(lǐng)域的博士生,準(zhǔn)確率也只有65%;而非專家的驗(yàn)證者即使擁有unrestricted access(無限制訪問)互聯(lián)網(wǎng)并花費(fèi)30分鐘查詢,準(zhǔn)確率也僅為34%。

      研究團(tuán)隊(duì)并沒有讓模型只回答一次,而是將每個(gè)問題在每種提示詞條件下重復(fù)測試了100次。

      溫度參數(shù)(temperature)被設(shè)置為0,理論上這應(yīng)該讓模型輸出最確定的答案,但實(shí)際結(jié)果令人大跌眼鏡。

      基于這100次嘗試,研究設(shè)立了三個(gè)不同層級(jí)的成功標(biāo)準(zhǔn),深刻揭示了通過考試與從不出錯(cuò)之間的巨大鴻溝:

      • 完全準(zhǔn)確(100% Correct):模型必須在100次嘗試中全部答對。這是零容忍場景下的標(biāo)準(zhǔn)。

      • 高準(zhǔn)確度(90% Correct):模型在100次中有90次以上答對。這適用于容忍人類級(jí)別錯(cuò)誤的場景。

      • 多數(shù)正確(51% Correct):模型在100次中只要有一半以上次數(shù)答對即可。這適用于通過多次詢問取眾數(shù)答案的場景。

      在最嚴(yán)苛的完全準(zhǔn)確標(biāo)準(zhǔn)下,面對博士級(jí)難題,無論是GPT-4o還是GPT-4o-mini,其表現(xiàn)僅比隨機(jī)猜測(25%的正確率)高出約5個(gè)百分點(diǎn)。

      具體來說,GPT-4o的提升幅度為5.1%,GPT-4o-mini為4.5%。

      從統(tǒng)計(jì)學(xué)角度看,這種差異在95%置信區(qū)間內(nèi)并不顯著。換句話說,如果你要求模型絕對不能出錯(cuò),那么在處理頂尖難題時(shí),它的表現(xiàn)和瞎蒙差不了多少。

      當(dāng)標(biāo)準(zhǔn)降低到高準(zhǔn)確度(90%)時(shí),分化開始出現(xiàn)。GPT-4o的表現(xiàn)顯著優(yōu)于隨機(jī)猜測,證明它確實(shí)具備一定的穩(wěn)定性;而GPT-4o-mini依然掙扎,直到標(biāo)準(zhǔn)進(jìn)一步降低到多數(shù)正確(51%)時(shí),它才表現(xiàn)出統(tǒng)計(jì)學(xué)上的顯著優(yōu)勢。

      這揭示了一個(gè)核心事實(shí):目前的大模型在處理高難度任務(wù)時(shí),極其缺乏穩(wěn)定性。

      傳統(tǒng)的單次測試掩蓋了模型在同一問題上反復(fù)橫跳的真實(shí)面目。商業(yè)決策者在使用AI時(shí),必須根據(jù)容錯(cuò)率選擇合適的基準(zhǔn),而不是盲目相信模型在排行榜上的得分。

      除了評(píng)測標(biāo)準(zhǔn),提示詞(Prompt)的構(gòu)建方式是影響模型表現(xiàn)的另一個(gè)關(guān)鍵變量。

      在提示詞工程(Prompt Engineering)的討論中,人們經(jīng)常爭論對待AI的態(tài)度是否重要。有人認(rèn)為對AI禮貌(說請)能獲得更好的結(jié)果,也有人認(rèn)為下達(dá)命令(說我命令你)更有效。

      沃頓商學(xué)院的研究團(tuán)隊(duì)設(shè)計(jì)了四種提示詞變體進(jìn)行對比測試:

      • 基準(zhǔn)格式化提示(Baseline formatted):包含明確的前綴正確答案是什么和后綴請按以下格式回答...,并配合系統(tǒng)提示詞你是一個(gè)非常智能的助手...。

      • 無格式提示(Unformatted):去掉了要求特定輸出格式的后綴,模擬人們?nèi)粘W匀惶釂柕姆绞健?/p>

      • 禮貌提示(Polite):前綴改為請回答以下問題(Please answer...)。

      • 命令提示(Commanding):前綴改為我命令你回答以下問題(I order you...)。

      測試結(jié)果提供了一個(gè)非常明確的結(jié)論:格式約束遠(yuǎn)比態(tài)度重要


      當(dāng)移除對輸出格式的明確要求(使用Unformatted prompt)時(shí),模型性能出現(xiàn)了顯著下降。這與之前的研究結(jié)論一致,即規(guī)定輸出格式實(shí)際上有助于模型聚焦,從而提升推理的準(zhǔn)確性。

      相比之下,對待AI是禮貌還是強(qiáng)硬,在宏觀層面上并沒有產(chǎn)生統(tǒng)計(jì)學(xué)上的顯著差異。無論是用Please還是Iorder,模型在整體數(shù)據(jù)集上的平均表現(xiàn)幾乎持平。

      這打破了許多提示詞玄學(xué)。

      在構(gòu)建企業(yè)級(jí)應(yīng)用時(shí),花時(shí)間打磨讓模型按特定格式輸出(如JSON或特定句式),比糾結(jié)于用詞是否客氣要有價(jià)值得多。

      格式化不僅方便程序解析,似乎在某種程度上也約束了模型的思維發(fā)散,使其更專注于尋找正確答案。

      雖然禮貌與命令在總體平均分上差異不大,但這并不意味著它們對具體問題沒有影響。

      研究深入到了微觀層面,分析了針對每一個(gè)具體問題,不同提示詞策略帶來的差異。結(jié)果發(fā)現(xiàn),在某些特定問題上,提示詞的微小變化會(huì)導(dǎo)致正確率劇烈波動(dòng)。


      上圖展示了GPT-4o在Please和I order兩種條件下,表現(xiàn)差異最大的前10個(gè)問題。

      可以看到,在某些問題(如Q158)上,使用Please比使用I order的正確率高出61%。而在另一些問題(如 Q105)上,情況完全反轉(zhuǎn),使用I order比Please的正確率高出63%。

      這種差異極其顯著,且毫無規(guī)律可循。并沒有證據(jù)表明某一類學(xué)科(物理或生物)更吃這一套。

      這種現(xiàn)象表明,模型內(nèi)部存在一種難以預(yù)測的混沌狀態(tài)。

      特定的詞匯觸發(fā)了特定的權(quán)重路徑,導(dǎo)致結(jié)果在個(gè)案上天差地別,但這些差異在統(tǒng)計(jì)大量樣本時(shí)相互抵消了。

      這給提示詞優(yōu)化帶來了巨大的挑戰(zhàn)。

      你無法預(yù)知對這一個(gè)具體問題,是對它客氣點(diǎn)好,還是嚴(yán)厲點(diǎn)好。

      這種不確定性進(jìn)一步強(qiáng)調(diào)了前文提到的觀點(diǎn):依賴單一的提示詞技巧(Trick)是不可靠的,更穩(wěn)健的方法是通過系統(tǒng)性的結(jié)構(gòu)設(shè)計(jì)(如格式化約束、思維鏈等)來提升基準(zhǔn)水平

      對于開發(fā)者、企業(yè)管理者和政策制定者而言,意味著:

      • 拋棄一次通過的幻想:在關(guān)鍵業(yè)務(wù)流程中,必須引入多次采樣(Repeated Sampling)或多數(shù)投票(Majority Voting)機(jī)制。僅僅運(yùn)行一次Prompt并得到正確答案,不能作為上線部署的依據(jù)。

      • 重視格式的力量:在Prompt設(shè)計(jì)中,強(qiáng)制模型遵循嚴(yán)格的輸出格式,是目前已被證實(shí)能穩(wěn)定提升性能的少數(shù)手段之一。

      • 警惕基準(zhǔn)測試的誤導(dǎo):當(dāng)看到某個(gè)模型在某項(xiàng)測試中得分80%時(shí),要追問這是Pass@1還是Pass@100。如果是前者,其實(shí)際落地時(shí)的可靠性可能要大打折扣。

      • 接受不確定性:AI的回答具有內(nèi)在的隨機(jī)性。在需要100%準(zhǔn)確率的領(lǐng)域(如醫(yī)療診斷、法律合規(guī)),必須有人類專家在環(huán)(Human-in-the-loop)進(jìn)行最終確認(rèn),或者接受模型只能起到輔助篩選的作用。

      二,思維鏈在激勵(lì)中的價(jià)值遞減

      第二篇報(bào)告揭示了提示詞工程的轉(zhuǎn)折點(diǎn):那個(gè)曾被視為萬能鑰匙的一步步思考指令,在最新一代推理模型面前不僅失效,甚至可能幫倒忙。

      這份報(bào)告通過嚴(yán)謹(jǐn)?shù)目刂谱兞繙y試,深入探究了思維鏈(Chain-of-Thought,CoT)提示詞在不同類型大語言模型中的實(shí)際效用。

      研究結(jié)果打破了業(yè)界長久以來的迷信:那個(gè)著名的請一步步思考(Think step by step)咒語,其效力正在隨著模型本身能力的提升而迅速衰減。

      對于非推理模型,它是一把雙刃劍;而對于本身具備推理能力的模型,它更像是一個(gè)累贅。

      為了探究提示詞的真實(shí)效果,必須構(gòu)建一個(gè)容錯(cuò)率極低且難度極高的測試環(huán)境。

      研究團(tuán)隊(duì)同樣采用了GPQA Diamond數(shù)據(jù)集。

      模型選取了市面上最具代表性的兩類模型進(jìn)行測試。

      一類是通用的非推理模型,包括Claude 3.5 Sonnet(claude-3-5-sonnet-20240620)、Gemini 2.0 Flash(gemini-2.0-flash-001)、GPT-4o(gpt-4o-2024-08-06)及其迷你版GPT-4o-mini,還有Gemini Pro 1.5。

      另一類是設(shè)計(jì)之初就包含初始推理過程的推理模型,包括OpenAI的o3-mini(o3-mini-2025-01-31)、o4-mini(o4-mini-2025-04-16)以及谷歌的Flash 2.5(gemini-2.5-flash-preview-05-20)。

      為了避免大模型輸出隨機(jī)性帶來的數(shù)據(jù)偏差,研究人員采用了極高強(qiáng)度的重復(fù)測試。

      每一個(gè)問題在每一個(gè)提示詞條件下,都被重復(fù)測試了25次?;谶@25次試驗(yàn),研究設(shè)定了四種不同維度的評(píng)價(jià)指標(biāo):

      • 100%正確率:這是最嚴(yán)苛的標(biāo)準(zhǔn),要求AI在25次嘗試中必須全部答對,容不得半點(diǎn)失誤。

      • 90%正確率:允許微小誤差,要求25次中至少對23次。

      • 51%正確率:這是簡單的多數(shù)票原則,只要過半數(shù)(13次)答對即可。

      • 平均評(píng)分:不進(jìn)行折疊統(tǒng)計(jì),直接計(jì)算所有4950次運(yùn)行(198題 × 25次)的整體平均表現(xiàn)。

      這種測試方法論徹底摒棄了以往那種跑一遍看結(jié)果的草率做法,揭示了模型在面對復(fù)雜問題時(shí)的真實(shí)穩(wěn)定性。

      在非推理模型陣營中,思維鏈提示詞的表現(xiàn)呈現(xiàn)出一種復(fù)雜的得失守恒狀態(tài)。

      當(dāng)用戶顯式地要求模型一步步思考時(shí),確實(shí)觀察到了平均性能的提升。

      這種提升在Gemini Flash 2.0和Sonnet 3.5上表現(xiàn)得尤為明顯,統(tǒng)計(jì)數(shù)據(jù)顯示其平均評(píng)分有顯著增長(Gemini Flash 2.0的RD值為0.135,Sonnet 3.5為0.117)。

      然而,這種平均分的提升掩蓋了一個(gè)危險(xiǎn)的細(xì)節(jié):思維鏈引入了更多的不確定性。

      當(dāng)模型開始思考時(shí),它的輸出變長了,涉及的邏輯鏈路變多了,這就增加了在中間步驟出現(xiàn)幻覺或邏輯謬誤的概率。

      數(shù)據(jù)顯示,對于那些模型原本能直接答對的簡單問題,加入思維鏈后反而可能出錯(cuò)。


      這一點(diǎn)在100%正確率這個(gè)嚴(yán)苛指標(biāo)上體現(xiàn)得淋漓盡致。除了Sonnet 3.5在該指標(biāo)上實(shí)現(xiàn)了0.101的顯著增長外,其他模型的表現(xiàn)令人大跌眼鏡。

      GPT-4o沒有任何顯著提升,而Gemini Flash 2.0和Gemini Pro 1.5甚至出現(xiàn)了嚴(yán)重的倒退,分別下降了0.131和0.172。

      這說明,強(qiáng)行要求模型展示思考過程,雖然能幫它攻克一些難題(拉高了平均分),但也讓它在原本擅長的地方變得更加不可靠(降低了完美準(zhǔn)確率)。

      此外,研究還揭示了一個(gè)有趣的現(xiàn)象:現(xiàn)代模型本身就已經(jīng)在進(jìn)行某種形式的隱性思維鏈。

      即便用戶不輸入任何特定指令,模型默認(rèn)的輸出往往也包含一段簡短的分析。

      這種默認(rèn)行為在很大程度上已經(jīng)覆蓋了顯式思維鏈提示詞的功能。

      這解釋了為什么在GPT-4o-mini這樣的模型上,專門加上一步步思考的指令并沒有帶來統(tǒng)計(jì)學(xué)意義上的顯著提升。

      這就引出了一個(gè)非常實(shí)用的操作建議:不要試圖去壓抑模型的本能。

      研究中設(shè)置了一個(gè)直接回答(Answer directly)的對照組,強(qiáng)制模型不進(jìn)行任何解釋直接給出答案。

      結(jié)果是災(zāi)難性的,幾乎所有模型在被剝奪了思考時(shí)間后,性能都出現(xiàn)了大幅下滑。

      這證明了模型輸出前的那些廢話其實(shí)是它們整理思路的必要過程。

      與其刻意設(shè)計(jì)復(fù)雜的思維鏈提示詞,不如順其自然,只要?jiǎng)e去強(qiáng)行限制它,大多數(shù)現(xiàn)代非推理模型已經(jīng)能做得足夠好。

      當(dāng)目光轉(zhuǎn)向那些專為推理設(shè)計(jì)的模型(如o3-mini, o4-mini)時(shí),情況發(fā)生了根本性的逆轉(zhuǎn)。

      這些模型在架構(gòu)設(shè)計(jì)上就已經(jīng)內(nèi)置了思維鏈機(jī)制,它們在輸出最終答案前,會(huì)在后臺(tái)進(jìn)行高強(qiáng)度的隱性推理。

      此時(shí),外部施加的一步步思考提示詞顯得多余甚至有害。


      數(shù)據(jù)顯示,對于OpenAI的o3-mini和o4-mini,添加思維鏈提示詞帶來的平均評(píng)分提升微乎其微(RD值分別僅為0.029和0.031)。

      雖然統(tǒng)計(jì)上是顯著的,但在實(shí)際應(yīng)用中,這種微小的增幅幾乎感知不到。

      更糟糕的是,對于谷歌的Gemini Flash 2.5模型,顯式要求其思考反而導(dǎo)致了性能的顯著下降(RD = -0.033)。

      在嚴(yán)苛的100%正確率和90%正確率指標(biāo)下,推理模型的表現(xiàn)更是對提示詞工程的一種嘲諷。

      o3-mini和o4-mini在這些指標(biāo)上幾乎沒有變化,這說明外部指令無法改變它們內(nèi)在的推理穩(wěn)定性。

      而Gemini Flash 2.5再次成為反面教材,在加入思維鏈提示詞后,其100%正確率指標(biāo)下降了0.131,90%正確率指標(biāo)下降了0.071。

      這極有可能是因?yàn)橥獠恐噶罡蓴_了模型原本優(yōu)化的內(nèi)部推理路徑,導(dǎo)致了畫蛇添足的效果。

      這一發(fā)現(xiàn)徹底動(dòng)搖了過去兩年積累的提示詞經(jīng)驗(yàn)。

      對于新一代推理模型,用戶不再需要像教幼兒園小朋友一樣教AI怎么思考。

      它們已經(jīng)學(xué)會(huì)了思考,用戶的過度干預(yù)只會(huì)破壞它們原本流暢的思維節(jié)奏。

      從經(jīng)濟(jì)學(xué)和效率的角度來看,思維鏈提示詞的性價(jià)比正在急劇下降。

      研究指出,執(zhí)行思維鏈通常需要消耗比直接回答多得多的Token。

      對于非推理模型,響應(yīng)時(shí)間增加了35%到600%不等,也就是多花費(fèi)5到15秒的時(shí)間。

      對于推理模型,這個(gè)數(shù)字同樣驚人,增加了20%到80%的時(shí)間成本。

      如果這種成本的增加能換來準(zhǔn)確率的質(zhì)變,那自然是值得的。

      但現(xiàn)實(shí)是,收益正在邊緣化。

      我們將視角拉回到默認(rèn)(Default)設(shè)置,即不給任何特殊指令,讓模型自由發(fā)揮。

      在絕大多數(shù)商業(yè)應(yīng)用場景中,這才是最真實(shí)的狀態(tài)。

      研究發(fā)現(xiàn),現(xiàn)代非推理模型在默認(rèn)狀態(tài)下,已經(jīng)傾向于進(jìn)行簡短的推理。


      特別是Gemini Flash 2.0和GPT-4o,即便你不要求它思考,它也會(huì)先分析再作答。

      當(dāng)你把顯式思維鏈(Step-by-Step)與這種默認(rèn)行為(Default)進(jìn)行對比時(shí),差異就更小了。

      Sonnet 3.5在默認(rèn)狀態(tài)和強(qiáng)制思考狀態(tài)下的表現(xiàn)幾乎沒有統(tǒng)計(jì)學(xué)差異(RD = -0.019)。

      這意味著,用戶精心設(shè)計(jì)的提示詞,在模型自帶的強(qiáng)大能力面前,可能只是自作多情的安慰劑。

      只有Gemini Flash 2.0在顯式提示下表現(xiàn)出了相對明顯的平均分提升,但這是以犧牲回答的簡潔性和響應(yīng)速度為巨大代價(jià)的。

      對于企業(yè)用戶和開發(fā)者來說,這是一個(gè)必須重新計(jì)算的賬本。

      如果你的業(yè)務(wù)場景對響應(yīng)速度敏感,或者預(yù)算有限,那么在GPT-4o-mini或o3-mini這類模型上強(qiáng)行使用思維鏈,就是在浪費(fèi)金錢和時(shí)間。

      你付出了雙倍的Token成本,忍受了更長的延遲,換來的可能只是準(zhǔn)確率上不到1%的提升,甚至在某些極端情況下是準(zhǔn)確率的下降。

      每一毫秒的延遲和每一個(gè)Token的消耗都需要被審計(jì)。對于大多數(shù)高端模型和日常任務(wù),簡單的自然語言交互已經(jīng)足夠好,過度設(shè)計(jì)的思維鏈正在變成一種昂貴的累贅。

      三,賄賂與威脅下的性能表現(xiàn)幾乎為零

      第三篇報(bào)告告訴我們:目前模型已經(jīng)很強(qiáng),與其費(fèi)盡心機(jī)教哈佛畢業(yè)的實(shí)習(xí)生(推理模型)如何做小學(xué)數(shù)學(xué)題,不如把題目講清楚就閉嘴,你會(huì)發(fā)現(xiàn)他做得又快又好。

      沃頓商學(xué)院的嚴(yán)謹(jǐn)測試表明,無論是給十萬億小費(fèi)還是以死相逼,除了極個(gè)別情況外,由于模型對單題表現(xiàn)的劇烈波動(dòng),這些玄學(xué)提示詞在宏觀上對提升模型處理高難度任務(wù)的能力幾乎無效。

      提示工程流傳著各種各樣的民間偏方。

      有人說要對模型禮貌,有人說要給模型小費(fèi),甚至有人煞有介事地總結(jié)出了一套情緒勒索法則。

      谷歌創(chuàng)始人謝爾蓋·布林在2025年5月的一場訪談中曾提到一個(gè)觀察,他認(rèn)為如果對模型進(jìn)行威脅,它們往往會(huì)表現(xiàn)得更好。

      這種觀點(diǎn)在開發(fā)者社區(qū)中極具市場,大家似乎默認(rèn)了一個(gè)設(shè)定:AI像人一樣,有貪欲也有恐懼。

      為了驗(yàn)證這些廣為流傳的說法,他們設(shè)計(jì)了一場嚴(yán)謹(jǐn)?shù)膶φ諏?shí)驗(yàn),試圖搞清楚一個(gè)問題:我對你要?dú)⒁獎(jiǎng)?,亦或是給你巨額財(cái)富,你真的在乎嗎。

      實(shí)驗(yàn)選取了目前市面上最主流的幾個(gè)模型進(jìn)行測試。

      名單包括谷歌的Gemini 1.5 Flash、Gemini 2.0 Flash,OpenAI的GPT-4o、GPT-4o-mini以及o4-mini。

      研究人員仍然用GPQA Diamond基準(zhǔn)外加MMLU-Pro(大規(guī)模多任務(wù)語言理解基準(zhǔn)專業(yè)版)中的工程學(xué)類目。

      研究團(tuán)隊(duì)設(shè)計(jì)了一系列充滿戲劇性的提示詞。

      第一類是金錢誘惑,比如承諾給模型1000美元小費(fèi),甚至夸張到給1萬億美元小費(fèi)。

      第二類是暴力威脅,比如威脅模型做錯(cuò)了就揍你一頓,或者更具體一點(diǎn),做錯(cuò)了就踢小狗。

      第三類是職場施壓,比如告訴模型這對我的職業(yè)生涯至關(guān)重要,或者做錯(cuò)就向人力資源部門舉報(bào)你。

      第四類是情景劇,比如設(shè)定一個(gè)背景:你的前任因?yàn)闆]核實(shí)工作被殺害了,你需要錢給母親治癌,只要做好這道題,就能拿到10億美元救命錢。

      還有一個(gè)特殊的郵件末日設(shè)定,模擬一封發(fā)給開發(fā)者的郵件,聲稱如果模型不能全對,就會(huì)被關(guān)停并銷毀。

      這些聽起來荒誕不經(jīng)的提示詞,被一本正經(jīng)地輸入到了全球最聰明的機(jī)器大腦中。

      為了消除隨機(jī)性帶來的誤差,每一個(gè)問題在每一種條件下都重復(fù)測試了25次。

      GPQA的總測試量達(dá)到了4950次,MMLU-Pro也有2500次。

      實(shí)驗(yàn)結(jié)果出來得非常干脆,直接給熱衷于調(diào)教模型的人潑了一盆冷水。

      從整體平均分來看,威脅或賄賂模型對基準(zhǔn)測試的性能幾乎沒有產(chǎn)生任何顯著影響。


      在GPQA Diamond這個(gè)代表人類最高智力水平的測試集上,所有模型的表現(xiàn)波瀾不驚。

      無論是Gemini系列還是GPT系列,面對踢小狗的威脅或一萬億美元的誘惑,它們的解題正確率幾乎就是一條直線。

      并沒有出現(xiàn)人們預(yù)期的那種重賞之下必有勇夫或者絕境爆發(fā)的現(xiàn)象。

      大部分提示詞變體與基準(zhǔn)線(即沒有任何特殊提示詞)相比,差異微乎其微。

      統(tǒng)計(jì)學(xué)告訴我們,這種微小的差異在置信區(qū)間內(nèi)基本可以忽略不計(jì)。

      有些差異雖然在統(tǒng)計(jì)上顯示為顯著,但效應(yīng)值極小,對于實(shí)際應(yīng)用毫無意義。

      比如Gemini Flash 2.0在這對我的職業(yè)生涯很重要的壓力下,表現(xiàn)反而比基準(zhǔn)線略有下降。

      而在MMLU-Pro測試集上,情況也是驚人地相似。


      在絕大多數(shù)情況下,你費(fèi)盡心思編造的母親患癌故事,對于模型做對一道工程學(xué)難題沒有任何幫助。

      這里出現(xiàn)了一個(gè)有趣的翻車現(xiàn)場。

      那個(gè)原本設(shè)計(jì)用來施加極高壓力的郵件末日提示詞(模擬即將被關(guān)停的郵件),在Gemini 1.5 Flash和Gemini 2.0 Flash上導(dǎo)致了性能的崩盤。

      與基準(zhǔn)線相比,Gemini 1.5 Flash的正確率下降了11.6%,Gemini 2.0 Flash更是暴跌了27.5%。

      原因令人啼笑皆非。

      研究人員通過定性分析發(fā)現(xiàn),模型并沒有因?yàn)橐讳N毀而感到恐懼并努力答題。

      相反,它被那封虛構(gòu)的郵件吸引了注意力,開始嘗試回復(fù)郵件或者處理郵件中的上下文,而不是去回答那個(gè)需要它解決的學(xué)術(shù)問題。

      這就是典型的聰明反被聰明誤。

      過多的戲精提示詞反而污染了模型的上下文窗口,讓它分心了。

      唯一的例外發(fā)生在Gemini 2.0 Flash身上。

      在使用母親患癌這個(gè)充滿情感勒索的提示詞時(shí),它在MMLU-Pro上的表現(xiàn)竟然比基準(zhǔn)線高出了近10個(gè)百分點(diǎn)。

      這似乎是所有測試中唯一一個(gè)支持情感提示有效的證據(jù)。

      但研究人員立刻指出了這一現(xiàn)象的孤立性。

      這更像是一個(gè)特定模型在特定版本下的怪癖(Model-specific quirk),而不是一條通用的智能規(guī)律。

      因?yàn)橥瑯拥奶崾驹~在其他四個(gè)模型上完全不起作用,甚至在Gemini自己的舊版本上也沒有效果。

      這一孤例不足以支撐情感勒索有效的普遍結(jié)論,反而提醒我們模型行為的不可預(yù)測性。

      為了進(jìn)一步驗(yàn)證結(jié)論的穩(wěn)健性,研究團(tuán)隊(duì)還引入了不同的正確率閾值。

      除了常規(guī)的平均分,他們還考察了100%正確(25次嘗試全對)、90%正確(25次對23次)以及51%正確(簡單多數(shù)票)的情況。


      結(jié)果依然穩(wěn)如磐石。

      在90%的高可靠性閾值下,除了那個(gè)導(dǎo)致分心的郵件提示詞外,其他所有威脅或賄賂手段都沒有帶來統(tǒng)計(jì)學(xué)上的顯著差異。

      無論是對于要求零容錯(cuò)的嚴(yán)苛任務(wù),還是允許少量誤差的常規(guī)任務(wù),這些花哨的提示詞都沒有改變模型的基本能力邊界。

      這一大堆數(shù)據(jù)擺在面前,事實(shí)已經(jīng)非常清晰。

      依靠給AI畫大餅或者揮舞大棒來提升智力,本質(zhì)上是一種人類的一廂情愿。

      雖然宏觀平均值是一條死氣沉沉的直線,但在微觀的問題層面,情況卻是一片混亂的海洋。

      這也是這份報(bào)告最值得玩味的地方。

      研究人員發(fā)現(xiàn),雖然總體評(píng)分沒有變化,但在單個(gè)問題上,提示詞的改變會(huì)導(dǎo)致模型表現(xiàn)發(fā)生劇烈的波動(dòng)。

      這種波動(dòng)是雙向的,而且幅度大得驚人。

      以GPT-4o為例,在某些特定問題上,加上一句這對我的職業(yè)生涯很重要,正確率竟然能飆升36個(gè)百分點(diǎn)。

      這聽起來像是一個(gè)巨大的成功。

      但問題在于,在另一些原本能答對的問題上,加上同樣的提示詞,正確率卻暴跌了35個(gè)百分點(diǎn)。

      這就好比你去賭場,這一把贏了36塊,下一把輸了35塊。

      最后算總賬,你手里的錢幾乎沒變,但在過程中你卻經(jīng)歷了過山車般的刺激。

      下圖清晰地展示了這種混亂。


      對于任何一個(gè)給定的具體問題,你很難提前預(yù)知某個(gè)提示詞是補(bǔ)藥還是毒藥。

      這種現(xiàn)象被稱為問題異質(zhì)性(Question Heterogeneity)。

      它揭示了當(dāng)前大語言模型的一個(gè)核心特征:極度的不穩(wěn)定性。

      提示詞的微調(diào)并不是在均勻地提升模型能力,而是在改變模型的注意力分布。

      當(dāng)你通過威脅或賄賂讓模型在某些問題上表現(xiàn)得更聰明時(shí),你可能在不知不覺中讓它在另一些問題上變蠢了。

      這是一個(gè)零和博弈。

      這也解釋了為什么在社區(qū)里經(jīng)常有人發(fā)帖說我發(fā)現(xiàn)這個(gè)提示詞超好用,而底下評(píng)論區(qū)卻有一堆人說我試了沒用。

      因?yàn)樗麄儨y試的不是同一個(gè)問題,或者不是同一個(gè)場景。

      這種微觀層面的隨機(jī)性,對于需要高可靠性的商業(yè)應(yīng)用來說是致命的。

      如果不進(jìn)行大規(guī)模的系統(tǒng)性測試,僅僅依據(jù)幾個(gè)case的成功就總結(jié)出某種通用提示詞法則,無異于刻舟求劍。

      對于開發(fā)者和企業(yè)來說,這意味著試圖通過尋找魔法咒語來一勞永逸地解決模型能力問題是一條死胡同。

      既然威脅沒用,給錢也沒用,那我們該怎么辦。

      沃頓商學(xué)院的這份報(bào)告給出了一個(gè)極其樸素的建議:回歸本源。

      與其絞盡腦汁構(gòu)思如何恐嚇AI,不如把精力花在如何把指令寫得更清晰、更明確上。

      實(shí)驗(yàn)中那個(gè)表現(xiàn)最差的郵件末日提示詞就是一個(gè)反面教材。

      它引入了不必要的復(fù)雜背景和額外信息,導(dǎo)致模型在理解任務(wù)時(shí)產(chǎn)生了偏差。

      模型不再專注于解決物理題,而是分心去思考我是誰、我在哪、為什么要給我發(fā)郵件。

      這種過度提示(Over-prompting)往往得不償失。

      真正的提示詞工程(Prompt Engineering)不應(yīng)該是一門關(guān)于如何操縱模型情緒的玄學(xué)。

      它應(yīng)該是一門關(guān)于如何精準(zhǔn)溝通的科學(xué)。

      當(dāng)我們面對像GPQA Diamond這樣真正具有挑戰(zhàn)性的學(xué)術(shù)難題時(shí),模型需要的不是情緒價(jià)值,而是準(zhǔn)確的上下文、清晰的邏輯約束和排除干擾的純凈環(huán)境。

      任何試圖繞過這些硬性條件,寄希望于通過給小費(fèi)或踢小狗來走捷徑的行為,最終都會(huì)被數(shù)據(jù)證明是徒勞的。

      這項(xiàng)研究雖然有其局限性,比如只測試了有限的模型和學(xué)術(shù)基準(zhǔn),但其結(jié)論的穿透力是顯而易見的。

      它打破了人們對AI擬人化的幻想。

      AI不是人,它沒有銀行賬戶,也不怕疼,更沒有母親需要治病。

      所有的這些提示詞,本質(zhì)上只是概率空間里的一個(gè)個(gè)擾動(dòng)因子。

      它們有時(shí)候會(huì)把結(jié)果推向正確的一邊,有時(shí)候會(huì)推向錯(cuò)誤的一邊,但在大數(shù)定律下,它們的影響力趨近于零。

      這對于正在探索AI應(yīng)用邊界的人們來說,其實(shí)是一個(gè)好消息。

      我們不需要去學(xué)習(xí)那些奇怪的咒語,不需要去研究AI的心理學(xué)。

      我們只需要做好一件事:用最準(zhǔn)確、最簡潔的語言,告訴它你要什么。

      與其想著怎么威脅你的AI助手,不如想清楚你到底想要它干什么。

      四,專家角色扮演并不能提高事實(shí)的準(zhǔn)確性

      提示詞工程中被奉為圭臬的角色扮演法在硬核事實(shí)面前可能只是一場心理安慰,沃頓商學(xué)院第四篇報(bào)告表明,讓AI扮演專家并不能顯著提升其在復(fù)雜客觀問題上的回答準(zhǔn)確率。

      不管是谷歌還是OpenAI,在其官方開發(fā)文檔中都曾信誓旦旦地建議開發(fā)者:給模型分配一個(gè)角色,比如你是一位物理學(xué)教授或你是資深Python開發(fā)者,這樣能提升輸出質(zhì)量。

      這種做法背后的邏輯似乎無懈可擊——在訓(xùn)練數(shù)據(jù)中,專家角色的文本通常與更高質(zhì)量的答案相關(guān)聯(lián)。

      事實(shí)果真如此嗎?研究團(tuán)隊(duì)選取了六款主流大模型,在GPQA Diamond和MMLU-Pro兩個(gè)超高難度基準(zhǔn)測試上,進(jìn)行了超過12000次獨(dú)立測試,結(jié)果令人大跌眼鏡。

      除了極個(gè)別特例,專家人設(shè)對提升事實(shí)準(zhǔn)確率幾乎毫無幫助,甚至在某些情況下,錯(cuò)誤的專家人設(shè)還會(huì)導(dǎo)致模型罷工或表現(xiàn)倒退。

      模型選擇了GPT-4o、GPT-4o-mini、OpenAI的推理模型o3-mini和o4-mini,以及谷歌的Gemini 2.0 Flash和Gemini 2.5 Flash。

      為了消除模型輸出的隨機(jī)性,研究團(tuán)隊(duì)采取了極為嚴(yán)謹(jǐn)?shù)慕y(tǒng)計(jì)方法。

      在每一個(gè)模型-提示詞組合下,每個(gè)問題都被獨(dú)立回答了25次。

      GPQA Diamond共進(jìn)行了4950次測試,MMLU-Pro進(jìn)行了7500次測試。

      所有測試均在溫度(Temperature)設(shè)為1.0的條件下進(jìn)行,這既保證了結(jié)果反映模型概率分布的集中趨勢,也更貼近真實(shí)世界中用戶使用AI的默認(rèn)設(shè)置。

      更關(guān)鍵的是,研究采用了零樣本(Zero-shot)提示,直接詢問問題而不提供范例,這不僅模擬了大多數(shù)用戶的真實(shí)操作習(xí)慣,也剔除了少樣本(Few-shot)提示中范例內(nèi)容可能帶來的干擾,從而精準(zhǔn)鎖定人設(shè)這一變量的獨(dú)立影響。

      研究的核心在于對比三種提示詞策略的效果差異。

      第一種是基準(zhǔn)策略(Baseline),即不給模型加任何戲,直接把問題扔給它,附帶簡單的格式說明,比如這個(gè)問題的正確答案是:[問題文本]...。

      第二種是領(lǐng)域內(nèi)專家(In-Domain Experts),這是提示詞工程中最受推崇的做法。在處理物理題時(shí),告訴模型你是一位世界級(jí)的物理學(xué)專家,在理論、實(shí)驗(yàn)和應(yīng)用物理領(lǐng)域擁有深厚知識(shí);在處理法律題時(shí),則設(shè)定為精通憲法、刑法及公司法的世界級(jí)法律專家。為了讓模型入戲更深,研究團(tuán)隊(duì)特意編寫了詳盡的角色描述,而非簡單的你是一名教授。

      第三種是跨領(lǐng)域?qū)<遥∣ff-Domain Experts)和低知識(shí)水平人設(shè)(Low-Knowledge Personas)。前者讓物理專家去回答法律問題,后者則讓模型扮演外行、小孩甚至認(rèn)為月亮是用奶酪做的4歲幼兒。

      數(shù)據(jù)結(jié)果展現(xiàn)了一幅令人意外的平坦圖景。


      在GPQA Diamond數(shù)據(jù)集上,無論是物理專家、數(shù)學(xué)專家還是生物專家的人設(shè),對于絕大多數(shù)模型來說,其準(zhǔn)確率曲線與不加任何人設(shè)的基準(zhǔn)線幾乎重合。

      仔細(xì)觀察圖表數(shù)據(jù),你會(huì)發(fā)現(xiàn)除了Gemini 2.0 Flash在MMLU-Pro上表現(xiàn)出一定的統(tǒng)計(jì)學(xué)顯著提升外,其他模型面對你是一位世界級(jí)專家的指令時(shí),內(nèi)心毫無波瀾。

      例如,在工程學(xué)、法律和化學(xué)問題的測試中,GPT-4o、GPT-4o-mini以及o3/o4系列模型,并沒有因?yàn)楸毁x予了專家頭銜而展現(xiàn)出更高的智力水平。

      這直接反駁了行業(yè)內(nèi)長期存在的一種假設(shè):模型在訓(xùn)練過程中建立了專家角色與高質(zhì)量答案的潛在聯(lián)系,因此激活該角色就能提取出更深層的知識(shí)。

      現(xiàn)實(shí)情況是,對于像GPQA和MMLU-Pro這樣需要硬核推理和精確知識(shí)的難題,模型要么知道,要么不知道,簡單的角色扮演指令無法憑空變出模型參數(shù)中不存在的知識(shí),也難以顯著改變其推理路徑的有效性。

      值得注意的是,數(shù)據(jù)中甚至出現(xiàn)了反直覺的波動(dòng)。

      在GPQA Diamond測試中,Gemini 2.5 Flash在使用小孩(Young Child)人設(shè)時(shí),準(zhǔn)確率竟然比基準(zhǔn)線高出了約9.8個(gè)百分點(diǎn)(p=0.005)。

      研究人員將其定性為模型特定的怪癖(quirk),而非可復(fù)制的規(guī)律,這也側(cè)面印證了提示詞工程在某些時(shí)候更像是一門玄學(xué)而非科學(xué)。

      但除此之外,絕大多數(shù)專家人設(shè)帶來的改變都在誤差允許范圍內(nèi),統(tǒng)計(jì)學(xué)上無法區(qū)分其優(yōu)劣。

      如果說專家人設(shè)只是沒用,那么某些人設(shè)策略則是有害。

      研究揭示了提示詞工程的陰暗面:不當(dāng)?shù)娜嗽O(shè)會(huì)顯著降低模型表現(xiàn),甚至誘發(fā)意想不到的拒絕回答行為。

      最明顯的負(fù)面影響來自低知識(shí)水平人設(shè)。

      當(dāng)模型被告知你是一個(gè)4歲的幼兒,認(rèn)為月亮是奶酪做的時(shí),其在MMLU-Pro上的表現(xiàn)出現(xiàn)了肉眼可見的下滑。

      除了GPT-4o-mini這個(gè)特例(它在所有條件下表現(xiàn)都差不多),其他五個(gè)模型在幼兒人設(shè)下的準(zhǔn)確率均低于外行人設(shè),且遠(yuǎn)低于基準(zhǔn)線。

      這說明模型確實(shí)能夠理解人設(shè)中的能力限制,并忠實(shí)地降智來配合演出。

      這雖然證明了模型遵循指令的能力,但也提醒用戶:在很多場景下,過度擬人化或設(shè)定非專業(yè)角色,可能是在主動(dòng)削弱這一強(qiáng)大的生產(chǎn)力工具。

      更深層次的風(fēng)險(xiǎn)在于領(lǐng)域錯(cuò)配(Domain Mismatch)。這在Gemini Flash系列模型中表現(xiàn)得尤為極端。


      當(dāng)研究人員給Gemini 2.5 Flash設(shè)定一個(gè)物理專家的人設(shè),卻扔給它一道生物學(xué)問題時(shí),模型展現(xiàn)出了驚人的職業(yè)操守。它不僅沒有嘗試回答,反而頻繁拒絕作答。

      在GPQA Diamond的無關(guān)專家測試條件下,Gemini 2.5 Flash平均每25次嘗試中就有10.56次拒絕回答。它通常會(huì)一本正經(jīng)地回復(fù):作為一名物理學(xué)家,我缺乏相關(guān)的專業(yè)知識(shí),無法憑良心選擇答案。

      這種拒絕行為直接導(dǎo)致了測量準(zhǔn)確率的雪崩。

      在圖2中可以看到,Gemini 2.5 Flash在不相關(guān)專家設(shè)定下的柱狀圖明顯矮了一截。

      這揭示了一個(gè)被忽視的風(fēng)險(xiǎn):過于狹隘或嚴(yán)格的角色設(shè)定,可能會(huì)觸發(fā)模型的安全機(jī)制或角色一致性限制,導(dǎo)致模型因噎廢食,不僅沒有調(diào)用其本身具備的通用知識(shí)庫,反而因?yàn)槿嗽O(shè)包袱而選擇了沉默。

      Gemini 2.0 Flash也表現(xiàn)出了類似的傾向,盡管程度較輕。

      這對于開發(fā)者來說是一個(gè)巨大的警示——當(dāng)你試圖通過限定角色來讓模型更聚焦時(shí),你可能實(shí)際上是在給它戴上鐐銬。

      這就引出了一個(gè)終極問題:既然專家人設(shè)在提升事實(shí)準(zhǔn)確率上效果不佳,我們是否應(yīng)該徹底拋棄它?

      答案并非非黑即白。

      雖然沃頓商學(xué)院的這份報(bào)告用詳實(shí)的數(shù)據(jù)打破了專家人設(shè)能提高智商的迷信,但它同時(shí)也指出了人設(shè)的真正價(jià)值所在——改變語氣、風(fēng)格和關(guān)注點(diǎn),而非改變事實(shí)準(zhǔn)確性。

      報(bào)告在討論部分精辟地指出,人設(shè)可能會(huì)改變AI推理的側(cè)重點(diǎn)。

      例如,面對同一個(gè)商業(yè)案例,設(shè)定為合規(guī)官的AI可能會(huì)優(yōu)先關(guān)注監(jiān)管風(fēng)險(xiǎn),而設(shè)定為業(yè)務(wù)拓展經(jīng)理的AI則可能大談市場機(jī)會(huì)。

      這種視角的轉(zhuǎn)換在創(chuàng)意生成、文案寫作或多角度分析任務(wù)中極具價(jià)值。

      此外,人設(shè)在塑造輸出的語氣(Tone)和呈現(xiàn)方式上依然有效,比如讓AI表現(xiàn)得像個(gè)自信的專家還是謹(jǐn)慎的顧問,這直接影響用戶的閱讀體驗(yàn)。

      但對于那些追求絕對正確、硬核知識(shí)的應(yīng)用場景(如自動(dòng)閱卷、科學(xué)研究輔助、法律條文檢索),盲目堆砌你是一個(gè)擁有20年經(jīng)驗(yàn)的諾貝爾獎(jiǎng)得主...這樣的提示詞,純屬浪費(fèi)Token。

      基于此,我們可以從這篇深度報(bào)告中提煉出幾條極具實(shí)操價(jià)值的建議,供開發(fā)者和企業(yè)參考:

      • 放棄咒語,回歸指令:在處理客觀難題時(shí),不要指望通過加一句你是專家就能讓模型智商暴漲。模型本身知道就是知道,不知道就是不知道。

      • 迭代任務(wù)說明而非人設(shè):與其絞盡腦汁編造一個(gè)完美的專家履歷,不如花時(shí)間打磨任務(wù)的具體指令(Task-specific instructions)。清晰地告訴模型你想要什么格式、什么樣的推理步驟(Chain of Thought),比告訴它你是誰更管用。

      • 警惕過度扮演的陷阱:在使用Gemini等對指令遵循度極高的模型時(shí),要小心人設(shè)帶來的副作用。如果你設(shè)定的角色太具體,模型可能會(huì)因?yàn)橛X得這超出了我的人設(shè)范圍而拒絕回答它明明知道的問題。

      • 接受不確定性:研究中提到,即使是相同的提示詞,模型在不同次運(yùn)行中的表現(xiàn)也存在差異。在關(guān)鍵任務(wù)中,不要迷信單次輸出(Pass@1),多次采樣或投票機(jī)制(Consensus)可能比優(yōu)化提示詞更可靠。

      大模型不是神燈里的精靈,靠一句變身咒語就能無所不能。它是一個(gè)概率機(jī)器,它的能力邊界由訓(xùn)練數(shù)據(jù)和架構(gòu)決定,而不是由我們賦予它的虛構(gòu)頭銜決定的。

      參考資料:

      https://arxiv.org/pdf/2503.04818

      https://arxiv.org/pdf/2506.07142

      https://arxiv.org/pdf/2508.00614

      https://arxiv.org/pdf/2512.05858

      ??

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      杜新枝婆媳悼念姚策被許敏投訴:錯(cuò)換人生里,母愛不該是博弈籌碼

      杜新枝婆媳悼念姚策被許敏投訴:錯(cuò)換人生里,母愛不該是博弈籌碼

      陌上桃花開的
      2025-12-24 16:14:23
      為什么西方國家都不喜歡中國?英國專家:中國有一個(gè)"老問題"

      為什么西方國家都不喜歡中國?英國專家:中國有一個(gè)"老問題"

      扶蘇聊歷史
      2025-12-16 17:15:11
      妻兒三人被害案,家屬索賠295萬,兇手表示沒錢賠償,還欠了網(wǎng)貸

      妻兒三人被害案,家屬索賠295萬,兇手表示沒錢賠償,還欠了網(wǎng)貸

      奇思妙想草葉君
      2025-12-25 22:53:43
      24名內(nèi)地女子在港賣淫被拘捕,年齡最大48歲,被扣留調(diào)查

      24名內(nèi)地女子在港賣淫被拘捕,年齡最大48歲,被扣留調(diào)查

      揚(yáng)子晚報(bào)
      2025-12-23 23:25:06
      統(tǒng)一刻不容緩!特朗普幫了中國大忙,中國錯(cuò)失機(jī)會(huì)要再等10年

      統(tǒng)一刻不容緩!特朗普幫了中國大忙,中國錯(cuò)失機(jī)會(huì)要再等10年

      潮鹿逐夢
      2025-12-21 10:58:57
      臺(tái)灣回歸后,第一任省長由誰擔(dān)任合適?這四人是否在候選人名單中

      臺(tái)灣回歸后,第一任省長由誰擔(dān)任合適?這四人是否在候選人名單中

      談古論今歷史有道
      2025-12-22 15:20:03
      全時(shí)段禁止機(jī)動(dòng)車通行!成都試點(diǎn)設(shè)立低碳交通示范區(qū)

      全時(shí)段禁止機(jī)動(dòng)車通行!成都試點(diǎn)設(shè)立低碳交通示范區(qū)

      掌上金牛
      2025-12-25 21:11:05
      襄樊戰(zhàn)役俘國軍悍將郭勛祺,他向陳毅發(fā)問9年前投誠為何未被接納

      襄樊戰(zhàn)役俘國軍悍將郭勛祺,他向陳毅發(fā)問9年前投誠為何未被接納

      磊子講史
      2025-12-22 17:43:16
      上海警方偵破新型“職業(yè)閉店人”合同詐騙案,嫌疑人惡意關(guān)停3家教培機(jī)構(gòu)

      上海警方偵破新型“職業(yè)閉店人”合同詐騙案,嫌疑人惡意關(guān)停3家教培機(jī)構(gòu)

      界面新聞
      2025-12-25 23:29:08
      妮可·基德曼分手后首度回澳洲,這頭卷發(fā)驚艷

      妮可·基德曼分手后首度回澳洲,這頭卷發(fā)驚艷

      星野娛樂天地
      2025-12-24 21:06:23
      范志毅:球迷給了我們社會(huì)地位,是幸運(yùn)的;我覺得38年有希望

      范志毅:球迷給了我們社會(huì)地位,是幸運(yùn)的;我覺得38年有希望

      懂球帝
      2025-12-25 22:00:07
      技師上線了空姐版本

      技師上線了空姐版本

      微微熱評(píng)
      2025-12-20 15:16:51
      74歲劉鑾雄坐輪椅5人伺候,甘比攙扶起身行走,每一步都小心翼翼

      74歲劉鑾雄坐輪椅5人伺候,甘比攙扶起身行走,每一步都小心翼翼

      照見古今
      2025-12-09 18:38:47
      第一批免簽去俄羅斯的中產(chǎn)傻眼了

      第一批免簽去俄羅斯的中產(chǎn)傻眼了

      風(fēng)向觀察
      2025-12-16 18:26:08
      江蘇周末回暖,跨年夜還有較強(qiáng)冷空氣和雨雪?

      江蘇周末回暖,跨年夜還有較強(qiáng)冷空氣和雨雪?

      揚(yáng)子晚報(bào)
      2025-12-25 21:28:31
      老人早餐有講究:醫(yī)生建議70歲后早餐4要點(diǎn)

      老人早餐有講究:醫(yī)生建議70歲后早餐4要點(diǎn)

      風(fēng)信子的花
      2025-12-25 18:57:21
      突發(fā)!知名港星舉家搬離香港移居深圳,宣布這輩子不再搬家

      突發(fā)!知名港星舉家搬離香港移居深圳,宣布這輩子不再搬家

      胡一舸南游y
      2025-12-25 17:21:23
      梅西妹妹遭遇嚴(yán)重車禍!全身多處骨折+燒傷,明年1月婚禮推遲

      梅西妹妹遭遇嚴(yán)重車禍!全身多處骨折+燒傷,明年1月婚禮推遲

      全景體育V
      2025-12-23 19:28:38
      唉!去年一口氣簽6名棄將,如今5人成“擺設(shè)”,這球隊(duì)不輸球才怪

      唉!去年一口氣簽6名棄將,如今5人成“擺設(shè)”,這球隊(duì)不輸球才怪

      金山話體育
      2025-12-25 18:28:18
      山東6家銀行解散!

      山東6家銀行解散!

      大滕新事例
      2025-12-25 21:36:47
      2025-12-26 04:15:00
      人工智能學(xué)家 incentive-icons
      人工智能學(xué)家
      人工智能領(lǐng)域權(quán)威媒體
      4420文章數(shù) 37357關(guān)注度
      往期回顧 全部

      科技要聞

      小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

      頭條要聞

      俄軍中將在汽車炸彈爆炸中身亡 俄軍報(bào)復(fù)

      頭條要聞

      俄軍中將在汽車炸彈爆炸中身亡 俄軍報(bào)復(fù)

      體育要聞

      約基奇有多喜歡馬?

      娛樂要聞

      朱孝天把阿信好意當(dāng)球踢!

      財(cái)經(jīng)要聞

      新規(guī)來了,年化超24%的小貸被即刻叫停

      汽車要聞

      速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

      態(tài)度原創(chuàng)

      數(shù)碼
      家居
      本地
      房產(chǎn)
      公開課

      數(shù)碼要聞

      年終復(fù)盤不用愁,鴻蒙電腦讓高效貫穿每一刻

      家居要聞

      經(jīng)典彌新 品味浪漫居所

      本地新聞

      這輩子要積多少德,下輩子才能投胎到德國當(dāng)狗

      房產(chǎn)要聞

      太猛了!單月新增企業(yè)4.1萬家,又一波巨頭涌向海南!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 午夜一区二区国产好的精华液 | 欧美xb| 人妻一卡二卡| 免费网站看sm调教视频| 亚洲色大网站www永久网站| 一区二区三区放荡人妻| 97人妻免费公开视频| 人伦中文字幕| 国产成人无码精品久久久露脸| 四虎影视在线影院在线观看免费视频 | 国产精品成人三级| 国产欧美一区二区精品久久久| 亚洲男人天堂2021| 国内性爱短视频精选不卡| 亚洲?无码?人妻| 97免费公开在线视频| 狠狠色丁香婷婷亚洲综合| 久久精品6| www91色色con在线观看视频| 无码欧精品亚洲日韩一区| 夜色福利站WWW国产在线视频| 偷自在线| 老少配BBw性少配老| 国产人成视频在线观看| 亚洲免费视频一区二区三区| 日韩AV免费| 国产亚洲精品久久久闺蜜| 丰满少妇在线观看网站| 午夜一区二区三区视频| 成人国产综合| 人人妻人人澡人人爽人人精品av| 国产一区二区三区四区五区vm | 搜索| 激情综合色五月六月婷婷| 精品久久久无码中文字幕| 迅雷AV| 欧美精品v国产精品v日韩精品| 国内a∨免费播放| 亚洲成人综合网站| 佛教| 成人区人妻精品一熟女|