<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      你是否也曾榨干過DeepSeek?

      0
      分享至

      在今年深度體驗AI大模型的3個月里,我發現無論他回答的對不對,大多數時候,他基本都能在1分鐘內能生成回答(很多時候是秒答),無論回答質量如何,是否有幻覺,他都能很快給你答完就是了。

      但是,有這么一類問題,他的答案普遍簡短,有的短到只有一個單詞,長的也不超過10個單詞,卻常常讓 DeepSeek深度思考五分鐘以上,過程中動不動還爆出數千字以上的思維鏈。

      比如下面這個問題:


      中間的思維鏈就更長了,接近5000字,我就不全截圖了,你可以想象它在將近5分鐘里,一直在生成思維鏈,全文包含79個wait:


      還有下面這個問題,花了將近6分鐘


      這兩個問題,別看題目不長,答案也都很短,大模型花了這么久,但是依然做錯了。

      這些問題,都來自一個測試,就是OpenAI在4月上旬發布的BrowseCamp,瀏覽競賽。

      這個測試,主要就測一個能力:定位很難尋找的、復雜糾纏的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

      其實說白了,就是要看看大模型們瀏覽網頁和搜索信息的能力,到底強到什么地步了?因為現有的測試比如SimpleQA,其實已經被“刷爆”了。

      但是,基本上沒太多人討論這個 BrowseCamp,它被淹沒在4o生圖的火熱和最近的o3模型的發布之中了。

      瀏覽競賽里的問題集的最大特點,就是答案簡單,但是,題干一定會用最虛無縹緲的特征描述,把簡單的答案層層包裹起來。

      比如,答案是一個歷史名人,但是,題干是這個人最冷僻、最不為人所知的信息點,甚至是有很大誤導性的信息點,比如這個描述同時也有很多其它人符合或者是很籠統的描述,最終,你會很難猜這個人是誰。

      比如劉備,大家都知道,如果問桃園三結義里的大哥是誰,那就太好猜了。

      如果這么問:某河北籍男子,身高1米88,15歲外出求學,中年創業多次失敗,兒子很不成器,晚年因為要給弟弟報仇,63歲客死他鄉。

      是不是難了很多?

      當然,理論上,還要加入更多的限制性條件,讓答案唯一。

      以上信息,還算是很好找的,所有信息都在一個百度百科的網頁里都有了(因為就是我幾分鐘內現編的,如果信息有誤請找百度)。

      但問題是,在不知道答案是劉備的前提下,而且題干的信息給得更朦朧更誤導一點的話,大模型往往需要橫跨數十個甚至上百個網頁,才有可能定位到其中某個信息,然后開始驗證,排除,再查找,再驗證...最后,答錯了。

      官方論文里的另一個例題:請告訴我一篇發表在 2018 至 2023 年間 EMNLP 會議上的論文,其第一作者本科畢業于達特茅斯學院(Dartmouth College),第四作者本科畢業于賓夕法尼亞大學(University of Pennsylvania)。

      答案:Frequency Effects on Syntactic Rule Learning in Transformers,EMNLP 2021

      這些問題在知道答案的時候,都很容易確認,就是1分鐘的事情,但是不知道答案的話,模型就得暴力搜索數千篇論文了。

      這是官方所謂的“驗證的不對稱性 asymmetry of verification ”:驗證 容易,解答困難。但是,這就恰恰符合了這個測試的目標:大模型的檢索能力。

      雖不完美,卻也有效。它不是考驗 next token predidtion的能力,畢竟題干和答案都很短,也不太考驗推理能力,因為不太需要什么深度研究分析(不過 普遍來說推理模型的表現還是會更好),只要找得到信息,就能回答正確。

      下圖顯示了 BrowseCamp的整體測試結果:花的時間越久,正確率越高,這也是之前DeepSeek會花那么久的原因之一,但是,正確率最高的模型,也就50%左右,而且嚴格來說,它還不算一個模型,而是agent


      瀏覽競賽里的問題,實在也不好編,官方說,現在攏共只有1266個問題。官網放出了5道例題,我分別讓DeepSeek V3、R1不開聯網、R1開聯網,分別測試了5個問題,每次都新開對話窗口,一共15次測試,全軍覆沒。(注意,這并非是說 DeepSeek一道都做不對,而是正確率大概率很低)

      而且,在沒有聯網的情況下,出現了前述 的超長回答時間的問題,理論上,這種自我榨干的情況不該出現,它應該早一點發現自己其實根本無法作答,然后再給出一個它認為最有可能正確的猜測即可(注:R1的表現比V3好)。

      那么,到底什么模型表現最好呢?很遺憾,OpenAI還只測試了自家的模型,暫時沒啥橫向可比性,雖然我認為瀏覽網頁和尋找信息的能力,肯定是agent們包含的各種 tool use能力里最重要的一個。


      新上線的o3,不提它在視覺理解方面的能力,就因為相比o1有了browsing功能(當然還有更強的推理能力),正確率提高了很多。(o1在沒有聯網功能的情況下,僅靠內部知識庫,答對了其中10%的問題)


      我的三個小心得:

      1、無論現有大模型在browsing方面表現如何,它們都在飛快進步和提升;

      2、一旦遇到這種要查很多資料的任務,先讓大模型做一遍, 做對最好,沒做對也沒關系,它的搜索過程和給出的回答,還是能給你節約不少時間;

      3、不要只問一次,在看了它第一遍的回答后,自己找找資料,思考思考,再繼續給更多提示詞,問第二次,第三次,榨干它,很快,你也會接近答錯了

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      曾國藩論人: 下者好辯, 中者善算, 上者守拙、戒欺、慎獨

      曾國藩論人: 下者好辯, 中者善算, 上者守拙、戒欺、慎獨

      千秋文化
      2026-03-26 21:14:48
      只靜靜裝點每一步

      只靜靜裝點每一步

      有一點可愛
      2026-04-05 17:19:15
      面多加水,水多加面?外媒痛批:電車3噸重,填鴨式造車不可取!

      面多加水,水多加面?外媒痛批:電車3噸重,填鴨式造車不可取!

      少數派報告Report
      2026-04-17 07:03:05
      表妹與表哥亂倫8年,表嫂竟然默許!表哥欲拋棄表妹后被舉報貪腐

      表妹與表哥亂倫8年,表嫂竟然默許!表哥欲拋棄表妹后被舉報貪腐

      胡侃社會百態
      2026-04-18 12:06:59
      11年前優衣庫男女主現狀曝光,他們還在一起生了兩個孩子

      11年前優衣庫男女主現狀曝光,他們還在一起生了兩個孩子

      半糖甜而不膩
      2026-04-06 12:09:15
      流感病毒檢測陽性率連續3周上升,疾控提醒:公共交通建議佩戴口罩!

      流感病毒檢測陽性率連續3周上升,疾控提醒:公共交通建議佩戴口罩!

      上觀新聞
      2026-04-18 11:38:05
      康凱:把“張飛”演成傻子,無戲可拍11年,如今現狀令人唏噓

      康凱:把“張飛”演成傻子,無戲可拍11年,如今現狀令人唏噓

      流云隨風去遠方
      2026-04-18 15:35:50
      鄭麗文稱臺灣是國家,反對兩岸統一?喊話大陸:美國讓我過去

      鄭麗文稱臺灣是國家,反對兩岸統一?喊話大陸:美國讓我過去

      阿器談史
      2026-01-26 20:48:30
      好消息!獨生子女證2026可補辦!6類家庭速辦,補貼早領早安心

      好消息!獨生子女證2026可補辦!6類家庭速辦,補貼早領早安心

      復轉這些年
      2026-04-18 12:27:49
      蘋果首次成為全球手機市場第一!份額21%,三星20%,這回是真的了

      蘋果首次成為全球手機市場第一!份額21%,三星20%,這回是真的了

      數碼Antenna
      2026-04-16 11:52:53
      哇這大體格,目測身高175,身形如此的勻稱,男人心中的完美伴侶

      哇這大體格,目測身高175,身形如此的勻稱,男人心中的完美伴侶

      動物奇奇怪怪
      2026-04-12 03:42:39
      上線四個月!《暗黑破壞神4》國服宣布限免領取:永久入庫

      上線四個月!《暗黑破壞神4》國服宣布限免領取:永久入庫

      快科技
      2026-04-17 17:03:05
      52 歲張震岳湘江邊夜跑!黝黑絡腮胡像外國人,男人味拉滿

      52 歲張震岳湘江邊夜跑!黝黑絡腮胡像外國人,男人味拉滿

      南萬說娛26
      2026-04-12 15:22:37
      蔣經國三子早逝均未過五十四,臨終方知,家族厄運源于舊照

      蔣經國三子早逝均未過五十四,臨終方知,家族厄運源于舊照

      嘮叨說歷史
      2026-03-27 16:40:32
      正式告別,結束德甲第1季,扣除上繳乒協,樊振東薪水剩下多少?

      正式告別,結束德甲第1季,扣除上繳乒協,樊振東薪水剩下多少?

      林雁飛
      2026-04-17 19:04:20
      才20天!蔡正元頭發全白,邱毅探監淚目:里面太苦

      才20天!蔡正元頭發全白,邱毅探監淚目:里面太苦

      小影的娛樂
      2026-04-17 04:47:49
      電影《僵尸世界大戰2》官宣!游戲銷量太猛立大功

      電影《僵尸世界大戰2》官宣!游戲銷量太猛立大功

      游民星空
      2026-04-18 11:24:27
      不再是120/80,“新血壓標準”已公布,別再自己嚇自己!

      不再是120/80,“新血壓標準”已公布,別再自己嚇自己!

      芹姐說生活
      2026-04-14 23:27:03
      剛剛,“蘇超”積分榜更新!今晚共有90387人到場觀賽

      剛剛,“蘇超”積分榜更新!今晚共有90387人到場觀賽

      揚子晚報
      2026-04-18 22:19:03
      12年前,那個美國抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

      12年前,那個美國抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

      就一點
      2026-03-08 23:09:47
      2026-04-19 02:56:49
      柳胖胖 incentive-icons
      柳胖胖
      36氪、虎嗅、鈦媒體專欄作者
      222文章數 387關注度
      往期回顧 全部

      科技要聞

      傳Meta下月擬裁8000 大舉清退人力為AI騰位

      頭條要聞

      伊朗革命衛隊向油輪開火 伊朗最高領袖發聲

      頭條要聞

      伊朗革命衛隊向油輪開火 伊朗最高領袖發聲

      體育要聞

      時隔25年重返英超!沒有人再嘲笑他了

      娛樂要聞

      劉德華回應潘宏彬去世,拒談喪禮細節

      財經要聞

      "影子萬科"2.0:管理層如何吸血萬物云?

      汽車要聞

      奇瑞威麟R08 PRO正式上市 售價14.48萬元起

      態度原創

      家居
      親子
      游戲
      旅游
      時尚

      家居要聞

      法式線條 時光靜淌

      親子要聞

      退燒藥怎么用?90%家長都搞錯了

      讓老粥批直呼“計劃有變”的歲獸代理人,到底是什么東西?

      旅游要聞

      云南昆明游客踩在鮮花上拍照,把電動車扔進滇池:建議拉入黑名單

      選對發型,真的能少走很多變美彎路

      無障礙瀏覽 進入關懷版