<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      李彥宏說DeepSeek幻覺高,是真的嗎?

      0
      分享至


      李彥宏點名批評DeepSeek幻覺高。這回,他真的沒錯。但大模型的幻覺問題,又遠非錯與對那么簡單。

      DeepSeek-R1作為今年年初的新晉國產(chǎn)開源大模型,以強大的推理能力和更懂國人的文筆,在蘋果美區(qū)App免費下載排行榜上力壓ChatGPT一頭,甚至一度成為“AI”的代言詞。

      然而,自從R1席卷全網(wǎng)后,關于它經(jīng)常“胡說八道”的批評就不絕于耳,比如它實在太能編了,讓人真真假假分不清。

      除了用戶端之外,李彥宏及其代表的大廠們也“苦”DeepSeek已久:一方面,大廠不得不依賴DeepSeek的潑天流量導入自身門戶入口;另一方面,盡管投入大量人力物力研發(fā)深度推理模型,其成果卻難以突破用戶心智。

      在2025百度AI開發(fā)者大會的開幕上,李彥宏直接點出全民AI大模型 DeepSeek-R1 的痛點:“只支持單一模態(tài)、幻覺率較高、又慢又貴”。一番犀利評論,再度引發(fā)了各界對DeepSeek-R1以及大模型“幻覺”的評議。

      出現(xiàn)強烈幻覺的并不止DeepSeek一家,OpenAI在其內(nèi)部測試中發(fā)現(xiàn):o3/o4-mini雖然全面替換了o1系列,但是幻覺現(xiàn)象越來越強了;國內(nèi)第一個混合推理模型——阿里通義的Qwen3也在X上被網(wǎng)友指出幻覺現(xiàn)象仍舊大量存在。


      關于幻覺的解釋有很多,尤其是當推理模型問世后,大家都認為推理模型的思考模式和模型性能攀升后,幻覺就會被消滅,但事實證明:幻覺的生存能力太強了,用戶們還是常常被“LLM生編硬造,邏輯閉環(huán)的幻覺操作”看呆。

      不過,另有一說:大模型的幻覺也算是創(chuàng)作力的副產(chǎn)品,并不完全是桎梏。

      今天我們重新講講大模型幻覺,看看AI圈子最大的黑箱問題到底解決了沒有,解決進度到哪了?

      01

      李彥宏對DeepSeek-R1的批評確實有據(jù)可循。

      AI數(shù)據(jù)服務公司Vectara的一項HHEM幻覺評估中,DeepSeek-R1的幻覺率高達14.3%,而其前代基礎模型DeepSeek-V3僅為3.9%,R1的幻覺甚至要比V3的幻覺高出4倍。阿里通義的QwQ-32B-Preview的幻覺率則高達16.1%。



      更值得注意的是,除了DeepSeek-R1和Qwen系列之外,縱觀業(yè)內(nèi),幾乎所有最先進的大模型都遭到了幻覺問題的挑戰(zhàn)。一般來說,當新模型出現(xiàn),幻覺程度就會低于其前身模型,但是這一常理性的現(xiàn)象并不在推理模型上適用。

      OpenAI的內(nèi)部評估系統(tǒng)卡里提供了一個具有代表性的例子:他們設計了一項名為PersonQA的基準測試,用于衡量模型回答人物信息問題的準確性。結(jié)果發(fā)現(xiàn),o3在PersonQA上的幻覺率上升到了33%,幾乎是被全面替代的前代模型o1(16%)的兩倍。輕量版推理模型o4-mini的幻覺率高達48%。


      在最新出爐的一版Vectara的幻覺測試中,馬斯克 xAI的Grok-3比Grok-2幻覺更嚴重,谷歌Gemini 2.0系列中強調(diào)深度推理的Flash-Thinking版本比標準版幻覺問題更突出。

      當業(yè)界追求更強推理能力的大語言模型時,事實準確性與生成內(nèi)容一致性幾乎無法“魚與熊掌兼得”。


      可見,“幻覺”是當下大模型領域的通病,而DeepSeek-R1正是該問題的顯著案例之一。

      每當新模型發(fā)布時,大家往往先入為主:當推理模型出來后,模型能力大幅度提升,幻覺就會被逐漸消滅;相反,也有一種猜測,推理模型往往要比通用模型幻覺更強。但這些觀點其實全都是錯的。

      比如 o1 相對于 4o 并沒有增加太多的幻覺,反過來也可以說,o1并沒有大幅度降低幻覺。


      o3和o4-mini 幻覺的提升連OpenAI的研究人員在系統(tǒng)卡論文中也說道“仍需繼續(xù)研究”。可以說,在一定程度上,LLM的幻覺現(xiàn)象仍然是個黑盒,隨著模型的不斷發(fā)展,這層迷霧仍然籠罩在各大基礎模型廠商的上空。

      廣義上,普遍認為像DeepSeek-R1這樣的推理模型往往喜歡多輪思考,放大幻覺。

      推理模型和深度思考模型通常采用多輪推理或長鏈式思考策略,通過逐步分解問題、生成中間步驟,最終得出答案。這種設計本來是為了模擬人類復雜的邏輯推理過程。但是,多輪思考也可能導致模型在每一步生成中引入微小的偏差或錯誤,這些偏差在后續(xù)步驟中被放大,促成多米諾骨牌效應的出現(xiàn)。

      為什么大家再談LLM的幻覺?除了百度等廠商為了應對DeepSeek的競爭,破除唯“DeepSeek論”之外,還有一個原因:普通用戶們在實際體驗中越來越感到恐懼了。

      這主要是因為大模型通過大規(guī)模訓練數(shù)據(jù),已經(jīng)能夠構(gòu)建高度自洽、邏輯幾乎閉環(huán)的知識體系,模型對語義上下文的理解和生成能力越來越強,幻覺卻也越來越真實了。甚至產(chǎn)生了一種“性能與幻覺齊飛”的詭異現(xiàn)象。

      可以說,幻覺已經(jīng)事實上不再是評判模型性能的主要標準了。

      大家在日常使用中,肯定都有過這樣的體驗:AI 杜撰不存在的信源、生成看似真實的學術(shù)引用、“現(xiàn)場”構(gòu)造偽造的網(wǎng)頁鏈接,甚至在長長的思維鏈里不斷“故意迎合”用戶,諂媚用戶。

      如果只是普通的日常使用場景,幻覺現(xiàn)象的隱蔽性并不會降低用戶信任。但是,當大模型商業(yè)化后,涉及專業(yè)領域或復雜問題時,這種不確定性就會引發(fā)用戶對可靠性的質(zhì)疑,甚至產(chǎn)生對AI本身的恐懼感。

      02

      李彥宏2024年曾說,過去24個月里AI行業(yè)經(jīng)歷的最大變革之一是大模型基本消除了“幻覺”問題。這一說法一時讓各路網(wǎng)友覺得他出現(xiàn)了幻覺。

      確實,某些領域(例如文生圖、視頻等多模態(tài)輸出方面)隨著模型能力的提升,幻覺現(xiàn)象確實已經(jīng)大幅降低了。

      但是,盡管幻覺問題在這些受控場景下大幅改善,在生成長文本或復雜視覺場景時仍未解決。

      最直觀的例子就是:每當各大廠商推出新一輪的深度思考模型時,都不得不再度老調(diào)重彈幻覺問題。可以說,幻覺問題已經(jīng)被研究了好幾年了,但直到今天都沒有辦法找到一個極好的方式克服幻覺,arXiv上一篇一篇的論文砸向這個黑盒領域。

      不過,技術(shù)開發(fā)者應對 AI 幻覺,也確實有一些手段。目前比較主流的方式還是檢索增強生成(RAG),這個方式有點老了但是管用,也是最廣的應用思路。


      RAG,即在模型回答前先檢索資料。英偉達 CEO黃仁勛就強調(diào),要讓AI減少幻覺,很簡單,“給每個回答加一道規(guī)則:先查證再作答”。 具體而言,模型接到問題后,像搜索引擎那樣查詢權(quán)威來源,然后依據(jù)檢索到的信息作答。如果發(fā)現(xiàn)引用的信息與已知事實不符,就丟棄該信息并繼續(xù)查找 。通過這種方式,模型不再僅憑參數(shù)記憶回答,而是有據(jù)可依。讓模型能夠引入最新的網(wǎng)頁/數(shù)據(jù)庫內(nèi)容,在內(nèi)部機制里學會對不知道的事物說“我確實不知道”。

      百度2024年發(fā)布的檢索增強的文生圖技術(shù)iRAG,就是為了解決文生圖中的幻覺問題,結(jié)合了自身的億級圖片資源庫,讓生成的圖片更真實、更貼合現(xiàn)實。

      此外,一個更基本的方法是“嚴格控制訓練數(shù)據(jù)的質(zhì)量”。

      當然,全面的數(shù)據(jù)治理過于困難,因為互聯(lián)網(wǎng)語料過于復雜且知識隨時間變化,像是“弱智吧”的語料就極難正確過濾。

      騰訊此前發(fā)布的混元深度思考模型T1,針對長思維鏈數(shù)據(jù)中的幻覺和邏輯錯誤,訓練了一個Critic批判模型來進行嚴格篩選。這種“雙重把關”策略——即模型先產(chǎn)出回答,然后再核對其中的關鍵實體和事實,再決定是否輸出,也能在一定程度上降低幻覺率。

      即使有上述手段的加持,要徹底根治幻覺仍充滿挑戰(zhàn)。OpenAI就在最新報告中坦承:“為什么模型規(guī)模變大、推理能力增強后幻覺反而更多,我們目前也不完全清楚,還需要更多研究”。

      03

      幻覺,也并非全無益處。各大廠商正站在一個幻覺與創(chuàng)造力交匯的十字路口:幻覺并非純粹的缺陷,同樣也能帶來模型更佳的創(chuàng)造力。

      大模型的幻覺一般分為:事實性幻覺和忠實性幻覺。當大模型回答的內(nèi)容與用戶的指令或者上下文信息不一致時,可能就會出現(xiàn)所謂的“靈感”。 不管是違背輸入文本,還是違背客觀事實, “幻覺”產(chǎn)生的部分往往是模型發(fā)揮想象的結(jié)果。

      有個專業(yè)術(shù)語叫“外箱式創(chuàng)意”,指的是“跳出既有框架的創(chuàng)作力” ,這正是大模型區(qū)別于檢索引擎的魅力所在。大家往往潛意識里認為AI做的是低“創(chuàng)意密度“的任務,無法占領諸如科幻文學這類的高創(chuàng)造力寫作。

      然而,劉慈欣對此有話說。


      前段時間,劉慈欣在一次采訪中說他曾拿自己所寫的長篇中的一章發(fā)給 DeepSeek,讓它在這個基礎上續(xù)寫。結(jié)果發(fā)現(xiàn)它寫出來的東西,甚至要比自己寫得好。這甚至讓他有了一種很大的失落感。

      但是,劉慈欣本人仍喜愛DeepSeek:“為什么呢?因為我想到,由于人腦的生物特性,有一些沒法沖破的認知極限,但 AI 卻有可能突破。如果它真的可以突破極限,那么我甘心樂意被 AI 取代。當然,現(xiàn)在它還做不到。未來的路還很遙遠。”

      OpenAI CEO奧特曼也曾提及AI的幻覺特性并非全然是壞事,在創(chuàng)作領域仍有積極意義。這也可能是未來LLM的一個方向。

      面對幾乎成為大模型固有特性的幻覺現(xiàn)象,要低到什么地步,我們才可以接受?

      這沒有固定的答案,而是依賴于應用場景。在需要精準性的高風險or涉及倫理的領域里,LLM 的幻覺固有特性幾乎斷絕了商業(yè)空間。

      從哲學上看,這反映了人類對技術(shù)的期望:AI應比人類更可靠。折射出人類對 LLM 的角色定位,如果將 AI 僅僅視作鋤頭而已,那么AI幾乎永不可能達到這樣的標準。如果將 AI 視作天然具有幻覺特性的工具,接受“幻覺”是AI的固有特質(zhì),就要賦予AI區(qū)分虛構(gòu)與現(xiàn)實的能力,讓它在需要的時候?qū)W會說“我不知道”。

      或許我們也應該換種思路研究AI。

      歡迎在評論區(qū)留言~
      如需開白請加小編微信:dongfangmark

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      新加坡高層罕見同聲涉華表態(tài),黃循財緊隨,巧合還是外交組合拳?

      新加坡高層罕見同聲涉華表態(tài),黃循財緊隨,巧合還是外交組合拳?

      你在彼方
      2025-12-26 03:46:20
      越南這次真是把“反復無常”演繹到了極致!日本駐越大使直接攤牌

      越南這次真是把“反復無常”演繹到了極致!日本駐越大使直接攤牌

      百態(tài)人間
      2025-12-25 16:36:32
      用力過猛!51歲林志玲打扮“日系”現(xiàn)身上海,網(wǎng)友:又老又年輕

      用力過猛!51歲林志玲打扮“日系”現(xiàn)身上海,網(wǎng)友:又老又年輕

      韓馳
      2025-12-26 22:40:24
      NBA12月球員場均罰球榜:東契奇11.3次居首,亞歷山大僅第18

      NBA12月球員場均罰球榜:東契奇11.3次居首,亞歷山大僅第18

      懂球帝
      2025-12-26 15:28:10
      直到海南封關后才明白,國家為何會投資700億在廣西挖平陸運河

      直到海南封關后才明白,國家為何會投資700億在廣西挖平陸運河

      南權(quán)先生
      2025-12-25 17:08:13
      藍白拼接長袖搭配運動短褲,時尚又清新,輕松打造夏季清爽風

      藍白拼接長袖搭配運動短褲,時尚又清新,輕松打造夏季清爽風

      朝史暮夕
      2025-12-25 10:42:04
      被罵到關評!姜昆在美國豪宅唱紅歌過圣誕,17年曾呼吁抵制圣誕節(jié)

      被罵到關評!姜昆在美國豪宅唱紅歌過圣誕,17年曾呼吁抵制圣誕節(jié)

      阿纂看事
      2025-12-25 17:19:59
      鐘麗緹亮相芭莎之夜,胸大腚圓胖到不敢認,一大把年紀還玩性感

      鐘麗緹亮相芭莎之夜,胸大腚圓胖到不敢認,一大把年紀還玩性感

      黃小仙的搞笑視頻
      2025-12-24 11:46:44
      熱搜屠榜!7999元起小米徠卡17Ultra售罄!雷軍全程坐臺下顯疲態(tài)

      熱搜屠榜!7999元起小米徠卡17Ultra售罄!雷軍全程坐臺下顯疲態(tài)

      大白聊IT
      2025-12-26 10:49:02
      全軍覆沒!網(wǎng)貸公司盯上印度市場,結(jié)果反被三哥收割得體無完膚!

      全軍覆沒!網(wǎng)貸公司盯上印度市場,結(jié)果反被三哥收割得體無完膚!

      青青子衿
      2025-12-26 04:42:30
      南京博物院事件后,意外火了深圳博物館,里面的展品搞笑又接地氣

      南京博物院事件后,意外火了深圳博物館,里面的展品搞笑又接地氣

      振華觀史
      2025-12-26 13:31:50
      北極為什么沒有企鵝?當年放養(yǎng)北極的69只企鵝,后來怎么樣了?

      北極為什么沒有企鵝?當年放養(yǎng)北極的69只企鵝,后來怎么樣了?

      半解智士
      2025-12-25 20:01:24
      宣布交易!楊瀚森,狂喜!

      宣布交易!楊瀚森,狂喜!

      李帕在北漂
      2025-12-26 14:32:35
      俄官方民調(diào):普京信任度破80%

      俄官方民調(diào):普京信任度破80%

      桂系007
      2025-12-26 16:10:41
      價值50萬元!陜西360克“無主黃金”,至今仍沒找到主人

      價值50萬元!陜西360克“無主黃金”,至今仍沒找到主人

      封面新聞
      2025-12-26 15:09:05
      烏克蘭摧毀赫爾松俄羅斯軍船!重創(chuàng)下諾夫哥羅德船廠

      烏克蘭摧毀赫爾松俄羅斯軍船!重創(chuàng)下諾夫哥羅德船廠

      項鵬飛
      2025-12-24 16:56:09
      2026車市大逃殺:補貼花完,透支的惡果終于來了!

      2026車市大逃殺:補貼花完,透支的惡果終于來了!

      音樂時光的娛樂
      2025-12-26 00:47:00
      南博“吹哨人”遭連環(huán)恐嚇

      南博“吹哨人”遭連環(huán)恐嚇

      不正確
      2025-12-25 12:42:58
      絕不向中方出售?國產(chǎn)“重器”打破天價進口,美日圍追堵截失敗

      絕不向中方出售?國產(chǎn)“重器”打破天價進口,美日圍追堵截失敗

      溫讀史
      2025-12-26 16:59:22
      國安部:某境外勢力通過深度偽造技術(shù)生成虛假視頻,企圖向境內(nèi)傳播制造恐慌

      國安部:某境外勢力通過深度偽造技術(shù)生成虛假視頻,企圖向境內(nèi)傳播制造恐慌

      澎湃新聞
      2025-12-26 08:29:08
      2025-12-27 02:04:49
      直面派 incentive-icons
      直面派
      講述值得講述的真實故事
      241文章數(shù) 236關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經(jīng)要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態(tài)度原創(chuàng)

      手機
      藝術(shù)
      教育
      本地
      軍事航空

      手機要聞

      vivo藍河:以開源和賽事,撬動AGI時代底層技術(shù)生態(tài)

      藝術(shù)要聞

      你絕對想不到,佛陀微笑隱藏的秘密竟然是!

      教育要聞

      最新:一批學校期中考試成績曝光!民辦和公辦的差距巨大!

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      軍事要聞

      烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美阿V| 久久精品国产99国产精偷| 国产一在线精品一区在线观看| 色婷婷av久久久久久久| 韩国一级毛片中文字幕| 国产一级片内射在线视频| 看亚洲一级黄色片啪啪啪| 丁香婷婷中文字幕| 日韩无码人妻中文| 中文字幕乱码在线人视频| 内射中出无码护士在线| 强行无套内谢大学生初次| h动态图男女啪啪27报gif| 熟女亚州综合| 吉林市| 亚洲乱码av中文一区二区| 国产对白老熟女正在播放 | 最新亚洲人成无码网站| 玩弄放荡人妻少妇系列| 极品偷拍网| 中文字幕人妻宗合另类| 一本本月无码-| 少妇人妻偷人精品无码视频新浪 | 阳江市| 久久久久久av无码免费看大片| 久久久午夜精品福利内容 | 鄱阳县| 景洪市| 暖暖视频日本在线观看| 国内a∨免费播放| 日逼AV| 星座| 少妇人妻偷人精品无码视频新浪| 久久精品国产亚洲av忘忧草18| 国产v区| 人妻久久Aⅴ| 又粗又猛又黄又爽无遮挡| 视频一区视频二区视频三| 狠狠干2019| 久久国产乱子伦免费精品| 日本不卡视频|