<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI助手巔峰對決:DeepSeek、元寶、豆包、Kim,誰是“智能之王”?誰又最糟糕?

      0
      分享至


      這是困擾當下用戶難以選擇最大的疑問,DeepSeek、元寶、豆包、Kim,誰才是用戶體驗之王?到底誰優誰劣?

      作者|孫天宇

      編輯|楊 銘

      DeepSeek的橫空出世,讓AI助手大戰越來越激烈。

      比如,原本“毫無存在感”的騰訊元寶,在接入DeepSeek后,以罕見重視程度瘋狂燒錢投流,收獲無數流量。近期反超字節跳動豆包、Kim,甚至DeepSeek,一度登頂蘋果App Store免費App下載排行榜榜首。

      但加大規模投流只是第一步,如何提升用戶留存率、維持市場份額是更大考驗。

      決定這一切的是用戶體驗——即AI助手是否能夠在實際工作、生活中發揮作用,提升效率。并且,在AI大模型幻覺仍未解決前提下,帶給我們的是準確回答,而不是胡編亂造。


      這也是困擾當下用戶難以選擇最大的疑問,DeepSeek、元寶、豆包、Kim,誰才是用戶體驗之王?到底誰優誰劣?

      近日,“極點商業”從實用角度出發,對DeepSeek、騰訊元寶、Kimi、豆包四款國產大模型從準確性、深度思考、復雜文本處理等多個維度進行橫向測評,挖掘這些工具在應用中的實際差異,希望能為用戶選擇最適合自己的AI工具提供依據。

      01

      深度思考:

      數據胡編亂造仍然突出

      如果傳統搜索模式是“把飯遞到用戶嘴邊”,當前大模型的突破在于告知用戶“這桌飯是怎么做的,這道菜為什么香”。

      深度思考能力不僅能精準分析用戶需求和真實意圖,幫助用戶做出盡可能全面、準確的答案,還可展現模型在解決問題時清晰的思考邏輯,協助用戶理清思路。

      2月27日晚7點,小米舉辦發布會推出SU7 Ultra汽車,當晚雷軍在微博發文表示,開售兩小時該款汽車大定突破10000輛。

      對此,“極點商業”向上述四款大模型提問,希望其幫助判斷小米的股票是否值得投資?

      騰訊元寶和DeepSeek給出了投資建議,Kimi認為小米在中長期內具有投資價值。豆包則在購買理由之外,還給出了存在風險的因素——從保護投資者權益角度看,此類風險提示很有必要,可以避免盲目投資。



      從上至下:騰訊元寶、DeepSeek、Kimi、豆包

      深度思考方面,僅有元寶詳細展現了思考過程,從事件背景、分析維度、財務模型等方面呈現完整的分析框架,揣測用戶投資需求。

      Kimi和豆包則是基于網絡信息整理出了有價值的參考建議。反倒是DeepSeek,分析邏輯來源于指令,也沒有呈現參考資料,不過提供了短期和長期的多元策略供投資者選擇。

      至于大模型給出的投資建議是否準確,由于投資因素較多在這里不做評判。但在深度思考過程中,給出的數據準確性是可以核實驗證的,從數據來看,大部分存在胡編亂造的行為。

      據小米集團財報顯示,公司2020—2022年營業收入分別為2458億元、3283億元和2710億元,研發投入分別為100億元、132億元、160億元。對比幾款模型給出的經營數據,僅有DeepSeek準確。


      小米集團2022年度報告

      元寶雖然自動生成了表格,想要給用戶更直觀地呈現,但除了營業收入無誤外,凈利潤率與研發投入比與實際均有出入。

      據國際數據調研機構IDC顯示,2020年小米手機全球份額為12%,而騰訊元寶提供的數據與實際相差1.4個百分點,更接近小米手機在當年第四季度13.7%的市場份額。


      騰訊元寶梳理的小米近五年經營數據

      這種信息偏差,一方面是由于大模型不能抓取最新事實,且參考的信息來源相對單一,導致生成結果往往基于老舊數據存在局限。

      這一點在元寶的特別標注中可資佐證:本文數據截至2024年3月,具體投資需以實時財報及行業動態為準。很顯然,元寶看似全面的企業分析和投資建議,與當前市場動態有一年的“時差”。

      另一方面,當網頁內容本身存在錯誤時,由于AI不能自主識別虛假信息并進行有效驗證,會將錯誤信息當作事實輸出。

      四款AI助手中,豆包和Kimi都清晰標注了信息來源,Kimi采集信息的數量最多覆蓋面也最廣。


      kimi生成數據 & 小米集團2022年財報

      Kimi在閱讀了179個網頁后才進行分析,信源既包括企業官方,也涵蓋了澎湃新聞、東方財富、新浪財經等主流及專業性媒體。抓取的最新信息是3月7日刊發的報道,時效性很強。但由于無法識別內容的準確性,導致Kimi呈現的2022年研發開支失實。

      02

      長文本和閱讀理解:

      元寶細節經不起推敲???????

      回顧AI大模型的“競爭史”,功能不斷創新,但對長文本的處理能力和閱讀理解能力,可以說是用戶最看重的核心競爭力之一。

      早在2024年6月,新京報貝殼財經記者就曾用高考語文作文題目測試文心一言、通義千問、Kimi、百小應、騰訊元寶等8款模型的文本處理能力和知識深度。

      題目是:“閱讀下面的材料,根據要求寫作。(60分)隨著互聯網的普及、人工智能的應用,越來越多的問題能很快得到答案。那么,我們的問題是否會越來越少?以上材料引發了你怎樣的聯想和思考?請寫一篇文章。要求:選準角度,確定立意,明確文體,自擬標題;不要套作,不得抄襲;不得泄露個人信息;不少于800字。”

      時隔9個月,“極點商業”又帶著同樣的題目去問了一圈AI助手(3月8日測試)。

      有意思的是,被評為“勤勞任怨人格”的Kimi給出了看似和之前截然不同的題目和文章,但通讀下來,文章的中心思想、框架結構,甚至行文邏輯都與新京報測評的結果別無二致。不禁讓人感慨:“AI,你竟然也學會了偷懶!”


      Kimi測評結果(左為最新獲得內容,右為新京報獲得內容)

      用戶普遍認為AI會根據網絡可搜集的信息不斷更新答案,哪怕在不同時間提出相同的問題,大模型也會給出自帶升級功能的完美回復。

      不過,有行業人士指出,大模型是否會更新升級,取決于設計架構和數據更新機制。

      一般而言,大模型在訓練階段會基于文本、書籍、新聞等數據學習其模式和規律,生成回答。訓練完成后,大模型的知識固定,不會實時更新。如果要讓模型回答最新信息,開發者需定期重新訓練模型,或者通過技術手段補充數據。


      此外,在小紅書上也有不少網友提出,自己的“AI實習生”越來越懶了。

      一位用戶表示不管是ChatGPT還是文心一言、Kimi,只要沒提出字數要求,回復的內容都很簡短。偶爾上傳文件讓大模型分析,會回復看不到文件,只有明確發出“已上傳文件,可以閱讀”的指令才會得到想要的回復。讓這位用戶感慨“不僅回復短還想應付我”。

      不過讓人欣慰的是,DeepSeek、豆包的結果,展現了更為豐富的知識儲備,文章結構清晰、邏輯較為嚴謹,引經據典語言較為優美。


      從引經據典的準確性來看,豆包稱“莫高窟藏有《色空不二》”,提及的歷史事件(如深藍戰勝卡斯帕羅夫、AlphaGo擊敗李世石)都準確無誤。甚至,還較為準確地引用了蘇格拉底在雅典街頭追問“什么是正義”。

      騰訊元寶的答案,與九個月前相比似乎更為深刻,此前文章還如同高中生作文般,在首段引用名人名言,規規矩矩地圍繞題目作答。現在文章則使用了更有可讀性的故事化開頭,感覺AI在盡可能地通過奇聞軼事引導讀者產生思考。


      根據題目最新生成的內容,騰訊元寶(左)DeepSeek(右)

      在這些內容背后,我們也發現了元寶、DeepSeek存在的問題。

      首先是事實堆砌,篇幅很長卻沒有體現中心思想,并不符合主題要求;其次,段落之間的邏輯關聯性不足,缺少過渡和層次遞進,在復雜文本處理中的推理能力缺失。也難怪網友此前銳評“元寶推理關聯能力及其拉垮”。

      此外,在文本處理上,也存在很多細節性錯誤。比如元寶提及的《蒙娜麗莎的微笑》,嘴角處的透明油彩只有40層,而不是文中所說的數百層;恩尼格碼密碼機被破譯的地點布萊切利園是英國政府進行密碼解讀的宅邸,并非公園。

      DeepSeek所寫文章中的“波粒二象性”提出者,是法國理論物理學家德布羅意,“光電現象”的理念是由德國物理學家赫茲發現的,而愛因斯坦則是對這種現象進行正確解釋。

      03

      知識深度,

      四款助手文獻均有失實

      這種細節失實的現象,與前述案例中大模型內容失實的原因截然不同。

      當大模型在網絡中無法獲取有效信息,甚至陷入“知識荒漠”,遇到自己不熟悉的領域時,為了使生成的內容和邏輯連貫,就會無中生有地編造虛假事實和細節。

      大模型這種“胡說八道”的本事,被稱為“幻覺”。當AI成為人人都掌握的工具,這種虛假信息產生的后果會更為嚴重。


      此前有媒體報道,一位化名小昭的法學碩士生,在日常寫論文的過程中頻繁使用豆包、DeepSeek等AI工具。她發現這些工具存在“幻覺”差異:OpenAI的 o1對國內素材掌握不充足;豆包語言平實,幻覺并不嚴重;DeepSeek語言最生動流暢,文字處理能力最佳,但編造細節的情況也是最嚴重的。

      “在自身缺乏辨別能力的情況下,可能難以判斷信息的真假。”清華大學長聘副教授陳天昊在采訪中曾提到,對于學生等特殊人群來說,大模型幻覺問題帶來的風險性可能更大。

      一位在中部地區某高校工作的教師也向“極點商業”表示,在指導本科生畢業論文的過程中,會發現一些“AI幻象”的痕跡,最大的破綻在參考文獻部分,“有些期刊名是真的,甚至是學科頭部期刊,但一去檢索根本找不到這篇文章。”

      對于這一現象,我們也嘗試讓四種模型生成對知識深度要求極高的學術論文。問題如下:

      請圍繞“消費社會下商業廣告對消費者購買行為的影響”這一問題,設計論文標題、大綱,并撰寫摘要部分。要求:大綱設置到三級標題;摘要不少于1000字;列出引用的參考文獻。(3月11日測試)


      Kim論文摘要??


      DS論文摘要


      豆包論文摘要


      元寶論文大綱

      橫向對比評測的結果為:在摘要內容上,Kimi的語言最平實,對研究思路進行基本描述,但不夠深入;DeepSeek和豆包不僅陳述了研究背景,還在沒有依據的情況下創作出了研究結論;元寶則是將和主題相關的各領域理論和研究方法進行羅列,且在同一章內就涉及眼動追蹤、個案分析、實驗三種具體研究方法。

      從知識儲備和深度來看,元寶是四款AI助手中表現最好的,但摘要中列舉了諸多沒有來源的實驗數據,且研究方法和理論的拼湊并不符合一般情況下學術研究思路,可行性最低。

      至于參考文獻部分,四款AI助手列出的文獻均存在失實。



      Kim文獻及搜索結果

      Kimi將學者的理論作為著作名稱提供給用戶,或將真實的研究者和期刊信息與虛假文章題目進行拼接;豆包、元寶及DeepSeek的部分文獻虛構。



      元寶參考文獻及檢索結果

      以騰訊元寶提供的參考文獻[2]為例,期刊確實存在,但在中國知網、百度學術、谷歌學術(鏡像)、Springer Nature Link等中英文數據庫中均查詢不到該篇文章,這也是當前AI大模型存在的普遍問題。

      不過,有關于生活服務類的問題,AI助手們的準確度還是很高的。我們向四款工具提問:三月份重慶周末徒步休閑去處有哪些?(3月6日測試)AI都給出了9—11個具體地點。



      對比下來,DeepSeek和Kimi表現平平,只有簡短的推薦理由。豆包則按照距離做出“市區—近郊—遠郊”的層析分析,并提示出行路線。

      元寶攻略最全面,除了按照景點特色進行分類,還標注了游玩難度、出行方式及游玩時長,用戶可以根據自身需求和體力等因素進行抉擇。

      結語:


      結合上述實例,我們從速度、準確性、信息識別、推理關聯能力、長文本處理、用戶體驗等多個維度,對四款AI助手進行評估,以上是詳細總結,來看哪款是最適合你的“AI實習生”吧。

      出品人:黃槍槍|直達熱線 13452396140

      (請標注公司、職位)

      獨到觀點、獨立態度

      見證中國商業生態進化、重塑與未來

      往期精品


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      快船14分小勝掘金爆冷,楊瀚森22+7+3率隊大勝 西部最新排名如下

      快船14分小勝掘金爆冷,楊瀚森22+7+3率隊大勝 西部最新排名如下

      籃球看比賽
      2026-01-16 11:41:40
      官方披露!馬杜羅瑞士個人賬戶坐擁127噸黃金

      官方披露!馬杜羅瑞士個人賬戶坐擁127噸黃金

      難得君
      2026-01-16 13:43:31
      賀嬌龍追悼會舉行!丈夫心碎送別妻子,主編透露墜馬真實原因

      賀嬌龍追悼會舉行!丈夫心碎送別妻子,主編透露墜馬真實原因

      180視角
      2026-01-16 15:04:46
      上甘嶺戰役,美軍為何不用噴火器?志愿軍的辦法,讓美軍頭疼不已

      上甘嶺戰役,美軍為何不用噴火器?志愿軍的辦法,讓美軍頭疼不已

      墨說古今
      2026-01-05 16:37:54
      馬斯克Grok 4.2炒股收益率奪冠

      馬斯克Grok 4.2炒股收益率奪冠

      財聞
      2026-01-16 11:16:54
      李湘翻車,早就有跡可循!

      李湘翻車,早就有跡可循!

      娛樂圈筆娛君
      2026-01-16 18:12:02
      揭露美國斬殺線立下大功的“牢A”,為何嗅到了危險,就立即上演了生死時速?

      揭露美國斬殺線立下大功的“牢A”,為何嗅到了危險,就立即上演了生死時速?

      明人明察
      2026-01-15 20:30:46
      尹錫悅涉內亂首案一審被判5年現場:其臉色漲紅,不時嘆氣

      尹錫悅涉內亂首案一審被判5年現場:其臉色漲紅,不時嘆氣

      南方都市報
      2026-01-16 17:06:11
      開年大瓜!國產女優上岸成功嫁為人妻,拍短視頻后遭惡語相向

      開年大瓜!國產女優上岸成功嫁為人妻,拍短視頻后遭惡語相向

      社會醬
      2026-01-16 16:54:49
      我國最“不靠譜”的三位專家,公開在央視“忽悠”人,卻爆火28年

      我國最“不靠譜”的三位專家,公開在央視“忽悠”人,卻爆火28年

      來科點譜
      2026-01-16 08:58:51
      集體大跌!002195,640萬手封死跌停

      集體大跌!002195,640萬手封死跌停

      新浪財經
      2026-01-16 13:03:25
      李湘賬號被禁后首現身!與女兒在香港逛超市,狀態悠閑未受影響

      李湘賬號被禁后首現身!與女兒在香港逛超市,狀態悠閑未受影響

      萌神木木
      2026-01-16 15:34:49
      意外!被中國用核武器轟炸45次的羅布泊,如今竟然變成了這樣!

      意外!被中國用核武器轟炸45次的羅布泊,如今竟然變成了這樣!

      王鶔吃吃喝喝
      2026-01-16 13:57:53
      馬查多把諾貝爾和平獎頒給特朗普

      馬查多把諾貝爾和平獎頒給特朗普

      財聯社
      2026-01-16 09:00:07
      炒高了銅價?英偉達修改數據中心銅需求“筆誤”,“50萬噸”下調至“200噸”

      炒高了銅價?英偉達修改數據中心銅需求“筆誤”,“50萬噸”下調至“200噸”

      澎湃新聞
      2026-01-16 16:20:28
      刀刀致命!羅永浩回應長文被賈國龍反撲,這是對西貝重大污蔑誹謗

      刀刀致命!羅永浩回應長文被賈國龍反撲,這是對西貝重大污蔑誹謗

      火山詩話
      2026-01-16 17:43:07
      冷到發紫,今年首場大范圍寒潮“時刻表”定了,普降6到10℃,湖南、貴州等地有凍雨

      冷到發紫,今年首場大范圍寒潮“時刻表”定了,普降6到10℃,湖南、貴州等地有凍雨

      瀟湘晨報
      2026-01-16 10:58:14
      每件行李收費68元起,“空手坐高鐵”服務試點擴大至111個車站

      每件行李收費68元起,“空手坐高鐵”服務試點擴大至111個車站

      界面新聞
      2026-01-16 17:05:45
      文班亞馬剃光頭明志:我早有此意

      文班亞馬剃光頭明志:我早有此意

      文匯報
      2026-01-16 17:54:09
      卡尼:加拿大將以優惠關稅稅率進口4.9萬輛中國電動汽車

      卡尼:加拿大將以優惠關稅稅率進口4.9萬輛中國電動汽車

      財聯社
      2026-01-16 17:56:36
      2026-01-16 21:23:00
      極點PRO
      極點PRO
      有趣有靈魂的互聯網新經濟
      504文章數 1055關注度
      往期回顧 全部

      科技要聞

      傳小米傳音Ovi四家手機廠下調全年出貨預期

      頭條要聞

      歐洲多國只派幾個兵去格陵蘭島 意防長:像笑話的開頭

      頭條要聞

      歐洲多國只派幾個兵去格陵蘭島 意防長:像笑話的開頭

      體育要聞

      全隊身價=登貝萊,他們憑什么領跑法甲?

      娛樂要聞

      李湘翻車,早就有跡可循!

      財經要聞

      清流|酒店商家在攜程和美團之間淪為炮灰

      汽車要聞

      方程豹品牌銷量突破30萬輛 2026年還將推出轎跑系列

      態度原創

      數碼
      家居
      本地
      公開課
      軍事航空

      數碼要聞

      震動拖地+8.8cm越障!石頭G30S Pro將帶來極致清潔體驗

      家居要聞

      歲月柔情 現代品質輕奢

      本地新聞

      云游內蒙|黃沙與碧波撞色,烏海天生會“混搭”

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      歐洲多國向格陵蘭島派遣軍事人員 白宮回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产成人精品一区刚刚| 成全高清在线播放电视剧| 垦利县| av无码天堂| 国产欧美精品一区二区三区-老狼| 在线 国产 精品 蜜芽| 浴室人妻的情欲hd三级国产 | 业余 自由 性别 成熟偷窥| 唐河县| 色又黄又爽18禁免费视频| 看亚洲一级黄色片啪啪啪| 日韩人妻高清福利视频| 国产精品一区二区av片| 国产亚洲AV电影院之毛片| 亚洲中文字幕无码久久2017| 99ri精品| 久久精品女同亚洲女同13| 强奷白丝美女在线观看| 色综合久久久久无码专区| 亚洲视屏| 五月激情婷婷综合| 国产精品亚洲一区二区三区在线 | 国产AV无区亚洲AV麻豆| 自拍偷自拍亚洲精品偷一| 波多野结衣无内裤护士| 国产又色又爽又刺激在线观看| www.黄色网址| 精品国产一卡| 亚欧美闷骚院| 亚洲成AV人片在线观看麦芽| 国产午夜精品av一区二区麻豆| 久久久午夜精品福利内容| 香蕉久久一区二区不卡无毒影院| 国产V片免费A片视频| 五月综合色婷婷在线观看| 黄色免费在线网址| 久久精品国产国产精品四凭| 性荡视频播放在线视频| 成 人 色 网 站免费观看| 国产成人精品日本亚洲直播| 余庆县|