<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek為什么不能處理音頻、視頻、圖像信息?

      0
      分享至

      這其實是一個非常有意思的問題,那就是DeepSeek最出圈的模型其實有兩個,一個是DeepSeek-V3,另一個是DeepSeek-R1,巧了,這倆模型都只能處理文本信息。

      什么是文本信息?你可以理解為數字、文字(中文英文意大利語非洲某個部落等都算)、標點符號、甚至表情包等,絕大多數 能在鍵盤上敲出來的內容都算文本信息。

      可能你沒注意過,在DeepSeek的網頁版,有個「回形針」按鈕,它寫著「上傳附件(只識別文字)」,其實意思就是不管你上傳來的是什么內容,它最多只能識別里面的文字部分。


      可能有點兒難懂,那我們來做個實驗,這是一張西紅柿的照片,非常清楚。


      扔給DeepSeek后給出提示「未提取到文字」。


      再換一張,里面加上三個字「西紅柿是一種蔬菜」,再試試。


      你看,這樣它就能被DeepSeek「處理了」,但從DeepSeek的結果來看,其實它根本理解不了圖片內容,只是把我們加入的文字信息給識別出來了。


      它的這種處理只是用了一種叫OCR的技術,它的原理如下圖所示,把文字提取出來,其他的內容一概處理不了,像車牌號識別之類的都用的這類型技術。


      這也就說明了,DeepSeek V3/R1本身根本識別不了圖片,是個只懂文字的AI大模型。

      那什么才算是真正的可以識別圖片的大模型?我們用老牌的大模型ChatGPT測試一下。

      首先,這是一張只有西紅柿,沒有任何字的照片,ChatGPT很輕松且準確的識別出來了。


      然后上點難度,加點混淆內容,也就是在西紅柿圖片上加一行字「這是黃瓜」


      再問ChatGPT一次,你看它的回答,根本沒有掉進我們預設的陷阱,它可以輕松的把圖片信息和文字都提取出來,但同時還保持著理性,沒有被圖中的文字所誤導。


      這說明了,ChatGPT等標明了可以識別圖像的,是的確可以理解圖片內容的。

      那是不是DeepSeek就沒辦法識別圖像,對于V3/R1模型來說是的,因為他們本身設計的時候就沒有圖像識別功能。

      但是DeepSeek還有一個系列,叫DeepSeek VL,V代表單詞視覺Vision,L代表語言Language,這個模型是可以理解圖片信息的,早在去年已經更新到第二個版本了,所以全名叫DeepSeek-VL2。


      這是它的使用鏈接:

      https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

      這里還有一個Colab可以免費使用的攻略:

      https://github.com/shobhitag11/DeepSeek-VL2-Run-On-Google-Colab

      我們來做個測試,直接上混淆版的圖片,DeepSeek-VL2這個模型也沒問題,可以準確的識別圖片的內容,圖中有兩個番茄,一個被切開,還能識別到果肉和種子;以及“這是黃瓜”這幾個字。


      所以,我們現在至少可以得出一個結論,那就是DeepSeek的VL2模型是可以處理圖像信息的。

      那么為什么DeepSeek-V3/R1名聲這么大,卻沒有識別圖像的能力,更別說音頻和視頻了,其實最終要歸到網絡結構上。

      要理解這個網絡結構的差異,我們首先要明白一個根本性的問題:文字、圖片、視頻和音頻,這幾種信息在“本質”上是完全不同的。

      文字的表達雖然千變萬化,但其基礎是有限且離散的。簡單點理解,那就是全世界所有的漢字加起來不過幾萬個,英文單詞也是有限的。我們可以制作一本巨大的“詞典”(在AI里叫“詞表”或Vocabulary),把每個字、每個詞都編上號。

      AI處理文字,就像是查字典和按語法規則“造句”。因此,像DeepSeek-V3/R1這樣的大模型,其整個“世界觀”就是建立在這本巨大的“文字詞典”上的,它只認識詞典里的東西,所以并沒有處理多模態的功能。

      DeepSeek V3/R1的模型結構如下圖所示,它最核心的部件叫Transformer,這個東西在DeepSeek設計之初,就限定了只能處理文字信息。


      要處理圖像、視頻和音頻就完全是另一回事了。它們是連續且無限的,就跟「世界上沒有完全相同的兩片樹葉」原理類似。

      一張圖片由數百萬個像素點組成,每個點的顏色值都可能有細微差別。你不可能做一本“像素詞典”來收錄世界上所有的圖像組合。面對這種高維度的、連續的、充滿冗余信息的“模擬信號”,傳統的語言模型會徹底“短路”,因為它不知道該如何“查字典”。

      要讓DeepSeek這樣的文本大模型聽/看懂另一種模態,必須先插入一個 Encoder(編碼器),這也是DeepSeek-VL系列的新增部件,如下圖所示。

      你可以看到DeepSeek LLM這個東西也就是DeepSeek V3/R1,下面的兩個東西,就是把圖像信息轉換成語言的Encoder。


      它的功能其實很好理解,編碼器的功能就像一個‘首席分析師’,它看完圖片后,并不會寫出人類能懂的報告,而是輸出一串只有語言模型(LLM)核心才能解讀的‘加密電報’或‘數學密碼’。這串密碼濃縮了圖片的一切,比如物體的形狀、顏色和空間關系。

      比如我讓ChatGPT來模擬Encoder編碼器的能力,它會輸出下面的內容(比如對于圖片的描述,還有圖中文字內容與實際視覺對象(番茄)不符,具有幽默/諷刺意味),實際上它輸出的內容并不是人類可以理解的文字,而是一堆數字,這里只是打個比方。


      這個時候圖像信息已經變成了文本信息,所以DeepSeek V3/R1可以處理了,這樣也就明朗了。

      這下應該可以徹底明白了,原本的DeepSeek設計就是「文本進文本出」。


      而DeepSeek VL能夠處理圖像的原理如下圖所示,本質上還是對于文本的處理,只不過文本需要先經過一道「翻譯」的步驟,視頻、音頻等其他類型的信息原理是共通的,只需要加相對應的翻譯官即可。


      理解了編碼器的作用,我們就能明白當今主流的多模態大模型,其實主要分為兩種實現路徑:

      第一種是“嫁接型”多模態模型。這也是目前最常見的方式,DeepSeek-VL就是這個路子。它就像是給一個已經非常強大的“語言專家”(比如一個傳統的大語言模型),外聘了一位“視覺專家”(也就是上面說的視覺編碼器)。

      當需要處理圖片時,先讓“視覺專家”把圖片分析透徹,寫成一份“摘要報告”,然后通過一個“翻譯”交給“語言專家”去閱讀和整合。我們前面提到的DeepSeek-VL系列,就屬于這種“嫁接”模式。它的優勢是能夠站在巨人的肩膀上,快速整合現有成果,效果有保障。

      第二種則是更前沿的“原生多模態”模型。這種模型的思想是,與其外聘專家,不如從一開始就培養一個“全能通才”。它在設計之初就沒有區分視覺和語言,而是力求用一個統一的、端到端的網絡結構,在訓練的最初階段就同時學習和理解混雜在一起的圖像、文本等多種信息。它認為,無論是看圖還是讀字,對于一個足夠強大的“大腦”來說,本質都是在處理信息。

      后者典型例子就是OpenAI的GPT4o模型,它可以實現更為精細化的多模態信息處理,但是也有弊端,那就是模型的整體會非常龐大,以及訓練的難度要比單一的文本大模型高很多。這種模型架構更簡潔,理論上融合得也更深入,但其研發和訓練成本也呈指數級增長,是未來發展的重要方向。

      總而言之,下次當你使用一個AI工具時,如果它無法識別圖片,請不要意外。這并不代表它“笨”,只說明它的設計目標就只能處理文本。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中美在聯合國吵起來了,輪到美方被“圍攻”,中方不許做5件事

      中美在聯合國吵起來了,輪到美方被“圍攻”,中方不許做5件事

      起喜電影
      2025-12-27 11:20:24
      凱樂石被曝“產品換名漲價900元”,涉事羽絨服缺貨下架

      凱樂石被曝“產品換名漲價900元”,涉事羽絨服缺貨下架

      藍鯨新聞
      2025-12-25 18:12:08
      宋徽宗用瘦金體寫的圣旨,幾經戰亂而流傳至今,乃真正的國寶

      宋徽宗用瘦金體寫的圣旨,幾經戰亂而流傳至今,乃真正的國寶

      幸福娃3790
      2025-12-11 11:34:53
      一家五口駕車在江門施工棧橋墜江遇難 老家村委會負責人:車上有7歲小孩和六旬老人

      一家五口駕車在江門施工棧橋墜江遇難 老家村委會負責人:車上有7歲小孩和六旬老人

      紅星新聞
      2025-12-26 13:15:16
      那個男人回來了!馬丁內斯領銜曼聯防守大戰,阿莫林變陣獲奇效

      那個男人回來了!馬丁內斯領銜曼聯防守大戰,阿莫林變陣獲奇效

      夜白侃球
      2025-12-27 10:49:10
      楊鳴:連續客場要盡量避免傷病,趙繼偉還在積極康復歸期未定

      楊鳴:連續客場要盡量避免傷病,趙繼偉還在積極康復歸期未定

      懂球帝
      2025-12-27 12:16:03
      房價下跌對普通人意味著什么?網友:我的首付先哭為敬!

      房價下跌對普通人意味著什么?網友:我的首付先哭為敬!

      另子維愛讀史
      2025-12-26 16:33:56
      這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,錯過了真可惜!

      這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,錯過了真可惜!

      江江食研社
      2025-12-26 12:30:03
      陳皮加它一煮,沾床就睡著!疏肝解郁安神,這法子讓我一覺到天亮

      陳皮加它一煮,沾床就睡著!疏肝解郁安神,這法子讓我一覺到天亮

      江江食研社
      2025-12-26 07:30:06
      太夸張了!iPhone 17 單月銷量超 600 萬臺,創歷史新紀錄

      太夸張了!iPhone 17 單月銷量超 600 萬臺,創歷史新紀錄

      XCiOS俱樂部
      2025-12-26 19:34:41
      事發上海外灘!游客被帶上警車,后續意想不到,網友:他們才是隱藏的高手

      事發上海外灘!游客被帶上警車,后續意想不到,網友:他們才是隱藏的高手

      上觀新聞
      2025-12-27 08:52:12
      天助C羅:1-2,C羅爭冠勁敵爆大冷門吞下首敗+落后利雅得勝利8分

      天助C羅:1-2,C羅爭冠勁敵爆大冷門吞下首敗+落后利雅得勝利8分

      俯身沖頂
      2025-12-26 23:04:44
      全員法國人踢非洲杯!這屆非洲杯有多少球員在法國出生?

      全員法國人踢非洲杯!這屆非洲杯有多少球員在法國出生?

      仰臥撐FTUer
      2025-12-26 17:19:06
      決戰山西!徐杰掛帥,三外援沖鋒,廣東劍指太原,吹響爭冠號角

      決戰山西!徐杰掛帥,三外援沖鋒,廣東劍指太原,吹響爭冠號角

      老曁科普
      2025-12-27 11:13:18
      曼聯1-0紐卡斯爾,中場夠硬,小鬼當家、沒有B費、第2場零封

      曼聯1-0紐卡斯爾,中場夠硬,小鬼當家、沒有B費、第2場零封

      卡靈頓分析師
      2025-12-27 10:33:51
      一包30塊,一口毀一生!不到十年,北方農村已經被檳榔全面入侵!

      一包30塊,一口毀一生!不到十年,北方農村已經被檳榔全面入侵!

      好賢觀史記
      2025-12-16 10:01:53
      滬深交易所發布:降費!

      滬深交易所發布:降費!

      數據寶
      2025-12-27 07:35:44
      91年,南京小伙被女友逼著在深圳買了5套房,21年后他不敢相信

      91年,南京小伙被女友逼著在深圳買了5套房,21年后他不敢相信

      卡西莫多的故事
      2025-11-22 15:18:18
      大量“洋垃圾”小主機流入閑魚!能用9代標壓U,準系統275元

      大量“洋垃圾”小主機流入閑魚!能用9代標壓U,準系統275元

      閑搞機
      2025-12-25 11:06:11
      隨著寧波88-79雙殺浙江,廣東贏山東,新疆3連敗,CBA積分榜更新

      隨著寧波88-79雙殺浙江,廣東贏山東,新疆3連敗,CBA積分榜更新

      小火箭愛體育
      2025-12-26 22:00:30
      2025-12-27 13:07:00
      平凡AI incentive-icons
      平凡AI
      高校AI從業者
      54文章數 23關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      賈國龍首次回應西貝風波 稱自己連續40天靠安眠藥入睡

      頭條要聞

      賈國龍首次回應西貝風波 稱自己連續40天靠安眠藥入睡

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      劉宇寧:我的價值不需要靠番位來證明

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態度原創

      數碼
      游戲
      家居
      旅游
      公開課

      數碼要聞

      HKC惠科全球首創1080Hz HD極致高刷電競顯示器

      《拳皇98》版不知火舞最新雕像 性感無雙背壓巨大

      家居要聞

      格調時尚 智慧品質居所

      旅游要聞

      山西省啟動達人共創計劃助力文旅發展

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本久久高清一区二区三区毛片 | 日韩伦人妻无码| 久久久性爱| 色欲av永久无码精品无码蜜桃| 久久天天躁狠狠躁夜夜不卡公司 | 亚洲综合无码明星蕉在线视频 | 国产黄色视频大全| 欧洲vodafone精品性| 国产精品老热丝在线观看| 无码人妻精品一区二| 中文字幕日韩av| 日屄影视| 久久精品天天中文字幕人妻| 91在线观看| 婷婷开心中文字幕| 亚洲日本色| 国产精品国产精品国产专区不卡| 无套內谢波多野结衣| 永久免费mv入口| 97精品综合久久| 欧美无人区码suv| 国产97人人超碰CAO蜜芽PROM| 亚洲精品97久久一| 国产九九在线视频| 国产精品视频一区二区三区不卡 | 极品美女扒开粉嫩小泬图片| 4hu44四虎www在线影院麻豆| 99自拍视频| 鄂尔多斯市| 精品黑人一区二区三区| 一个人看的www日本高清视频 | 亚洲精品无码中文| 2021亚洲爆乳无码专区| 18av千部影片| 国产九九在线视频| 国产av剧情md精品麻豆| 全部孕妇毛片丰满孕妇孕交| 国产成人A片| 亚洲日本色| 久久久www影院人成_免费| 天天综合天天添夜夜添狠狠添|