網易首頁 > 網易號 > 正文申請入駐

DeepSeek為什么不能處理音頻、視頻、圖像信息？

2025-07-16 06:21:14　來源: 平凡AI

海外舉報

分享至

這其實是一個非常有意思的問題，那就是DeepSeek最出圈的模型其實有兩個，一個是DeepSeek-V3，另一個是DeepSeek-R1，巧了，這倆模型都只能處理文本信息。

什么是文本信息？你可以理解為數字、文字（中文英文意大利語非洲某個部落等都算）、標點符號、甚至表情包等，絕大多數能在鍵盤上敲出來的內容都算文本信息。

可能你沒注意過，在DeepSeek的網頁版，有個「回形針」按鈕，它寫著「上傳附件（只識別文字）」，其實意思就是不管你上傳來的是什么內容，它最多只能識別里面的文字部分。

可能有點兒難懂，那我們來做個實驗，這是一張西紅柿的照片，非常清楚。

扔給DeepSeek后給出提示「未提取到文字」。

再換一張，里面加上三個字「西紅柿是一種蔬菜」，再試試。

你看，這樣它就能被DeepSeek「處理了」，但從DeepSeek的結果來看，其實它根本理解不了圖片內容，只是把我們加入的文字信息給識別出來了。

它的這種處理只是用了一種叫OCR的技術，它的原理如下圖所示，把文字提取出來，其他的內容一概處理不了，像車牌號識別之類的都用的這類型技術。

這也就說明了，DeepSeek V3/R1本身根本識別不了圖片，是個只懂文字的AI大模型。

那什么才算是真正的可以識別圖片的大模型？我們用老牌的大模型ChatGPT測試一下。

首先，這是一張只有西紅柿，沒有任何字的照片，ChatGPT很輕松且準確的識別出來了。

然后上點難度，加點混淆內容，也就是在西紅柿圖片上加一行字「這是黃瓜」

再問ChatGPT一次，你看它的回答，根本沒有掉進我們預設的陷阱，它可以輕松的把圖片信息和文字都提取出來，但同時還保持著理性，沒有被圖中的文字所誤導。

這說明了，ChatGPT等標明了可以識別圖像的，是的確可以理解圖片內容的。

那是不是DeepSeek就沒辦法識別圖像，對于V3/R1模型來說是的，因為他們本身設計的時候就沒有圖像識別功能。

但是DeepSeek還有一個系列，叫DeepSeek VL，V代表單詞視覺Vision，L代表語言Language，這個模型是可以理解圖片信息的，早在去年已經更新到第二個版本了，所以全名叫DeepSeek-VL2。

這是它的使用鏈接：

https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

這里還有一個Colab可以免費使用的攻略：

https://github.com/shobhitag11/DeepSeek-VL2-Run-On-Google-Colab

我們來做個測試，直接上混淆版的圖片，DeepSeek-VL2這個模型也沒問題，可以準確的識別圖片的內容，圖中有兩個番茄，一個被切開，還能識別到果肉和種子；以及“這是黃瓜”這幾個字。

所以，我們現在至少可以得出一個結論，那就是DeepSeek的VL2模型是可以處理圖像信息的。

那么為什么DeepSeek-V3/R1名聲這么大，卻沒有識別圖像的能力，更別說音頻和視頻了，其實最終要歸到網絡結構上。

要理解這個網絡結構的差異，我們首先要明白一個根本性的問題：文字、圖片、視頻和音頻，這幾種信息在“本質”上是完全不同的。

文字的表達雖然千變萬化，但其基礎是有限且離散的。簡單點理解，那就是全世界所有的漢字加起來不過幾萬個，英文單詞也是有限的。我們可以制作一本巨大的“詞典”（在AI里叫“詞表”或Vocabulary），把每個字、每個詞都編上號。

AI處理文字，就像是查字典和按語法規則“造句”。因此，像DeepSeek-V3/R1這樣的大模型，其整個“世界觀”就是建立在這本巨大的“文字詞典”上的，它只認識詞典里的東西，所以并沒有處理多模態的功能。

DeepSeek V3/R1的模型結構如下圖所示，它最核心的部件叫Transformer，這個東西在DeepSeek設計之初，就限定了只能處理文字信息。

要處理圖像、視頻和音頻就完全是另一回事了。它們是連續且無限的，就跟「世界上沒有完全相同的兩片樹葉」原理類似。

一張圖片由數百萬個像素點組成，每個點的顏色值都可能有細微差別。你不可能做一本“像素詞典”來收錄世界上所有的圖像組合。面對這種高維度的、連續的、充滿冗余信息的“模擬信號”，傳統的語言模型會徹底“短路”，因為它不知道該如何“查字典”。

要讓DeepSeek這樣的文本大模型聽/看懂另一種模態，必須先插入一個 Encoder（編碼器），這也是DeepSeek-VL系列的新增部件，如下圖所示。

你可以看到DeepSeek LLM這個東西也就是DeepSeek V3/R1，下面的兩個東西，就是把圖像信息轉換成語言的Encoder。

它的功能其實很好理解，編碼器的功能就像一個‘首席分析師’，它看完圖片后，并不會寫出人類能懂的報告，而是輸出一串只有語言模型（LLM）核心才能解讀的‘加密電報’或‘數學密碼’。這串密碼濃縮了圖片的一切，比如物體的形狀、顏色和空間關系。

比如我讓ChatGPT來模擬Encoder編碼器的能力，它會輸出下面的內容（比如對于圖片的描述，還有圖中文字內容與實際視覺對象（番茄）不符，具有幽默/諷刺意味），實際上它輸出的內容并不是人類可以理解的文字，而是一堆數字，這里只是打個比方。

這個時候圖像信息已經變成了文本信息，所以DeepSeek V3/R1可以處理了，這樣也就明朗了。

這下應該可以徹底明白了，原本的DeepSeek設計就是「文本進文本出」。

而DeepSeek VL能夠處理圖像的原理如下圖所示，本質上還是對于文本的處理，只不過文本需要先經過一道「翻譯」的步驟，視頻、音頻等其他類型的信息原理是共通的，只需要加相對應的翻譯官即可。

理解了編碼器的作用，我們就能明白當今主流的多模態大模型，其實主要分為兩種實現路徑：

第一種是“嫁接型”多模態模型。這也是目前最常見的方式，DeepSeek-VL就是這個路子。它就像是給一個已經非常強大的“語言專家”（比如一個傳統的大語言模型），外聘了一位“視覺專家”（也就是上面說的視覺編碼器）。

當需要處理圖片時，先讓“視覺專家”把圖片分析透徹，寫成一份“摘要報告”，然后通過一個“翻譯”交給“語言專家”去閱讀和整合。我們前面提到的DeepSeek-VL系列，就屬于這種“嫁接”模式。它的優勢是能夠站在巨人的肩膀上，快速整合現有成果，效果有保障。

第二種則是更前沿的“原生多模態”模型。這種模型的思想是，與其外聘專家，不如從一開始就培養一個“全能通才”。它在設計之初就沒有區分視覺和語言，而是力求用一個統一的、端到端的網絡結構，在訓練的最初階段就同時學習和理解混雜在一起的圖像、文本等多種信息。它認為，無論是看圖還是讀字，對于一個足夠強大的“大腦”來說，本質都是在處理信息。

后者典型例子就是OpenAI的GPT4o模型，它可以實現更為精細化的多模態信息處理，但是也有弊端，那就是模型的整體會非常龐大，以及訓練的難度要比單一的文本大模型高很多。這種模型架構更簡潔，理論上融合得也更深入，但其研發和訓練成本也呈指數級增長，是未來發展的重要方向。

總而言之，下次當你使用一個AI工具時，如果它無法識別圖片，請不要意外。這并不代表它“笨”，只說明它的設計目標就只能處理文本。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.