<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全新開源的DeepSeek-OCR,可能是最近最驚喜的模型。

      0
      分享至

      AI圈雖然天天卷,但是很多的模型,真的越來越無聊了。

      每天就是跑分又多了幾個點。

      直到昨天,DeepSeek久違的發了一個新模型。

      DeepSeek-OCR。

      這玩意,是真的有點酷。


      首先,不要被這個名字騙了。

      雖然說它名字上有個OCR,但是你說它真的就只是個OCR模型嗎。

      我想說,是,也不是。。。

      說它是,很簡單,就是因為這玩意,干的確實也是傳統OCR的活。

      傳統的OCR任務其實特別純粹,就是把那些圖片上字啥的啊,變成你 電腦里可以 編輯 可以 復制粘貼 數字文本。

      以前沒有OCR的時候,你想想,你看到手上的書上有些字特別好,你想錄到電腦里,你會咋辦?答案就只有一個,一個字一個字的敲上去。

      敲幾句話還行,讓你敲個合同或者一本三體你試試看,是個人都絕逼要瘋。

      后來OCR來了,就特別方便了,直接拍個照片,就能把里面的文字全部提取出來,很簡單。

      所以DeepSeek-OCR確實也有OCR的功能,也能干OCR的活,而且還挺強。


      比如這是一張典型的金融研究報告。,里面有文字,有圖表,有各種復雜的排版。

      你讓一個傳統的OCR軟件去看這張圖,它可能會非常精準地,把里面所有的文字,都摳出來,變成一個TXT文檔。

      然后就沒有然后了。

      但是DeepSeek-OCR,它看完這張圖,會直接,生成一個Markdown文檔。

      在這個文檔里,文字是文字,標題是標題,最關鍵的是,那些圖表,被它用代碼,也重新畫了一遍,變成了一個可以被編輯被引用的表格。

      這個很牛逼了。

      但是吧,這玩意又不只是我們傳統意義上理解的OCR。

      他還有一個很重要的功能,就是,壓縮。

      可能會有點難以理解和抽象,我盡可能的用通俗易懂的話來講明白。

      在說壓縮之前,我們得先搞明白,現在所有大語言模型,從GPT-3.5到我們現在的各種模型,都面臨著一個共同的幾乎無解的噩夢,就是長文本處理。

      你別看它們現在能寫一堆亂七八糟的能當朋友跟你聊天還能用嘴畫圖,但你只要丟給它一篇稍微長點的內容,比如一本幾十萬字的書,讓它去理解,去總結,基本上都要炸。

      因為AI理解文字的方式,跟我們不一樣。

      我們看書,是一目十行。

      AI讀文字,它需要把每個字,每個詞,都轉換成Token。你可以把它簡單的理解成一個一個的“字節”,是數據里面的那個字節,不是字節跳動的字節。

      現在主流AI架構的缺陷是,它在讀每一個新詞的時候,為了理解上下文,它需要把這個新詞和前面所有出現過的詞,都建立一次聯系。

      所以處理這些Token的計算量,是隨著文本長度的平方增加的。

      比如我舉一個Party的例子,現在這個Party上有10個人,每個人都跟其他人貼貼一下,那大概需要45次貼貼,還行對吧。

      但如果來了100個人,每個人都要跟其他人貼貼,就需要將近5000次貼貼,這基本就屬于廢了。

      這就是技術上常說的計算復雜度是N的平方。

      這個成本,是指數級增長的,誰都扛不住。

      所以,長久以來,整個AI界都在死磕一個問題,怎么讓AI,能又快又便宜的搞定上下文的問題?

      大家想了很多辦法,什么滑動窗口、稀疏注意力,各種各樣的算法優化。但這些,都像是給一輛漏油的破車,換更好的輪胎,貼更騷的膜。

      但是它,解決不了發動機的根本問題啊。

      然后DeepSeek這次,它根本沒管你那個漏油的破逼車,而是,直接給你買了一輛,新能源。

      它說:“我們為什么,非要讓AI一個字一個字地讀呢?我們能不能讓它,像我們人一樣,看?”

      就是我不再把一本300頁的書,轉換成幾十萬個Token的文本文件,喂給AI。

      而是,我直接把這300頁書,拍成一張張照片,變成一個圖像文件,然后,讓AI去看這張圖。

      你可能覺得,這不是脫褲子放屁嗎?照片不也是由像素組成的嗎?信息量不是更大了嗎?

      對,但你忽略了最關鍵的一點:

      圖像,是二維的,而文字,是一維的。

      一維的文字,就像一根無限長的薯條,你想吃它,智能從頭吃到尾,一個字節都不能少。

      而二維的圖像,就像一張大餅,你一眼掃過去,整個餅的全貌,盡收眼底。

      DeepSeek-OCR,干的就是這事,把所有的文字,全部壓縮成圖像。

      這個過程,在他們的論文里,叫“上下文光學壓縮”(Contexts Optical Compression)。

      我給你舉一個 真正的應用場景案例 ,你就全明白了:

      比如假設你正在跟一個AI助手聊天,你倆已經聊了三天三夜,聊了 1000 輪,可能占幾十萬甚至幾百萬的Token。

      對于以前的大模型來說,當你問:“哎,我三天前跟你說的第一件事是啥?”,大模型就必須把這1000輪的全部聊天記錄都裝進它的記憶區也就是上下文窗口里,才能去查找。

      這會撐爆它的內存和算力,所以現在的AI,很多的聊著聊著你就感覺它失憶,因為有的,真的只能記住最近的幾十輪對話。

      而DeepSeek-OCR的解決方案呢,是這樣的。

      AI助手只把最近10輪的聊天記錄,用文本的形式記在腦子里。

      但是,它把那更遠一點的990輪的文本聊天記錄,自動渲染成一張或著幾張長長的圖片,就像你給聊天記錄截了個屏。

      然后,它立刻調用內部的DeepEncoder編碼器,把這張包含海量文字的截圖,壓縮成大概只有原來10分之1的視覺Token,然后一起扔到上下文中,記到腦子里。

      當真正要用的時候,比如你還是問那個問題,“我三天前說的第一件事是啥?”

      它現在的上下文里裝的是10輪聊天記錄的文本token + 990輪聊天記錄的視覺token

      然后,它的解碼器,DeepSeek-3B,一個激活參數為570M的MOE模型,已經通過 OCR 任務,學會了一看到這視覺token,就能把解碼還原成原文的能力。

      于是,他看了一眼那一圈視覺Token,找到了三天前的第一句話,然后回答了你。

      這,就是DeepSeek-OCR的整個架構。


      所以啊,別被名字騙了,這真的不止是個OCR啊。。。

      這是純粹的關于上下文的新范式。。。

      所以雖然跟百度的那個PalddeleOCR-VL一樣名字也有OCR,但其實,兩個,真的不是一個東西= =

      DeepSeek-OCR,這,即是壓縮。

      論文里給出的數據是,在保持96.5%的識別準確率的前提下,壓縮比可以達到驚人的10倍


      壓縮比 = 原來的文本token總數 ÷ 壓縮后視覺token總數。

      而20倍的壓縮比,還能保留60%的準確率,雖然這個準確率確實不咋地,但是,這也是給未來留下了非常值得優化的方向。

      說實話,這個東西確實很新,真的很有意思,可能是我為數不多的最近看到的最好玩的模型論文。

      一圖勝千言,可能說的就是如此吧。

      而且細細想來,其實這種壓縮之法,也確實沒啥毛病。

      我們總覺得文字是信息傳遞的巔峰。

      但從整個人類歷史和生物進化的角度看,視覺,才是我們一直處理信息的最重要的手段。

      在文字誕生之前的幾十萬年里,我們的祖先就是靠看來生存的。

      看天色,看獵物,看同伴的表情,看親手刻下的壁畫。

      在紙張和印刷術普及之前,人類是怎么記錄宏大敘事的?是壁畫,是浮雕。

      埃及金字塔里的象形文字,敦煌莫高窟里的經變畫,它們本身就是一種壓縮。古埃及人把復雜的祭祀、律法、歷史,壓縮在一幅幅畫里,等待別人去解壓。

      從這個角度看,DeepSeek-OCR干的事,和當年的人類,其實也沒什么兩樣。

      但是當我覺得,最頭皮發麻為之一振的話。

      其實是論文的最后,他們寫的一點點希望討論的。

      DeepSeek說,對于那些更古老的上下文,我們可以逐步縮小渲染出的圖像,以進一步減少令牌消耗

      這個假設的靈感,來自于一個非常自然且深刻的類比:

      人類的記憶會隨著時間的推移而衰退,人類的視覺感知會隨著空間距離的拉遠而退化。


      這種現象,它們都表現出了相似的、漸進式的信息丟失模式。

      他們可以用“上下文光學壓縮”的方法,實現了一種記憶衰減形式。

      比如圖表里,最左是 Text token,也就是不壓縮的純文本,信息保真;往右是把文字渲成圖再編碼成視覺 token 的不同模式,Gundam 比較豪華、細節多、花銷大,Large 再次之,Base、Small、Tiny 依次更省 token、也更模糊。

      它幾乎,完美地鏡像了生物的遺忘曲線。

      在這個機制下,最近的信息保持著高保真度,而遙遠的記憶則通過不斷提高的壓縮率,自然地褪色和淡忘。

      這個機制,實在是太酷了。

      很像是在探討,一種“數字生命”的可能形態。

      我們一直以來追求的AI,是什么樣的?

      是一個擁有無限記憶、絕對理性的“神”。

      它不會遺忘,不會犯錯,像一臺完美的機器。

      但我們自己是這樣的嗎?

      不是。

      遺忘,恰恰是人類智慧最重要的組成部分。

      我們之所以能夠創新,能夠抓住重點,能夠在復雜的世界里做出決斷,正是因為我們的大腦懂得,放下。

      我們會忘記那些不重要的細節,我們會模糊那些久遠的傷痛,我們會把寶貴的認知資源,留給當下最重要的事情。

      遺忘,還有錯誤,真的不是bug,是我們這個物種能夠延續至今的核心算法之一。

      就像西部世界里的那句經典臺詞。

      在福特的理論中,進化形成了這個星球上有情感和知覺的生命體,“用的唯一工具,就是錯誤。”


      遺忘,也是那個“錯誤”。

      對DeepSeek-OCR感興趣的,可以去他們的項目網址看一看,體驗一下。

      https://github.com/deepseek-ai/DeepSeek-OCR

      但是,我也非常強烈的建議,大家也可以,去讀一讀這篇論文的原文。

      不需要看那些很技術的原理和數學,只要看方法,還有范式,其實就能學到很多東西。

      我把論文原文也放在公眾號后臺了,你對著后臺私信“OCR”,也會自動的發給你。


      感謝DeepSeek。

      惟愿我們。

      國運昌隆。

      以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

      >/ 作者:卡茲克

      >/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國隊逆轉日本揪出最大毒瘤!他上場8分鐘 球隊輸10分 打的真差

      中國隊逆轉日本揪出最大毒瘤!他上場8分鐘 球隊輸10分 打的真差

      籃球專區
      2026-02-26 21:18:29
      網約車司機行駛中突發疾病昏迷,車上有乘客,“撞路邊停下” 平臺:已不幸離世,將做好關懷工作

      網約車司機行駛中突發疾病昏迷,車上有乘客,“撞路邊停下” 平臺:已不幸離世,將做好關懷工作

      紅星新聞
      2026-02-26 19:49:31
      韋雪廣西被偶遇,像楊冪但差遠了,饅化嚴重,吃螺螄粉不敢張大嘴

      韋雪廣西被偶遇,像楊冪但差遠了,饅化嚴重,吃螺螄粉不敢張大嘴

      非常先生看娛樂
      2026-02-25 16:59:15
      春天吃一瓜,中藥不用抓!一降火、二潤腸、三強免疫,鮮嫩營養高

      春天吃一瓜,中藥不用抓!一降火、二潤腸、三強免疫,鮮嫩營養高

      阿龍美食記
      2026-02-25 13:18:07
      “預訂三亞民宿8499元被毀約”后續:擬罰款35萬,吊銷營業執照

      “預訂三亞民宿8499元被毀約”后續:擬罰款35萬,吊銷營業執照

      界面新聞
      2026-02-26 18:36:33
      突發!香港發生山火,深圳可見!

      突發!香港發生山火,深圳可見!

      港你知
      2026-02-26 19:59:41
      BBA集體 “大跳水”!奧迪跌破10萬,寶馬降27萬...網友:感謝新能源!

      BBA集體 “大跳水”!奧迪跌破10萬,寶馬降27萬...網友:感謝新能源!

      極果酷玩
      2026-02-26 16:49:51
      不容易!全員殺紅眼逆轉日本!5人滿分大秋封神,繼偉證明自己

      不容易!全員殺紅眼逆轉日本!5人滿分大秋封神,繼偉證明自己

      后仰大風車
      2026-02-26 20:27:20
      央視報道:我國干細胞治療迎來臨床轉折,8類難治病或將率先受益

      央視報道:我國干細胞治療迎來臨床轉折,8類難治病或將率先受益

      細胞
      2026-02-25 19:00:04
      概率六千萬分之一!新疆24歲產婦在武漢誕下“一兄四妹”五胞胎

      概率六千萬分之一!新疆24歲產婦在武漢誕下“一兄四妹”五胞胎

      互聯網大觀
      2026-02-26 19:28:11
      伊朗外交部發言人:本輪伊美談判非常深入

      伊朗外交部發言人:本輪伊美談判非常深入

      界面新聞
      2026-02-26 21:59:28
      河南項城15歲女孩離家失聯16天被找到,已不幸遇難,其母親稱孩子平時成績優秀,性格開朗

      河南項城15歲女孩離家失聯16天被找到,已不幸遇難,其母親稱孩子平時成績優秀,性格開朗

      極目新聞
      2026-02-26 18:32:28
      最新:烏克蘭收復庫皮揚斯克99%!摧毀俄軍S400系統

      最新:烏克蘭收復庫皮揚斯克99%!摧毀俄軍S400系統

      項鵬飛
      2026-02-26 17:32:02
      兩會前夕,9名解放軍將領全國人大代表資格被罷免(附完整名單)

      兩會前夕,9名解放軍將領全國人大代表資格被罷免(附完整名單)

      翻譯大傻
      2026-02-26 22:35:34
      WTT大滿貫!八強出爐,日乒兩人止步,張本美和強勢,王曼昱壓力大增

      WTT大滿貫!八強出爐,日乒兩人止步,張本美和強勢,王曼昱壓力大增

      籃球看比賽
      2026-02-26 16:34:46
      WTT新加坡大滿貫:男單8強已出其5!王楚欽大逆轉,單局1-7翻盤

      WTT新加坡大滿貫:男單8強已出其5!王楚欽大逆轉,單局1-7翻盤

      全言作品
      2026-02-26 21:52:48
      中國音樂家李梳曈在紐約路邊換胎時被撞身亡,年僅35歲,留下妻子和僅1歲的孩子

      中國音樂家李梳曈在紐約路邊換胎時被撞身亡,年僅35歲,留下妻子和僅1歲的孩子

      大象新聞
      2026-02-26 13:45:03
      贏日本7分!楊鳴大贊中國男籃1人:三分很關鍵,起到了奇兵作用

      贏日本7分!楊鳴大贊中國男籃1人:三分很關鍵,起到了奇兵作用

      體育哲人
      2026-02-26 20:44:43
      洛克希德·馬丁的生產線突然停了,中國凍結了他們在華的全部資產

      洛克希德·馬丁的生產線突然停了,中國凍結了他們在華的全部資產

      百態人間
      2026-02-25 15:33:21
      太慘了!阿里跌20%,騰訊跌24%,小米跌40%,美團跌62%,內資被套

      太慘了!阿里跌20%,騰訊跌24%,小米跌40%,美團跌62%,內資被套

      新浪財經
      2026-02-26 16:33:55
      2026-02-27 03:15:00
      數字生命卡茲克 incentive-icons
      數字生命卡茲克
      反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
      464文章數 551關注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      美國政府對外交官下令:開始行動

      頭條要聞

      美國政府對外交官下令:開始行動

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      向華強公開表態 財產留給兒媳婦郭碧婷

      財經要聞

      中國AI調用量超美國 4款大模型霸榜前5

      汽車要聞

      40歲的吉利,不惑于內外

      態度原創

      本地
      手機
      健康
      房產
      軍事航空

      本地新聞

      津南好·四時總相宜

      手機要聞

      三星Galaxy S26系列正式發布:影像全面升級,搭載防窺屏幕

      轉頭就暈的耳石癥,能開車上班嗎?

      房產要聞

      2.2萬/m2起!三亞主城性價比標桿 海墾·桃花源實景現房春節被瘋搶

      軍事要聞

      美政府給新伊核協議設限內容遭披露

      無障礙瀏覽 進入關懷版