<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      揭秘CLIPTER:當AI懂得看全局圖像,文本識別能力為何大幅提升?

      0
      分享至

      在人類閱讀文字的過程中,我們不僅關注字符本身,更會下意識地利用周圍環境信息來輔助理解。當字跡模糊或被部分遮擋時,這種能力尤為重要。然而,傳統的AI文本識別系統卻像戴著"眼罩",只能看到裁剪后的文字區域,完全忽視了周圍的場景信息。CLIPTER模型打破了這一限制,它通過巧妙融合視覺語言模型的全局理解能力,讓AI首次能夠"看懂"整個圖像場景,從而在識別模糊文本、理解環境相關文字時展現出驚人的提升。當AI開始像人類一樣思考"這個標志出現在加油站"或"這個文字可能是菜單上的價格"時,文本識別技術迎來了一次意義非凡的飛躍。


      裸眼的識別

      想象一下這樣的場景:你走在路上,遠遠看到一塊招牌,上面的字模模糊糊,但你知道這是一家咖啡店,所以很自然地就能猜到招牌上寫的應該是"咖啡"或相關的詞語。這種利用環境線索輔助理解文字的能力,對人類來說非常自然,但對當前的人工智能系統來說卻是個大難題。

      當前主流的文本識別技術采用"裁剪后識別"的策略。這種方法先在圖像中定位文字位置,然后將文字區域裁剪出來,再送入識別模型。乍看很合理,但實際上這種做法相當于給AI戴上了"眼罩",讓它只能看到孤立的文字,而看不到周圍的場景。

      比如TRBA、ABINet和PARSeq等目前領先的文本識別系統,都是在裁剪后的文本圖像上運行。這些模型在干凈清晰的文本上表現出色,但在處理現實場景中常見的模糊、低分辨率、被部分遮擋或光線不佳的文字時,準確率就大打折扣。

      以圖1中的幾個例子為例,一些招牌上的"exit"、"beer"和"departures"等詞,如果單獨看文字部分,字體扭曲或模糊不清,傳統識別系統往往會錯誤識別為"part"、"beef"或"defartures"。但對人類來說,僅需看一眼整個場景,就能正確理解這些詞的含義,因為我們能從上下文得到提示。


      這種局限性在處理詞匯表外(OOV)詞時尤為明顯。所謂詞匯表外詞,指的是訓練數據中未出現過的詞匯,如特定的品牌名稱、街道名稱或獨特的標識。研究表明,當面對這類詞匯時,傳統識別系統往往會"硬湊"一個訓練中見過的相似詞,而不是忠實地識別實際文字。

      2023年的一項研究顯示,面對OOV詞時,主流文本識別系統的錯誤率會比常見詞高出10%至15%。這一差距在街景圖像中尤為顯著,因為街景中包含大量特定地點的名稱、商店標志等非通用詞匯。

      更棘手的是,在真實應用場景中,我們經常需要識別文本質量很差的圖像。無論是監控攝像頭拍攝的模糊畫面,還是從遠處拍攝的街景照片,或是光線不佳環境下的文檔,傳統的"盲眼"識別方式都難以應對這些挑戰。

      全局視覺思維

      CLIPTER模型的出現為這一問題提供了創新解決方案。CLIPTER的名稱源于"CLIP TExt Recognition",其核心理念是利用視覺語言模型(如CLIP)提取整個圖像的語義信息,來輔助文本識別過程。

      CLIP(Contrastive Language-Image Pre-training)是OpenAI于2021年發布的多模態模型,它通過大規模圖像-文本對訓練,習得了豐富的視覺-語言關聯知識。CLIPTER巧妙地利用了CLIP對整體場景的理解能力,為文本識別提供額外的上下文信息。

      CLIPTER框架包含四個核心組件:圖像編碼器、特征池化層、集成點選擇和融合機制。這些組件共同工作,將全局場景信息與局部文本特征有機融合。

      圖像編碼器的作用是提取整個圖像的語義表示。CLIPTER探索了多種編碼器,包括純視覺模型(如ViT、MAE和DiNO)和視覺語言模型(如CLIP、BLIP和GiT)。實驗結果表明,視覺語言模型表現更優,這是因為它們在預訓練過程中不僅學習了圖像內容,還學習了與之相關的文本描述,使得提取的特征更加豐富且與文本識別任務相關。


      特征池化組件用于減少圖像特征的數量,平衡計算開銷和表示能力。CLIPTER采用了一種靈活的池化策略,保留代表整個圖像的特殊標記([class]),并對其他特征進行二維平均池化。實驗表明,即使只使用CLIP的單一全局表示(相當于無限大池化核),也能顯著提升識別性能。

      集成點選擇決定了在識別模型的哪個階段融入全局信息。CLIPTER設計了兩類集成策略:早期融合和晚期融合。早期融合在視覺編碼階段注入全局信息,將場景表示視為額外的視覺內容;晚期融合則在解碼階段提供上下文信息,條件化預測過程。不同的識別架構適合不同的集成點,例如PARSeq和TRBA對集成點不太敏感,而ABINet則從晚期融合中獲益更多。

      融合機制是CLIPTER的核心創新點,它負責將全局場景信息與局部文本特征有機結合。CLIPTER設計了兩種融合方案:多頭交叉注意力(MH-CA)和門控注意力。前者是標準的注意力機制,后者則是一種輕量級替代方案,適用于單一全局表示的情況。

      更重要的是,CLIPTER引入了一種基于tanh函數的門控機制,實現了從預訓練模型到場景感知模型的平穩過渡。這一機制在訓練初期保持原始文本特征不變,隨著訓練進行,逐漸增加融合特征的權重。這種設計確保了模型可以在保留原有能力的基礎上,逐步學習利用場景信息。

      CLIPTER框架的靈活性使其可以與各種現有文本識別架構集成。例如,對于TRBA這樣的結構,CLIPTER可以選擇在視覺特征提取后、上下文建模前或解碼階段進行融合;對于PARSeq,可以在ViT模型后或解碼器內部進行融合。這種靈活性使CLIPTER成為一個通用的增強工具,可以應用于現有和未來的文本識別系統。

      實際應用中,CLIPTER的輕量級版本(使用CLIPbase編碼器和門控注意力機制)僅增加了約8%的端到端延遲(每圖像約12毫秒),同時顯著提升了識別性能。這一性能提升在處理模糊文本時尤為明顯,例如原本識別為"mariboro"的文字,在利用場景信息后,正確識別為"marlboro"品牌名。

      總的來說,CLIPTER通過引入全局場景信息,成功克服了傳統文本識別方法的"盲眼"限制。它讓AI系統能夠像人類一樣,在文字難以直接辨認時,借助周圍環境線索進行推斷,從而在各種復雜場景下實現更準確的文本識別。

      實測數據說話

      CLIPTER模型不只是紙上談兵,它通過一系列嚴格的實驗測試證明了自己的實力。研究團隊在12個公共基準測試集上對CLIPTER進行了全面評估,這些測試集涵蓋了各種復雜場景,從清晰整潔的文檔到模糊不清的街景照片,從簡單的標識到復雜的商業標牌。


      結果令人振奮:CLIPTER在所有測試中都展現出顯著的性能提升。具體來看,當將CLIPTER集成到TRBA模型中時,識別準確率平均提高了0.9%;集成到ViTSTR-S中時提高了1.4%;集成到ABINet-VIS中時提高了1.7%;集成到ABINet中時提高了0.4%。最引人注目的是,當CLIPTER與當前最先進的PARSeq模型結合時,在所有數據集上的加權平均準確率提高了0.8%,創造了新的行業記錄。

      這些數字可能看起來不大,但在文本識別領域,0.8%的提升已經非常顯著。考慮到PARSeq模型已經經過精心優化,能在此基礎上再提升0.8%,相當于減少了5.5%的相對錯誤率,這在實際應用中意味著每處理1000個文本,就能多正確識別8個。

      深入分析不同類型的數據集,CLIPTER在街景圖像上表現尤為出色。以Uber數據集為例,這個數據集主要包含街道名稱和商業標識,其中許多文本實例模糊、被遮擋或分辨率低。在這樣具有挑戰性的場景中,CLIPTER將PARSeq的錯誤率降低了近10%。這正說明了場景上下文在理解低質量文本時的關鍵作用。

      除了常規測試,研究團隊還專門評估了CLIPTER在詞匯表外(OOV)詞匯上的表現。OOV詞匯測試使用了一個專門設計的基準,包含25,647個在訓練數據中未出現過的詞。測試結果表明,當將CLIPTER集成到PARSeq中時,OOV詞的識別準確率提高了2.48%,遠高于在常見詞上1.25%的提升。這一結果證實了場景信息對理解獨特或罕見詞匯的重要價值。

      更讓人驚喜的是CLIPTER在低數據環境下的表現。傳統深度學習模型通常需要大量標注數據才能取得良好效果,但在現實應用中,獲取大規模標注數據往往成本高昂。CLIPTER通過利用預訓練視覺語言模型的泛化能力,在訓練數據有限的情況下依然表現出色。實驗顯示,使用僅10%訓練數據的CLIPTER能達到使用25%數據的基線模型相同的表現;使用40%數據的CLIPTER則能匹敵使用全部數據的基線模型。這一特性使CLIPTER特別適合資源受限的場景。

      值得一提的是,CLIPTER的實現非常高效。在端到端評估中,研究人員將GLASS文本檢測器與PARSeq識別器串聯,形成完整的文本識別流程。結果表明,即使考慮所有計算環節,添加CLIPTER僅增加了8%的總體延遲(每圖像約12毫秒),同時性能優于現有的端到端文本識別方法。這種高效的計算特性使CLIPTER在實際應用中具有很高的實用價值。

      研究團隊還進行了詳盡的消融研究,分析了CLIPTER各組件的貢獻。結果表明,使用視覺語言模型(如CLIP、BLIP)作為圖像編碼器比純視覺模型(如DiNO、MAE)效果更好;適當的特征池化可以在保持性能的同時顯著減少計算開銷;不同的識別架構需要不同的集成點;而門控融合機制則在計算效率和性能提升之間取得了很好的平衡。這些發現為將來集成CLIPTER到其他文本識別架構提供了寶貴指南。

      應用與前景


      CLIPTER技術的出現為多個領域帶來了新的可能。在街景導航中,準確識別路牌和商店標識對自動駕駛和位置服務至關重要。傳統方法在處理遠距離、部分遮擋或光線不佳條件下的標識時常常失敗,而CLIPTER通過理解整個場景,能大幅提高這類情況下的識別準確率。

      電子商務是另一個受益領域。在線購物平臺需要從產品圖片中提取文字信息,如品牌名稱、型號和規格等。這些文字常常以各種藝術字體出現,或混合在復雜背景中,給識別帶來挑戰。CLIPTER利用產品整體外觀和場景信息,可以更準確地識別這些關鍵文本,從而提升產品分類和搜索的準確性。

      文檔數字化也可從CLIPTER獲益。在掃描古籍、歷史文件或質量不佳的打印材料時,文字可能因褪色、破損或污漬而難以辨認。CLIPTER通過分析文檔的整體結構和內容,可以更好地推斷這些有問題區域的文字,提高OCR(光學字符識別)的整體質量。

      安防監控系統也能借助CLIPTER提升性能。監控攝像頭拍攝的圖像往往分辨率低、噪點多、角度偏,導致文字識別困難重重。CLIPTER通過考慮場景上下文,能更準確地識別車牌號碼、身份證信息或其他關鍵文字,為安防系統提供更可靠的數據支持。

      對移動應用開發者而言,CLIPTER技術開啟了新的可能性。拍照翻譯應用可以更準確地處理菜單、路標或說明書上的文字;增強現實應用可以更精確地識別和替換現實環境中的文本;而輔助視覺應用則可以更好地幫助視力障礙者理解周圍的文字信息。

      從技術演進的角度看,CLIPTER代表了一種新的思路:將大規模預訓練模型的知識遷移到特定任務中。它不需要從頭訓練一個理解場景和文本的復雜模型,而是巧妙地結合了現有的視覺語言模型和文本識別模型,各取所長。這種模塊化設計使CLIPTER能夠隨著基礎模型的進步而不斷提升,比如當更強大的視覺語言模型出現時,可以直接替換CLIPTER中的圖像編碼器部分。

      CLIPTER的另一個重要意義在于它縮小了端到端方法和級聯方法之間的差距。傳統上,文本識別有兩種主要范式:端到端模型在一步中同時檢測和識別文本,而級聯方法則先檢測文本位置再識別內容。端到端方法理論上能利用全局信息,但通常計算復雜且難以訓練;級聯方法模塊化程度高,易于實現和優化,但缺乏全局視角。CLIPTER為級聯方法注入了全局視角,同時保持了其模塊化優勢,實現了兩全其美。

      在實際部署中,CLIPTER的輕量級版本(使用單一CLIP表示和門控注意力)特別實用。它僅增加約10%的計算開銷,卻能顯著提升識別性能。對于資源受限的設備,如手機或嵌入式系統,這種高效的性能提升尤為寶貴。測試顯示,在主流手機上,CLIPTER的輕量級版本僅增加約20毫秒的處理時間,幾乎不影響用戶體驗,卻能明顯改善識別結果。

      展望未來,CLIPTER還有廣闊的發展空間。一方面,隨著更強大的視覺語言模型出現,CLIPTER可以直接受益;另一方面,研究人員可以探索更多融合場景信息的方式,比如引入多尺度特征融合或動態集成點選擇。此外,CLIPTER的思路也可能啟發其他計算機視覺任務,如物體檢測、分割或圖像字幕生成等,通過整合全局和局部信息來提升性能。


      總的來說,CLIPTER不僅是文本識別技術的一次重要進步,更代表了一種新的思考方式:在解決具體視覺問題時,不應局限于局部信息,而應考慮更廣泛的上下文。這種思路與人類視覺系統的工作方式更為接近,也許是通向更強大、更通用人工智能系統的重要一步。

      參考資料:

      1. Aberdam, A. et al. (2023). CLIPTER: Looking at the Bigger Picture in Scene Text Recognition. ICCV.

      2. Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. ICML.

      3. Fang, J. et al. (2022). PARSeq: A State-of-the-Art Scene Text Recognition Framework. ECCV.

      4. Li, X. et al. (2021). ABINet: Autonomous Bidirectional Interaction Network for Scene Text Recognition. CVPR.

      5. Baek, J. et al. (2019). What is Wrong with Scene Text Recognition Models? ICCV.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      2028年奧運會男足名額分配:亞足聯2.5個名額,歐足聯4個名額

      2028年奧運會男足名額分配:亞足聯2.5個名額,歐足聯4個名額

      懂球帝
      2025-12-17 22:03:05
      特斯拉發文:一味堆電池只會增加車重,一些車100度電池續航也沒超過Model 3

      特斯拉發文:一味堆電池只會增加車重,一些車100度電池續航也沒超過Model 3

      金融界
      2025-12-16 16:52:45
      24歲美女被騙到緬北,經歷兩個月“雙開門”折磨,被救已不成人形

      24歲美女被騙到緬北,經歷兩個月“雙開門”折磨,被救已不成人形

      阿妹講故事
      2025-03-12 22:39:50
      有趣!常規賽2場打1分鐘,被俱樂部棄用,請問郭導你憑啥征召他的

      有趣!常規賽2場打1分鐘,被俱樂部棄用,請問郭導你憑啥征召他的

      南海浪花
      2025-12-17 11:16:18
      LG新能源:福特取消近65億美元電池采購合同

      LG新能源:福特取消近65億美元電池采購合同

      界面新聞
      2025-12-17 17:47:04
      成都女富豪平安著陸:被查8個月毫發無損,賬上還多出了十幾億

      成都女富豪平安著陸:被查8個月毫發無損,賬上還多出了十幾億

      壹只灰鴿子
      2025-12-17 14:42:51
      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      杭城村叔
      2025-12-17 21:01:23
      有情有義!保利尼奧拒絕巴西國家隊邀約:正考慮重回中超!

      有情有義!保利尼奧拒絕巴西國家隊邀約:正考慮重回中超!

      邱澤云
      2025-12-16 23:17:24
      中國足協無視潛規則!硬剛國際足聯,拒絕為世界杯讓路

      中國足協無視潛規則!硬剛國際足聯,拒絕為世界杯讓路

      綠茵舞著
      2025-12-17 23:17:32
      成都雙流機場高速即將停止收費!公告顯示收費日期截止至2025年12月26日

      成都雙流機場高速即將停止收費!公告顯示收費日期截止至2025年12月26日

      掌上金牛
      2025-12-17 18:19:03
      演員李現潛水近距離遇鯊魚,直呼:哇,好刺激呀!

      演員李現潛水近距離遇鯊魚,直呼:哇,好刺激呀!

      現代快報
      2025-12-17 18:28:13
      “骯臟的中國人”罵聲中20歲小伙被打進醫院,西西里發生仇恨襲擊

      “骯臟的中國人”罵聲中20歲小伙被打進醫院,西西里發生仇恨襲擊

      意大利華人網0039
      2025-12-17 00:12:41
      繼新加坡之后,馬來西亞華人發聲!

      繼新加坡之后,馬來西亞華人發聲!

      達文西看世界
      2025-12-17 10:42:35
      李小璐寫真生圖高清

      李小璐寫真生圖高清

      翩翩明星
      2025-11-14 09:39:36
      男子3元彩票中1750萬元!店主:朋友跟著他換了一個號碼,也中35萬元

      男子3元彩票中1750萬元!店主:朋友跟著他換了一個號碼,也中35萬元

      觀威海
      2025-12-17 19:54:40
      演員張澍:許亞軍為她放棄買第二套房子,何晴兒子對她稱呼太有愛

      演員張澍:許亞軍為她放棄買第二套房子,何晴兒子對她稱呼太有愛

      古希臘掌管月桂的神
      2025-12-17 19:24:57
      歡樂!翟曉川詢問楊鳴:能不能派李曉旭上潛力賽,讓我倆打一打?

      歡樂!翟曉川詢問楊鳴:能不能派李曉旭上潛力賽,讓我倆打一打?

      懂球帝
      2025-12-17 13:23:41
      又一大三甲原書記被查!曾任衛健委副主任

      又一大三甲原書記被查!曾任衛健委副主任

      醫療器械經銷商聯盟
      2025-12-17 13:27:41
      打臉電視劇,這才是太平天國真正的王爺,臉上刀疤讓特效黯然失色

      打臉電視劇,這才是太平天國真正的王爺,臉上刀疤讓特效黯然失色

      情感大頭說說
      2025-12-16 15:41:48
      “歐洲股神”點破中國股市的本質:無論你信不信,這就是中國股市

      “歐洲股神”點破中國股市的本質:無論你信不信,這就是中國股市

      一方聊市
      2025-12-12 14:21:00
      2025-12-18 00:47:00
      清風鑒史 incentive-icons
      清風鑒史
      作有深度的歷史解讀
      2696文章數 36643關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      教育
      數碼
      家居
      房產
      公開課

      教育要聞

      高三一輪復習,別太聰明,踏實一點

      數碼要聞

      RGB-Mini LED迎來“跨年夜”,“光色同控”從電視走向桌面

      家居要聞

      溫馨獨棟 駝色與淺色碰撞

      房產要聞

      封關前夕!豪庭銘苑超前交付,敬呈海口生活新范本

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 女人AV天堂| 国产精品毛片一区二区三区| 无码少妇a片一区二区三区| 国产精品高清一区二区三区| 啪啪福利导航| 99热这里只有精品2| 亚洲日韩乱码一区二区三区四区| 亚洲欧美综合精品成人导航| 国产精品久久精品| 亚洲熟女視頻| 亚洲精品系列| 久久久久无码国产精品不卡| 2021国产在线视频| 亚色网站| 亚洲经典无码| 久久er99热精品一区二区| 久久99精品久久久久麻豆| 男人天堂手机在线| 人妻精品无码不卡中文字幕| 少妇人妻无码专区视频| 人妻二区| 亚洲精品国产成人无码区在线| 亚洲AV成人片无码网站| 女厕偷窥一区二区三区| 亚洲中文字幕日产无码成人片| 成人AV一区二区三区| 桐庐县| 丰满人妻熟妇乱又伦精品软件| 国产成人无码一区二区在线播放| 免费看视频的网站| 国产乱妇无码毛片A片在线看下载| 亚洲3p| 国产97色在线 | 中国| 婷婷六月色| 92自拍视频| 国内av网站| 亚洲欧洲无码av不卡在线| 91青青草视频在线观看| 日本A在线| 黑人大战欲求不满人妻| 精品熟人妻一区二区三区四区不卡|