DeepSeek-OCR 上線，解決 AI 長上下文問題的新思路：把對話歷史「截圖」壓縮

「美國創新，中國優化」。兩大國發展 AI 的進程再次呈現了兩種截然不同的科技發展方式。

DeepSeek 昨天發表了 DeepSeek-OCR，我認為這個東西開啟了一個接下來繼續優化 AI 相當重要的方向。

AI 的擴展定律其實已經撞牆了，尤其在 GPT-5 發表之後，大家發現相較於 GPT-3 到 GPT-4 的魔法般的跳升，GPT-5 並沒有重現當時的驚奇，就更是認清了擴展定律邊際效益已經大幅遞減這個事實，所以最近 AI 的大模型競賽都是在進行更多細部的優化。至於 Gemini 3 會不會再帶來什麼驚奇，就等 Google 開獎了。

各位跟 AI 聊天時，一定都會發現一個現象：對話越長，AI 後面的回應就越來越歪，甚至很快就開始忘記前面的東西。後來實在受不了，乾脆重新開一個新的對話，發現新鮮的對話品質還是好多了。

但這其實不是 bug，而是現在一個待克服的問題：AI 無法處理太長的前後文。簡單來說，就像有人要你記住一整本書的每個字，每說一句新的話，腦子就要重新處理一遍所有內容，很快你就會「當機」。AI 也是這樣，處理很長的上下文時，計算量會像雪球一樣越滾越大，最後記憶體就爆了。

所以，處理很長的上下文不是做不到，而是以現在的運算方式，各位會得到一個回應非常緩慢的 AI，慢到大家會根本不想用，實用性因此大大降低。

而 DeepSeek 提出了一個很特別的想法：把舊的對話「拍成照片」存起來。

直接看實驗的結果

一開始聽到這個想法，確實讓人懷疑。把文字轉成圖片，然後再讓 AI「看圖說話」還原內容，這中間不會損失很多資訊嗎？而且，圖片不是比文字更佔空間嗎？

但是 DeepSeek 團隊做出來的結果有點出人意料。他們發現，如果一頁文件有 1,000 個字，其實只需要 100 個「視覺積木」（技術上叫 vision token）就能以 97% 以上的準確率還原出來。這是什麼意思呢？就相當於把 10 萬字的對話記錄壓縮成 1 萬個「照片碎片」，AI 看著這些碎片就能回想起你們聊了什麼。

更特別的是，即使把壓縮比推到 20 倍，也就是 1,000 個字只用 50 個視覺積木，準確率竟然還能保持在 60% 左右。這個數字可能看起來不高，但想想看，這就像是你試圖回憶一個月前的對話細節，能記得六成已經很不錯了。

不過需要說明的是，這些測試都是在 OCR 場景下進行的，也就是從圖片還原文字。在真實的多輪對話、程式碼討論或複雜推理場景當中，這種壓縮方式能否保持同樣的效果，目前還沒有充分驗證。論文也坦承這只是初步的結果。

技術背後的巧思

要實現這個「拍照存記憶」的功能，團隊設計了一個叫 DeepEncoder 的壓縮引擎。這個設計的思路其實不複雜，就像工廠裡的三道工序。

第一道工序負責看細節，就像品管員拿著放大鏡檢查產品的每個角落。但它很聰明，只看局部區域，不會一次性把整個產品放進腦子裡，所以速度快又不費力。這部分只用了 80M 的參數，非常輕量。

第二道工序是個壓縮高手，它把資訊量一口氣減少到原來的 1/16。聽起來很暴力，但實際上資訊損失很小。就像把 4,096 塊小拼圖巧妙地組合成 256 塊大拼圖，畫面的主要內容都保留了。

第三道工序負責看全局，理解整張圖片的意思。因為前兩道工序已經把資訊壓縮得很小了，這時候處理全局視角就不會「撐爆記憶體」。這部分用了 300M 參數，整個壓縮引擎加起來大約 380M。

這個設計的巧妙之處在於：在需要精細處理的地方用輕量級方法，在需要理解全局的地方，資訊已經被壓縮過了。這樣就避免了傳統方法要嘛看不清楚細節、要嘛看太清楚導致記憶體爆炸的困境。

配合一個 3B 參數的語言模型做解碼器（實際運行時只用到 570M），整個系統在單張 A100 顯卡上就能高效運行。

因此從工程角度看，這個模型的生產力表現確實亮眼。單張 A100 就可以每天處理 20 萬頁，20 個節點可以到 3,300 萬頁。對於需要處理大量文件的場景，比如幫大模型準備訓練數據、企業知識庫的建設等等，這種效率提升很有價值。

而且團隊開源了程式碼和模型權重，降低了使用門檻。不過需要注意的是，模型沒有經過對話微調（SFT），使用時需要熟悉特定的提示詞格式。對於想直接整合到產品中的開發者來說，還需要做一些調整工作。

但即使如此，這已經是很驚人的優化成果。

一個模型，多種用法

DeepSeek-OCR 還有另外一些巧思，例如架構上不是死板的「一刀切」設計。它提供了多種模式，就像相機有不同的拍攝模式一樣。

如果只是簡單的投影片，用 Tiny 模式就夠了：512×512 的解析度，只需要 64 個視覺 token。但如果是複雜的報紙版面，可以切換到 Gundam 模式：用多個局部視圖加一個全局視圖，總共用 800 個左右的 token 也能搞定。

這種靈活性很重要。像是你在整理文件的時候，有些是簡單的便條，有些是密密麻麻的學術論文。傳統方法會用同樣的「高配置」處理所有內容，浪費資源。但 DeepSeek-OCR 會根據內容複雜度自動調整壓縮的力道，該省的時候省，該用力的時候用力。

而實驗結果其實揭露了一個規律：壓縮的極限取決於內容的複雜度。簡單內容可以大膽壓縮，複雜內容需要給它更多空間。這不正是人類記憶的運作方式嗎？

最有意思的想法：AI 也該學會「忘記」

而這正是論文當中最有啟發的概念：「讓 AI 像人類一樣遺忘。」

先想想你自己的大腦怎麼運作吧。剛剛說過的話，你肯定能一字不差地重複一次；一小時前的對話，你記得大概的內容；昨天的事情，可能只記得關鍵片段；上週的討論，已經變得模模糊糊；上個月的對話，很多細節已經完全忘了。

DeepSeek 提議用同樣的方式處理 AI 的記憶：剛發生的對話保持原始文件，一字不改。一小時前的內容轉成高清「照片」，用 800 個 token 儲存起來。今天早上的對話降到標清，256 個 token。昨天的變成低清，100 個 token。上週的更模糊，64 個 token。再久以前的，要麼極度壓縮，要麼乾脆丟掉。

這種設計很像人腦的運作方式。而且它帶來了一個可能性：AI 可以處理理論上無限長的對話，因為舊的記憶會自動「褪色」，為新的記憶騰出空間。

當然，這種機制在實際應用時會遇到一些問題。比如，如何判斷哪些資訊「重要」應該保留高解析度？如果用戶在第 50 輪對話時突然提到第 5 輪的某個細節，而那部分已經被壓縮得很模糊了怎麼辦？也許需要某種「記憶重要性評分」機制，或者允許用戶手動註記關鍵資訊。

騰出空間之後，表示上下文的處理長度也可以大幅增加了。

中國 AI 的成本優化優勢

因此，從這個研究我們可以看到中國 AI 公司的一個明顯特點：極致的成本優化能力。

DeepSeek 之前的 V3 模型用 2.788M H800 GPU 小時（訓練成本約 557 萬美元）就達到了接近 GPT-4 的效果，震驚了整個產業。這次的 OCR 模型同樣體現了這種思路，想辦法用最少的 token 達到最好的效果。

相較於美國 AI 公司傾向於「堆資源堆出效果」的策略，中國團隊更擅長在資源受限的情況下做深度優化。這可能與兩個因素有關：一是算力獲取受限（GPU 禁運）逼出來的創新，二是工程文化上更注重效率和成本控制。OpenAI 可以燒錢訓練模型，DeepSeek 則必須想辦法用更少的資源做出來。

這種差異正在重塑全球 AI 競爭格局。當美國公司還在拼誰的模型更大、訓練成本更高時，中國公司已經在探索如何用 1/10 的成本達到 90% 的效果。長期來看，這種工程優化能力可能比單純的資源投入更有競爭力。尤其是對於需要大規模部署的商業應用來說，成本控制往往比極致性能更重要。

DeepSeek-R2 的可能性

如果 DeepSeek 將這類創新技術整合進下一代推理模型 R2，很有可能會帶來一些實質性改變。

R1 已經證明了中國團隊在推理模型上能做到跟美國接近的水準，但它的長上下文處理仍然受限於傳統架構。假如 R2 整合了視覺壓縮、MoE 優化、以及其他尚未公開的技術，在保持推理能力的同時大幅降低長上下文的計算成本，那就不只是性能提升，而是使用場景的擴展。

如果一個 AI 能記住幾十輪對話、處理超長前後文、同時推理成本控制在可接受範圍內的模型。這對需要長期互動的應用場景，比如教育、醫療諮詢、法律分析等等，會有本質上的改變。而且如果成本夠低，可能會讓這些能力從「大公司專屬」變成「中小開發者也用得起」。

從 DeepSeek 過往的技術路線來看，他們確實在往「更高效、更實用」的方向走，而不是單純追求 benchmark 數字。V3 如此，OCR 如此，R2 很可能也會延續這個思路。當然這只是基於現有資訊的推測，實際效果如何還要等發表後才知道。但至少這個方向是清楚的，也是有技術基礎支撐的。

還需要回答的問題

不過，這個研究開啟了一個方向，但也留下了不少問題待解答。

首先是泛化性。OCR 任務相對簡單：輸入是圖片，輸出是文件，中間沒有複雜的邏輯推理。但在真實對話場景中，AI 需要理解上下文、進行推理、保持對話連貫性。視覺壓縮在這些場景下的表現如何，還需要更多驗證。

其次是壓縮比的邊界。論文顯示 10 倍壓縮時效果最好，超過後準確率快速下降。這是否意味著 10 倍是個硬性瓶頸？還是說可以通過改進編碼器架構突破這個限制？或者不同類型的內容有不同的最優壓縮比？

程式碼討論、數學推導這些需要精確性的場景，可能不適合高壓縮比。而閒聊、一般性討論則可以接受更多的資訊損失。未來可能需要根據對話類型動態調整壓縮策略。

還有一個實際問題是延遲。把文件轉成圖片、編碼、壓縮、解碼，這整個流程的時間開銷如何？在需要實時響應的場景中，這個開銷能否接受？論文沒有詳細討論這方面的數據。

壓縮的理論極限在哪裡？

看完實驗結果後，一個自然的疑問是：為什麼 10 倍壓縮是個甜蜜點？這背後有沒有理論依據？

在資訊理論中，有個概念叫「Shannon Limit」，是資訊理論的開創祖師爺 Claude Shannon 在 1948 年提出的。簡單說，它告訴我們：任何資訊都有個理論上的最小表達方式，再壓也壓不下去了，除非你願意接受資訊損失。

舉個例子，如果一本書裡每個字都是隨機的、完全不可預測，那這本書基本上沒辦法壓縮。但如果這本書是中文或英文寫的，裡面有很多規律和重複的模式，就能壓縮得很厲害。你可以用「的」這個字出現的頻率，來設計更短的編碼方式。

壓縮分兩種：無損壓縮和有損壓縮。

無損壓縮就像把一堆衣服整整齊齊疊好放進行李箱，佔的空間變小了，但拿出來的時候每件衣服都還是原樣。ZIP 文件就是這種壓縮，解壓後和原檔案一模一樣。但無損壓縮有個極限，不可能無限壓下去。

有損壓縮就像把照片從高畫質降到低畫質，檔案變小了，但細節也丟了一些。JPEG 圖片就是這樣，你仔細看會發現有些地方模糊了，但大部分時候你根本不在意。有損壓縮可以壓得更厲害，但代價是資訊損失。

DeepSeek-OCR 做的是有損壓縮。 當它把 1,000 個文件 token 壓成 100 個視覺 token 時，必然會丟掉一些資訊。問題是，丟掉的是哪些資訊？

從實驗結果看，10 倍壓縮時丟掉的主要是「冗餘資訊」：那些對理解內容不重要的細節。比如，文字的確切字體、行間距、頁邊距這些排版細節，對於理解文字內容並不關鍵。就像你看一篇文章，不管它是用宋體還是黑體，你都能讀懂內容。

但當壓縮比推到 20 倍時，開始丟掉的就不只是冗餘資訊了，可能連一些關鍵內容也開始模糊。想像你把一張照片壓得太小，文字開始變得難以辨認，這時候準確率就掉到 60% 了。

有個有趣的觀察：不同類型的內容有不同的「可壓縮性」。

簡單的投影片，一頁可能只有幾行大字加幾個要點，資訊密度很低，冗餘度很高，所以 64 個 token 就夠了。但一頁密密麻麻的報紙，資訊密度極高，幾乎每個字都有用，要壓縮就得付出更大的精度代價，所以需要 800 個 token。

這就像壓縮一張純藍色的圖片和壓縮一張充滿細節的風景照。前者可以用「藍色填滿整個畫面」這幾個字描述，後者你得記錄每個區域的顏色、紋理、光影。

從這個角度看，DeepSeek-OCR 找到的 10 倍壓縮甜蜜點，其實是在「保留足夠資訊」和「節省足夠資源」之間的一個經驗性平衡點。 它不是理論極限，而是實用性的選擇。對於大多數文件來說，10 倍壓縮能保留 97% 的可恢復性，這個數字足夠高，可以實際應用。

但這也意味著，對於資訊密度特別高的內容，比如數學公式、程式碼、法律條文，10 倍可能還不夠，需要更保守的壓縮比。對於資訊密度低的內容，比如對話閒聊，可能可以壓得更用力一點。

未來如果要把這個技術用在長對話記憶上，可能需要設計一個「內容複雜度評估器」，根據每段對話的資訊密度動態決定壓縮比。簡單的問候和閒聊可以壓到 20 倍，重要的技術討論保持 5 倍，關鍵的程式碼片段乾脆不壓縮。

這種動態壓縮策略，或許才是將來真正實用的方案。就像人類記憶一樣，我們會自動評估哪些資訊重要，哪些不重要，然後用不同的「解析度」來存儲它們。

重新思考「記憶」的意義

人類的記憶從來都不是像傳統的電腦那樣運作，把所有東西記下來。我們記住的是印象、是關鍵資訊、是情感連結，而不是一字不差的逐字稿。我們會遺忘細節，但保留重要的東西。我們會把記憶重新編碼，用更高效的方式儲存。

DeepSeek-OCR 提供了一個可行思路：在處理長上下文時，不一定要堅持純文字的方式，用視覺表達可能是個更高效的選擇。把記憶轉換成視覺表達，就像人類把經歷轉化成腦海中的畫面。這不僅效能更好，似乎也更接近生物智慧的運作方式。

不過，這個想法是否能在更廣泛的場景中站住腳，還需要時間驗證。但至少它證明了一件事：在資源受限的情況下，通過深入思考問題本質、巧妙設計架構、精細優化每個環節，仍然能做出有競爭力的系統。這或許正是中國 AI 發展的一個縮影，不是靠堆資源取勝，而是靠工程優化為主。

下次當你和 AI 聊到它「忘記」之前的對話時，也許未來的 AI 會這樣回答：「我沒忘，我只是把我們之間的對話拍成照片，收在記憶深處了。你需要的話，我隨時可以翻出來看看。」

那個時候，AI 和人類的對話，或許會變得更加自然而持久。

相關

文章搜尋

文章分類

近期文章