
「美國創新,中國優化」。兩大國發展 AI 的進程再次呈現了兩種截然不同的科技發展方式。
DeepSeek 昨天發表了 DeepSeek-OCR,我認為這個東西開啟了一個接下來繼續優化 AI 相當重要的方向。
AI 的擴展定律其實已經撞牆了,尤其在 GPT-5 發表之後,大家發現相較於 GPT-3 到 GPT-4 的魔法般的跳升,GPT-5 並沒有重現當時的驚奇,就更是認清了擴展定律邊際效益已經大幅遞減這個事實,所以最近 AI 的大模型競賽都是在進行更多細部的優化。至於 Gemini 3 會不會再帶來什麼驚奇,就等 Google 開獎了。
各位跟 AI 聊天時,一定都會發現一個現象:對話越長,AI 後面的回應就越來越歪,甚至很快就開始忘記前面的東西。後來實在受不了,乾脆重新開一個新的對話,發現新鮮的對話品質還是好多了。
但這其實不是 bug,而是現在一個待克服的問題:AI 無法處理太長的前後文。簡單來說,就像有人要你記住一整本書的每個字,每說一句新的話,腦子就要重新處理一遍所有內容,很快你就會「當機」。AI 也是這樣,處理很長的上下文時,計算量會像雪球一樣越滾越大,最後記憶體就爆了。
所以,處理很長的上下文不是做不到,而是以現在的運算方式,各位會得到一個回應非常緩慢的 AI,慢到大家會根本不想用,實用性因此大大降低。
而 DeepSeek 提出了一個很特別的想法:把舊的對話「拍成照片」存起來。
直接看實驗的結果
一開始聽到這個想法,確實讓人懷疑。把文字轉成圖片,然後再讓 AI「看圖說話」還原內容,這中間不會損失很多資訊嗎?而且,圖片不是比文字更佔空間嗎?
但是 DeepSeek 團隊做出來的結果有點出人意料。他們發現,如果一頁文件有 1,000 個字,其實只需要 100 個「視覺積木」(技術上叫 vision token)就能以 97% 以上的準確率還原出來。這是什麼意思呢?就相當於把 10 萬字的對話記錄壓縮成 1 萬個「照片碎片」,AI 看著這些碎片就能回想起你們聊了什麼。
更特別的是,即使把壓縮比推到 20 倍,也就是 1,000 個字只用 50 個視覺積木,準確率竟然還能保持在 60% 左右。這個數字可能看起來不高,但想想看,這就像是你試圖回憶一個月前的對話細節,能記得六成已經很不錯了。
不過需要說明的是,這些測試都是在 OCR 場景下進行的,也就是從圖片還原文字。在真實的多輪對話、程式碼討論或複雜推理場景當中,這種壓縮方式能否保持同樣的效果,目前還沒有充分驗證。論文也坦承這只是初步的結果。
技術背後的巧思
要實現這個「拍照存記憶」的功能,團隊設計了一個叫 DeepEncoder 的壓縮引擎。這個設計的思路其實不複雜,就像工廠裡的三道工序。
第一道工序負責看細節,就像品管員拿著放大鏡檢查產品的每個角落。但它很聰明,只看局部區域,不會一次性把整個產品放進腦子裡,所以速度快又不費力。這部分只用了 80M 的參數,非常輕量。
第二道工序是個壓縮高手,它把資訊量一口氣減少到原來的 1/16。聽起來很暴力,但實際上資訊損失很小。就像把 4,096 塊小拼圖巧妙地組合成 256 塊大拼圖,畫面的主要內容都保留了。
第三道工序負責看全局,理解整張圖片的意思。因為前兩道工序已經把資訊壓縮得很小了,這時候處理全局視角就不會「撐爆記憶體」。這部分用了 300M 參數,整個壓縮引擎加起來大約 380M。
這個設計的巧妙之處在於:在需要精細處理的地方用輕量級方法,在需要理解全局的地方,資訊已經被壓縮過了。這樣就避免了傳統方法要嘛看不清楚細節、要嘛看太清楚導致記憶體爆炸的困境。
配合一個 3B 參數的語言模型做解碼器(實際運行時只用到 570M),整個系統在單張 A100 顯卡上就能高效運行。
因此從工程角度看,這個模型的生產力表現確實亮眼。單張 A100 就可以每天處理 20 萬頁,20 個節點可以到 3,300 萬頁。對於需要處理大量文件的場景,比如幫大模型準備訓練數據、企業知識庫的建設等等,這種效率提升很有價值。
而且團隊開源了程式碼和模型權重,降低了使用門檻。不過需要注意的是,模型沒有經過對話微調(SFT),使用時需要熟悉特定的提示詞格式。對於想直接整合到產品中的開發者來說,還需要做一些調整工作。
但即使如此,這已經是很驚人的優化成果。
一個模型,多種用法
DeepSeek-OCR 還有另外一些巧思,例如架構上不是死板的「一刀切」設計。它提供了多種模式,就像相機有不同的拍攝模式一樣。
如果只是簡單的投影片,用 Tiny 模式就夠了:512×512 的解析度,只需要 64 個視覺 token。但如果是複雜的報紙版面,可以切換到 Gundam 模式:用多個局部視圖加一個全局視圖,總共用 800 個左右的 token 也能搞定。
這種靈活性很重要。像是你在整理文件的時候,有些是簡單的便條,有些是密密麻麻的學術論文。傳統方法會用同樣的「高配置」處理所有內容,浪費資源。但 DeepSeek-OCR 會根據內容複雜度自動調整壓縮的力道,該省的時候省,該用力的時候用力。
而實驗結果其實揭露了一個規律:壓縮的極限取決於內容的複雜度。簡單內容可以大膽壓縮,複雜內容需要給它更多空間。這不正是人類記憶的運作方式嗎?
最有意思的想法:AI 也該學會「忘記」
而這正是論文當中最有啟發的概念:「讓 AI 像人類一樣遺忘。」
先想想你自己的大腦怎麼運作吧。剛剛說過的話,你肯定能一字不差地重複一次;一小時前的對話,你記得大概的內容;昨天的事情,可能只記得關鍵片段;上週的討論,已經變得模模糊糊;上個月的對話,很多細節已經完全忘了。
DeepSeek 提議用同樣的方式處理 AI 的記憶:剛發生的對話保持原始文件,一字不改。一小時前的內容轉成高清「照片」,用 800 個 token 儲存起來。今天早上的對話降到標清,256 個 token。昨天的變成低清,100 個 token。上週的更模糊,64 個 token。再久以前的,要麼極度壓縮,要麼乾脆丟掉。
這種設計很像人腦的運作方式。而且它帶來了一個可能性:AI 可以處理理論上無限長的對話,因為舊的記憶會自動「褪色」,為新的記憶騰出空間。
當然,這種機制在實際應用時會遇到一些問題。比如,如何判斷哪些資訊「重要」應該保留高解析度?如果用戶在第 50 輪對話時突然提到第 5 輪的某個細節,而那部分已經被壓縮得很模糊了怎麼辦?也許需要某種「記憶重要性評分」機制,或者允許用戶手動註記關鍵資訊。
騰出空間之後,表示上下文的處理長度也可以大幅增加了。
中國 AI 的成本優化優勢
因此,從這個研究我們可以看到中國 AI 公司的一個明顯特點:極致的成本優化能力。
DeepSeek 之前的 V3 模型用 2.788M H800 GPU 小時(訓練成本約 557 萬美元)就達到了接近 GPT-4 的效果,震驚了整個產業。這次的 OCR 模型同樣體現了這種思路,想辦法用最少的 token 達到最好的效果。
相較於美國 AI 公司傾向於「堆資源堆出效果」的策略,中國團隊更擅長在資源受限的情況下做深度優化。這可能與兩個因素有關:一是算力獲取受限(GPU 禁運)逼出來的創新,二是工程文化上更注重效率和成本控制。OpenAI 可以燒錢訓練模型,DeepSeek 則必須想辦法用更少的資源做出來。
這種差異正在重塑全球 AI 競爭格局。當美國公司還在拼誰的模型更大、訓練成本更高時,中國公司已經在探索如何用 1/10 的成本達到 90% 的效果。長期來看,這種工程優化能力可能比單純的資源投入更有競爭力。尤其是對於需要大規模部署的商業應用來說,成本控制往往比極致性能更重要。
DeepSeek-R2 的可能性
如果 DeepSeek 將這類創新技術整合進下一代推理模型 R2,很有可能會帶來一些實質性改變。
R1 已經證明了中國團隊在推理模型上能做到跟美國接近的水準,但它的長上下文處理仍然受限於傳統架構。假如 R2 整合了視覺壓縮、MoE 優化、以及其他尚未公開的技術,在保持推理能力的同時大幅降低長上下文的計算成本,那就不只是性能提升,而是使用場景的擴展。
如果一個 AI 能記住幾十輪對話、處理超長前後文、同時推理成本控制在可接受範圍內的模型。這對需要長期互動的應用場景,比如教育、醫療諮詢、法律分析等等,會有本質上的改變。而且如果成本夠低,可能會讓這些能力從「大公司專屬」變成「中小開發者也用得起」。
從 DeepSeek 過往的技術路線來看,他們確實在往「更高效、更實用」的方向走,而不是單純追求 benchmark 數字。V3 如此,OCR 如此,R2 很可能也會延續這個思路。當然這只是基於現有資訊的推測,實際效果如何還要等發表後才知道。但至少這個方向是清楚的,也是有技術基礎支撐的。
還需要回答的問題
不過,這個研究開啟了一個方向,但也留下了不少問題待解答。
首先是泛化性。OCR 任務相對簡單:輸入是圖片,輸出是文件,中間沒有複雜的邏輯推理。但在真實對話場景中,AI 需要理解上下文、進行推理、保持對話連貫性。視覺壓縮在這些場景下的表現如何,還需要更多驗證。
其次是壓縮比的邊界。論文顯示 10 倍壓縮時效果最好,超過後準確率快速下降。這是否意味著 10 倍是個硬性瓶頸?還是說可以通過改進編碼器架構突破這個限制?或者不同類型的內容有不同的最優壓縮比?
程式碼討論、數學推導這些需要精確性的場景,可能不適合高壓縮比。而閒聊、一般性討論則可以接受更多的資訊損失。未來可能需要根據對話類型動態調整壓縮策略。
還有一個實際問題是延遲。把文件轉成圖片、編碼、壓縮、解碼,這整個流程的時間開銷如何?在需要實時響應的場景中,這個開銷能否接受?論文沒有詳細討論這方面的數據。
壓縮的理論極限在哪裡?
看完實驗結果後,一個自然的疑問是:為什麼 10 倍壓縮是個甜蜜點?這背後有沒有理論依據?
在資訊理論中,有個概念叫「Shannon Limit」,是資訊理論的開創祖師爺 Claude Shannon 在 1948 年提出的。簡單說,它告訴我們:任何資訊都有個理論上的最小表達方式,再壓也壓不下去了,除非你願意接受資訊損失。
舉個例子,如果一本書裡每個字都是隨機的、完全不可預測,那這本書基本上沒辦法壓縮。但如果這本書是中文或英文寫的,裡面有很多規律和重複的模式,就能壓縮得很厲害。你可以用「的」這個字出現的頻率,來設計更短的編碼方式。
壓縮分兩種:無損壓縮和有損壓縮。
無損壓縮就像把一堆衣服整整齊齊疊好放進行李箱,佔的空間變小了,但拿出來的時候每件衣服都還是原樣。ZIP 文件就是這種壓縮,解壓後和原檔案一模一樣。但無損壓縮有個極限,不可能無限壓下去。
有損壓縮就像把照片從高畫質降到低畫質,檔案變小了,但細節也丟了一些。JPEG 圖片就是這樣,你仔細看會發現有些地方模糊了,但大部分時候你根本不在意。有損壓縮可以壓得更厲害,但代價是資訊損失。
DeepSeek-OCR 做的是有損壓縮。 當它把 1,000 個文件 token 壓成 100 個視覺 token 時,必然會丟掉一些資訊。問題是,丟掉的是哪些資訊?
從實驗結果看,10 倍壓縮時丟掉的主要是「冗餘資訊」:那些對理解內容不重要的細節。比如,文字的確切字體、行間距、頁邊距這些排版細節,對於理解文字內容並不關鍵。就像你看一篇文章,不管它是用宋體還是黑體,你都能讀懂內容。
但當壓縮比推到 20 倍時,開始丟掉的就不只是冗餘資訊了,可能連一些關鍵內容也開始模糊。想像你把一張照片壓得太小,文字開始變得難以辨認,這時候準確率就掉到 60% 了。
有個有趣的觀察:不同類型的內容有不同的「可壓縮性」。
簡單的投影片,一頁可能只有幾行大字加幾個要點,資訊密度很低,冗餘度很高,所以 64 個 token 就夠了。但一頁密密麻麻的報紙,資訊密度極高,幾乎每個字都有用,要壓縮就得付出更大的精度代價,所以需要 800 個 token。
這就像壓縮一張純藍色的圖片和壓縮一張充滿細節的風景照。前者可以用「藍色填滿整個畫面」這幾個字描述,後者你得記錄每個區域的顏色、紋理、光影。
從這個角度看,DeepSeek-OCR 找到的 10 倍壓縮甜蜜點,其實是在「保留足夠資訊」和「節省足夠資源」之間的一個經驗性平衡點。 它不是理論極限,而是實用性的選擇。對於大多數文件來說,10 倍壓縮能保留 97% 的可恢復性,這個數字足夠高,可以實際應用。
但這也意味著,對於資訊密度特別高的內容,比如數學公式、程式碼、法律條文,10 倍可能還不夠,需要更保守的壓縮比。對於資訊密度低的內容,比如對話閒聊,可能可以壓得更用力一點。
未來如果要把這個技術用在長對話記憶上,可能需要設計一個「內容複雜度評估器」,根據每段對話的資訊密度動態決定壓縮比。簡單的問候和閒聊可以壓到 20 倍,重要的技術討論保持 5 倍,關鍵的程式碼片段乾脆不壓縮。
這種動態壓縮策略,或許才是將來真正實用的方案。就像人類記憶一樣,我們會自動評估哪些資訊重要,哪些不重要,然後用不同的「解析度」來存儲它們。
重新思考「記憶」的意義
人類的記憶從來都不是像傳統的電腦那樣運作,把所有東西記下來。我們記住的是印象、是關鍵資訊、是情感連結,而不是一字不差的逐字稿。我們會遺忘細節,但保留重要的東西。我們會把記憶重新編碼,用更高效的方式儲存。
DeepSeek-OCR 提供了一個可行思路:在處理長上下文時,不一定要堅持純文字的方式,用視覺表達可能是個更高效的選擇。把記憶轉換成視覺表達,就像人類把經歷轉化成腦海中的畫面。這不僅效能更好,似乎也更接近生物智慧的運作方式。
不過,這個想法是否能在更廣泛的場景中站住腳,還需要時間驗證。但至少它證明了一件事:在資源受限的情況下,通過深入思考問題本質、巧妙設計架構、精細優化每個環節,仍然能做出有競爭力的系統。這或許正是中國 AI 發展的一個縮影,不是靠堆資源取勝,而是靠工程優化為主。
下次當你和 AI 聊到它「忘記」之前的對話時,也許未來的 AI 會這樣回答:「我沒忘,我只是把我們之間的對話拍成照片,收在記憶深處了。你需要的話,我隨時可以翻出來看看。」
那個時候,AI 和人類的對話,或許會變得更加自然而持久。
