AI 產業趨勢CEO 觀點

DeepSeek 是真開源還是假開源?

Home » CEO 觀點 » DeepSeek 是真開源還是假開源?

DeepSeek 的開源爭議:從技術角度拆解真相

有人爭辯 DeepSeek 到底是不是真的開源,批評 DeepSeek 現在只有開放模型的權重 (weight)、用論文解釋訓練方法,所以這不算真的開源,那些訓練的程式碼哩?訓練用的資料集?
那我們就來拆解一下。

AI 模型的靈魂:權重

AI 模型最重要的就是權重,權重開放出來之後,後面幾乎所有事情都可以做了。曾有不是 AI 背景的工程師質疑我的技術理解,那我就隨手舉幾個開放權重後能夠實現的例子吧。

當一個 AI 模型開放其權重後,開發者與研究者可以對模型進行改造和優化。這些改造和優化主要有幾個層面,這幾個層面也是「真正的 AI 從業人員」最關心的幾個面向:效能優化、架構改進、模型分析和部署整合等多個層面。

開放權重對效能優化帶來的核心價值,讓我們能夠透過分析真實的權重數據來制定更精準的優化策略。

權重數據的價值:量化、KV Cache 與平行運算

當我們拿到模型的實際權重數據後,首先能夠分析每一層網路中權重的數值範圍和分布特性。這些資訊直接影響了量化(quantization)的優化方案。例如,我們可以根據不同層的數值特性,決定哪些層適合使用 FP16 來加速計算,哪些層因為數值敏感度高需要保持 FP32 精度。同樣地,在實現 quantization 時,也能根據權重的實際分布特性來決定各層的量化方案,確保在降低精度的同時維持模型性能。

另外一個最近大家常常在討論的優化方式是 KV Cache,要實現這個優化也相當依賴對權重特性的理解。透過分析權重結構,可以更準確地估算 cache 需求,並根據權重的特性來優化 cache 策略。一篇剛出爐一個月不到的論文可以參考 "PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving". 下面剛好接著講部署分散式 LLM、透過平行運算來提昇整個大模型對外的服務效能。

在設計 LLM 平行運算的策略時(簡單來說就是把大腦切成小小塊放在不同的 GPU 上),權重數據的分析結果更是關鍵。透過分析不同層的權重規模和計算複雜度,我們能夠找到最佳的模型切分點,平衡各個 GPU 的負載。這種基於實際權重特性的切分方案,比起單純基於層數平均分配要更有效。如果模型沒有開放權重,我們就只能從論文描述或外部觀察來推測模型結構,這樣設計出的優化策略很難最佳化。

模型壓縮與知識蒸餾:降低成本,保有高效表現

再隨便講一個模型壓縮,是主要用來縮減模型大小,但是不降低智慧的優化方式。舉例,INT8 或 INT4 量化技術可以將原本的 FP32 權重轉換為低精度整數,顯著減少模型大小。
最後,知識蒸餾技術(distillation)則是訓練一個更小的模型來模仿大模型的行為,在保持核心功能的同時大幅降低運算量的需求。蒸餾不是抄襲,是 AI 產業行之有年的方法,所有「真正的 AI 從業人員」都在用也都會用,不要再相信沒有根據的說法了。以上沒有開放的權重的話,你要怎麼輕易做到?

R1 爭議焦點:訓練成本與開放權重

那麼,大家在質疑 R1 的點到底是在哪邊呢?
主要是「訓練成本真的如宣稱的那麼低嗎?」,說實話,我認為訓練成本並沒有那麼低,極有可能被部分誇大了。但這跟開放模型權重是完全不同的兩回事,不能混為一談。

Open R1:Hugging Face 能否重現 DeepSeek 的奇蹟?

為了驗證 R1 到底花了多少錢訓練,因此 Hugging Face 上週就開始了重製 R1 的計畫「Open R1」,目標是重製出論文當中的訓練方法之外,也驗證可能的訓練成本落在什麼範圍。訓練成本之所以重要,與「我們是否真的需要這麼多 Nvidia 高階晶片來訓練 AI 模型?」有關,所以,如果證明 R1 還是需要很多高階晶片才能訓練出來,那麼大家還老黃一個公道,Nvidia 補倉補起來;如果 R1 不需要太多高階晶片就可以訓練出來,那麼市場砍 Nvidia 砍得不無道理,但老黃是個堅毅的創業家,我仍然看好 Nvidia 的長期發展,短期波動難免。至於其他的變數,我們就靜觀其變吧。

雖然 Hugging Face 的結果還沒有出爐,但是我認為結果會是介於中間:我們還是需要高階晶片,但也許沒有之前需要的多,因為看 DeepSeek 的論文,他們的確提出了很多優化訓練的方法,而這些方法也被 OpenAI 的研究人員證實是 DeepSeek 團隊獨立找到了 o1 用來優化訓練的方法。目前 Hugging Face 的重製計畫才剛剛過完第一週。在 Hugging Face 完成重製得到初步的結論之前,任何對於成本的猜測 … 就只是未經證實的猜測而已。

而且,隨著各種優化的奇技淫巧上陣,訓練模型的成本肯定就是會越來越低,這件事情會持續下去,DeepSeek 到底用了多少錢訓練模型,也因此主要是具備上述的意義。

還在問資料集?其實你該關心的是……

最後附帶講的,那些還在問「資料集在哪裡」的怎麼辦?還是要再強調一次,模型最重要的是權重,都已經訓練完了,大家現在主要關注的 R1 的權重後續來怎麼應用,各種研究已經展開。真的很在意資料集的話,那麼 Hugging Face 也在拆解這件事情,而且是用一種正面的態度,他們在研究反向工程去合成出 R1 用來訓練推理的訓練資料,而這項工作的重要意義,也直接在於反向工程合成出來的邏輯推理資料集,可以讓後續任何「真正的 AI 從業人員」取用,開源社群再次獲益。

(文章出自 iKala 共同創辦人暨執行長程世嘉(Sega)的Facebook)