
Meta 在 2025 年 4 月 5 日正式發表了備受期待的 Llama 4 系列模型,且一上陣就勇奪排行榜第二,僅次於 Google 的 Gemini Pro 2.5。這是 Meta 在開源 AI 領域的又一個重大里程碑,代表著 AI 技術進入真正的多模態時代。本文將深入探討 Llama 4 的特性、架構以及它對 AI 生態系的深遠影響。
Llama 4:三個模型組成的 "羊駝家族"
Meta 此次發布的 Llama 4 系列包含三個主要模型,每一個都有其獨特的定位和優勢。Meta 將這個系列稱為「羊駝家族」(Llama herd),目前已發布了其中兩個模型:Llama 4 Scout 和 Llama 4 Maverick,而第三個名為 Behemoth 的模型仍在訓練中。
Llama 4 Scout:效率與強大功能的完美結合
Llama 4 Scout 是一個配備 17 億活躍參數和 16 個專家模組的模型,總參數量達 109 億。Scout 的一個重大突破是其驚人的 1,000 萬 token 上下文窗口,這使其能夠處理大約 750 萬字的文本,為長文檔處理、複雜程式庫分析和詳細對話任務提供了前所未有的能力。
這個巨大的上下文窗口使 Scout 能夠同時處理圖像和大量文本,從而能夠處理和使用極長的文檔。簡單來說,token 代表原始文本的片段——例如,"fantastic" 這個詞被分解為 "fan"、"tas" 和 "tic"。
在性能方面,Scout 在多項評估中表現出優於 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 等最新模型的能力。更令人驚訝的是,Scout 經過精心設計,能夠在單個 H100 GPU 上運行,展示了 Meta 在模型效率優化方面的出色成就。
Llama 4 Scout 指令調整基準測試
| 類別 | 基準指標 | Llama 4 Scout | Llama 3.3 70B | Llama 3.1 405B | Gemma 3 27B | Mistral 3.1 24B | Gemini 2.0 Flash-Lite |
|---|---|---|---|---|---|---|---|
| 圖像推理 | MMMU | 69.4 | 無多模態支持 | 無多模態支持 | 64.9 | 62.8 | 68.0 |
| MathVista | 70.7 | 67.6 | 68.9 | 57.6 | |||
| 圖像理解 | ChartQA | 88.8 | 76.3 | 86.2 | 73.0 | ||
| DocVQA (測試) | 94.4 | 90.4 | 94.1 | 91.2 | |||
| 寫程式 | LiveCodeBench (2024/10/01-2025/02/01) | 32.8 | 33.3 | 27.7 | 29.7 | — | 28.9 |
| 推理與知識 | MMLU Pro | 74.3 | 68.9 | 73.4 | 67.5 | 66.8 | 71.6 |
| GPQA Diamond | 57.2 | 50.5 | 49.0 | 42.4 | 46.0 | 51.5 | |
| 長上下文 | MTOB (半本書) eng → kg>/kgv → eng | 42.2/36.6 | 上下文窗口為 128K | 上下文窗口為 128K | 上下文窗口為 128K | 上下文窗口為 128K | 42.3/35.1³ |
| MTOB (整本書) eng → kg>/kgv → eng | 39.7/36.3 | 35.1/30.0³ |
註釋:
- 表中的 Llama 模型結果來自溫度等於 0 的零樣本評估,且未採用多數投票或平行測試時間計算。針對高方差的基準測試(如 GPQA Diamond 和 LiveCodeBench),Meta 通過對多次生成結果取平均來降低不確定性。
- 非 Llama 模型的數據來自各自最高的公開自報告結果,除非另有說明。表格僅包括那些可通過 API 或開放權重進行可重現評估的模型,並且僅考慮非思考變體模型。
- 專門的長上下文評估結果通常不見於通用模型的公開報告中,此處 Meta 分享了內部測試結果以展示 Llama 模型在這方面的前沿性能。
Llama 4 Maverick:視覺理解的新標準
Maverick 同樣採用了 17 億活躍參數的架構,但包含 128 個專家模組,總參數量達 400 億,專門設計用於增強視覺基礎能力。這種設計促進了文本提示和相關視覺元素之間的精確對齊,使模型能夠準確地將回應定位到特定的圖像區域。
在性能評估中,Maverick 展現出強大的實力,在多模態推理任務中超越了 GPT-4o 和 Gemini 2.0 Flash 等競爭對手。它在推理和編碼基準測試中達到了與 DeepSeek v3 相當的結果,同時僅使用了大約一半的活躍參數。
Maverick 的一個關鍵特點是其出色的性能成本效率。在 LMArena 平台的基準測試中,Maverick 的聊天優化版本獲得了 1417 的 Elo 評分,這表明它在會話和多模態環境中具有優秀的計算效率和實用性。
Llama 4 Maverick 指令調整基準測試
| 類別 | 基準指標 | Llama 4 Maverick | Gemini 2.0 Flash | DeepSeek v3.1 | GPT-4o |
|---|---|---|---|---|---|
| 推理成本 | 每 1M 輸入 & 輸出 tokens 的成本 (3:1 混合) | $0.19-$0.49⁵ | $0.17 | $0.48 | $4.38 |
| 圖像推理 | MMMU | 73.4 | 71.7 | 無多模態支持 | 69.1 |
| MathVista | 73.7 | 73.1 | 63.8 | ||
| 圖像理解 | ChartQA | 90.0 | 88.3 | 85.7 | |
| DocVQA (測試) | 94.4 | — | 92.8 | ||
| 寫程式 | LiveCodeBench (2024/10/01-2025/02/01) | 43.4 | 34.5 | 45.8/49.2³ | 32.3³ |
| 推理與知識 | MMLU Pro | 80.5 | 77.6 | 81.2 | — |
| GPQA Diamond | 69.8 | 60.1 | 68.4 | 53.6 | |
| 多語言 | 多語言 MMLU | 84.6 | — | — | 81.5 |
| 長上下文 | MTOB (半本書) eng → kg>/kgv → eng | 54.0/46.4 | 48.4/39.8⁴ | 上下文窗口為 128K | 上下文窗口為 128K |
| MTOB (整本書) eng → kg>/kgv → eng | 50.8/46.7 | 45.5/39.6⁴ |
註釋:
- 表中的 Llama 模型結果來自溫度大於 0 的零樣本評估,且未採用多數投票或平行測試時間計算。針對高方差的基準測試(如 GPQA Diamond 和 LiveCodeBench),Meta 通過對多次生成結果取平均來提高結果穩定性。
- 非 Llama 模型的數據來自各自最高的公開自報告結果,除非另有說明。表格僅包括那些可通過 API 或開放權重進行可重現評估的模型,並且僅考慮非思考變體。成本估算基於各自的 API 模型定價。
- DeepSeek v3.1 的評估日期範圍不明確(表中顯示 49.2),因此 Meta 提供了其在特定日期範圍內的內部評估結果(45.8)。GPT-4o 的數據則來自 LiveCodeBench (LCB) 官方排行榜。
- 專門的長上下文評估結果通常不見於商業模型的公開報告中,此處 Meta 分享了內部測試結果以展示 Llama 模型在這方面的前沿性能。
- 表中 $0.19/Mtok(3:1 混合)的成本估算假設使用分佈式推理部署 Llama 4 Maverick。若在單一主機上部署,Meta 預計成本將在 $0.30-$0.49/Mtok(3:1 混合)之間。
Llama 4 Behemoth:未來的超級模型
雖然尚未正式發布,但 Meta 同時提供大家預覽家族當中最強大的模型—Llama 4 Behemoth。這是一個多模態混合專家模型,擁有 288 億活躍參數、16 位專家,總參數量接近 2 兆!這是目前世界上最大的語言模型之一。
Behemoth 仍在訓練中,但已經在 STEM 基準測試如 MATH-500 和 GPQA Diamond 上展示了頂級效能,超越了 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro 等競爭對手。
值得注意的是,雖然 Behemoth 暫時還未公開發表,但它在通過一個稱為 co-distillation(共蒸餾)的過程中扮演了塑造 Scout 和 Maverick 這兩個較小模型的核心角色。
Llama 4 Behemoth 指令調整基準測試
| 類別 | 基準指標 | Llama 4 Behemoth | Claude Sonnet 3.7 | Gemini 2.0 Pro | GPT-4.5 |
|---|---|---|---|---|---|
| 寫程式 | LiveCodeBench (2024/10/01-2025/02/01) | 49.4 | — | 36.0³ | — |
| 推理與知識 | MATH-500 | 95.0 | 82.2 | 91.8 | — |
| MMLU Pro | 82.2 | — | 79.1 | — | |
| GPQA Diamond | 73.7 | 68.0 | 64.7 | 71.4 | |
| 多語言 | 多語言 MMLU (OpenAI) | 85.8 | 83.2 | — | 85.1 |
| 圖像推理 | MMMU | 76.1 | 71.8 | 72.7 | 74.4 |
註釋:
- 表中的 Llama 模型結果代表 Meta 目前最佳的內部測試結果。
- 非 Llama 模型的數據來自各自最高的公開自報告結果,除非另有說明。表格僅包括那些可通過 API 或開放權重進行可重現評估的模型,並且僅考慮非思考變體模型。
- 結果來源於 LiveCodeBench (LCB) 官方排行榜。
技術亮點:MoE 架構與多模態能力的融合
混合專家(Mixture of Experts, MoE)架構的突破
Llama 4 是 Meta 首個使用混合專家(Mixture of Experts,MoE)架構的模型系列,這使其在訓練和查詢處理方面更加有效率。MoE 架構基本上將數據處理任務分解為子任務,然後將它們委派給較小的、專門的「專家」模型。
例如,Maverick 有 400 億總參數,但只有 17 億活躍參數分佈在 128 個「專家」中。同樣,Scout 有 17 億活躍參數,16 個專家,總共 109 億參數。
這種架構允許模型在保持較低計算需求的同時,獲得更高的效能表現。透過只喚起與特定任務相關的專家,MoE 模型可以有效處理各種不同類型的查詢,從文本生成到視覺理解,再到數學推理。

原生多模態能力
Llama 4 模型系列具有原生多模態能力,這意味著它們能夠處理和整合各種類型的數據,包括文字、圖像、影像、和聲音,並能夠在這些格式之間轉換內容。
在技術實現上,這些模型採用了早期融合方法,使用 MetaCLIP 作為影像編碼器,並支援跨多個圖像和文字的多模態融合。
模型在多樣化的多模態數據上進行了預訓練,包括圖像和影像幀靜止畫面。在訓練方法方面,Meta 引入了輕量級的監督式微調(Supervised Fine-Tuning, SFT)方法,然後進行在線強化學習(Reinforcement Learning, RL)和直接偏好優化(Direct Preference Optimization, DPO)。
實用場景與應用
文檔處理與程式碼理解
憑藉其 1,000 萬 token 的上下文窗口,Llama 4 Scout 特別適合進行多文件摘要和對大型程式庫的推理。它能夠處理極長的文件,理解其中的複雜關係,並萃取出關鍵訊息,這讓 Llama 4 Scout 成為研究人員、開發者和數據分析師的強大工具。
視覺問答與圖像理解
Llama 4 Maverick 的 128 個專家模組專門設計用於增強視覺基礎能力,使其能夠精確地將文本提示與相關視覺元素對齊。這使其能夠進行複雜的視覺問答任務,如圖像描述、圖像-文本檢索、視覺定位和視覺推理。
支援多語言
Llama 4 模型在訓練時使用了比 Llama 3 多 10 倍的多語言 tokens,這意味著它們在處理非英語語言方面有顯著的改進。
更廣泛的通路
Llama 4 Scout 和 Maverick 現在可以通過 llama.com 和 Hugging Face 下載,並可以通過 WhatsApp、Messenger、Instagram Direct 和 Meta AI 網站等 Meta AI 相關產品存取。Meta AI 已在 40 個國家/地區更新為使用 Llama 4,不過多模態功能目前僅限於美國的英語用戶使用。
開放創新與未來展望
Meta 強調了開放性在其發布中的戰略重要性:「我們相信開放將推動創新並造福所有人。」
Llama 4 Scout 和 Maverick 以開放條款發布,預計很快將通過雲提供商和合作夥伴獲得廣泛採用。值得注意的是,在歐盟「設立」或有「主要營業地」的使用者或公司被禁止使用或再發佈這些模型,這可能是由於歐盟的 AI 和數據隱私法律施加的治理要求。
Meta 搶在 4 月 29 日舉行的 LlamaCon 之前發布 Llama 4,且計劃在活動當天分享更多關於 Llama 平台未來願景的資訊,在未來幾個月 Meta 還計劃發表更多 Llama 4 家族模型,包括眾人期待的推理模型。
✦延伸閱讀:AI Agent 是什麼?與 AI 助理、Chatbot 差異比較和應用場景解析
結論
Llama 4 系列代表 Meta 在 AI 領域的新里程碑,特別是在多模態能力和效率方面。通過混合專家架構和原生多模態設計,這些模型為各種應用提供了前所未有的能力,從企業級助手到邊緣設備的輕量級 AI。
隨著 Behemoth 的繼續訓練和更多模型的計劃發布,Meta 正在鞏固其作為 AI 創新領導者的地位,同時堅持開放模型的路線,使這些強大的工具可供廣大開發者社群使用,搶攻 AI 生態系。
