AI 產業趨勢AI 趨勢洞察

Meta 釋出 Llama 4,史上最大 AI 模型功能、架構、生態一次看

Home » AI 趨勢洞察 » Meta 釋出 Llama 4,史上最大 AI 模型功能、架構、生態一次看

Meta 在 2025 年 4 月 5 日正式發表了備受期待的 Llama 4 系列模型,且一上陣就勇奪排行榜第二,僅次於 Google 的 Gemini Pro 2.5。這是 Meta 在開源 AI 領域的又一個重大里程碑,代表著 AI 技術進入真正的多模態時代。本文將深入探討 Llama 4 的特性、架構以及它對 AI 生態系的深遠影響。

Llama 4:三個模型組成的 "羊駝家族"

Meta 此次發布的 Llama 4 系列包含三個主要模型,每一個都有其獨特的定位和優勢。Meta 將這個系列稱為「羊駝家族」(Llama herd),目前已發布了其中兩個模型:Llama 4 Scout 和 Llama 4 Maverick,而第三個名為 Behemoth 的模型仍在訓練中。

Llama 4 Scout:效率與強大功能的完美結合

Llama 4 Scout 是一個配備 17 億活躍參數和 16 個專家模組的模型,總參數量達 109 億。Scout 的一個重大突破是其驚人的 1,000 萬 token 上下文窗口,這使其能夠處理大約 750 萬字的文本,為長文檔處理、複雜程式庫分析和詳細對話任務提供了前所未有的能力。

這個巨大的上下文窗口使 Scout 能夠同時處理圖像和大量文本,從而能夠處理和使用極長的文檔。簡單來說,token 代表原始文本的片段——例如,"fantastic" 這個詞被分解為 "fan"、"tas" 和 "tic"。

在性能方面,Scout 在多項評估中表現出優於 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 等最新模型的能力。更令人驚訝的是,Scout 經過精心設計,能夠在單個 H100 GPU 上運行,展示了 Meta 在模型效率優化方面的出色成就。

Llama 4 Scout 指令調整基準測試

類別基準指標Llama 4 ScoutLlama 3.3 70BLlama 3.1 405BGemma 3 27BMistral 3.1 24BGemini 2.0 Flash-Lite
圖像推理MMMU69.4無多模態支持無多模態支持64.962.868.0
MathVista70.767.668.957.6
圖像理解ChartQA88.876.386.273.0
DocVQA (測試)94.490.494.191.2
寫程式LiveCodeBench (2024/10/01-2025/02/01)32.833.327.729.728.9
推理與知識MMLU Pro74.368.973.467.566.871.6
GPQA Diamond57.250.549.042.446.051.5
長上下文MTOB (半本書) eng → kg>/kgv → eng42.2/36.6上下文窗口為 128K上下文窗口為 128K上下文窗口為 128K上下文窗口為 128K42.3/35.1³
MTOB (整本書) eng → kg>/kgv → eng39.7/36.335.1/30.0³

註釋:

  1. 表中的 Llama 模型結果來自溫度等於 0 的零樣本評估,且未採用多數投票或平行測試時間計算。針對高方差的基準測試(如 GPQA Diamond 和 LiveCodeBench),Meta 通過對多次生成結果取平均來降低不確定性。
  2. 非 Llama 模型的數據來自各自最高的公開自報告結果,除非另有說明。表格僅包括那些可通過 API 或開放權重進行可重現評估的模型,並且僅考慮非思考變體模型。
  3. 專門的長上下文評估結果通常不見於通用模型的公開報告中,此處 Meta 分享了內部測試結果以展示 Llama 模型在這方面的前沿性能。

Llama 4 Maverick:視覺理解的新標準

Maverick 同樣採用了 17 億活躍參數的架構,但包含 128 個專家模組,總參數量達 400 億,專門設計用於增強視覺基礎能力。這種設計促進了文本提示和相關視覺元素之間的精確對齊,使模型能夠準確地將回應定位到特定的圖像區域。

在性能評估中,Maverick 展現出強大的實力,在多模態推理任務中超越了 GPT-4o 和 Gemini 2.0 Flash 等競爭對手。它在推理和編碼基準測試中達到了與 DeepSeek v3 相當的結果,同時僅使用了大約一半的活躍參數。

Maverick 的一個關鍵特點是其出色的性能成本效率。在 LMArena 平台的基準測試中,Maverick 的聊天優化版本獲得了 1417 的 Elo 評分,這表明它在會話和多模態環境中具有優秀的計算效率和實用性。

Llama 4 Maverick 指令調整基準測試

類別基準指標Llama 4 MaverickGemini 2.0 FlashDeepSeek v3.1GPT-4o
推理成本每 1M 輸入 & 輸出 tokens 的成本 (3:1 混合)$0.19-$0.49⁵$0.17$0.48$4.38
圖像推理MMMU73.471.7無多模態支持69.1
MathVista73.773.163.8
圖像理解ChartQA90.088.385.7
DocVQA (測試)94.492.8
寫程式LiveCodeBench (2024/10/01-2025/02/01)43.434.545.8/49.2³32.3³
推理與知識MMLU Pro80.577.681.2
GPQA Diamond69.860.168.453.6
多語言多語言 MMLU84.681.5
長上下文MTOB (半本書) eng → kg>/kgv → eng54.0/46.448.4/39.8⁴上下文窗口為 128K上下文窗口為 128K
MTOB (整本書) eng → kg>/kgv → eng50.8/46.745.5/39.6⁴

註釋:

  1. 表中的 Llama 模型結果來自溫度大於 0 的零樣本評估,且未採用多數投票或平行測試時間計算。針對高方差的基準測試(如 GPQA Diamond 和 LiveCodeBench),Meta 通過對多次生成結果取平均來提高結果穩定性。
  2. 非 Llama 模型的數據來自各自最高的公開自報告結果,除非另有說明。表格僅包括那些可通過 API 或開放權重進行可重現評估的模型,並且僅考慮非思考變體。成本估算基於各自的 API 模型定價。
  3. DeepSeek v3.1 的評估日期範圍不明確(表中顯示 49.2),因此 Meta 提供了其在特定日期範圍內的內部評估結果(45.8)。GPT-4o 的數據則來自 LiveCodeBench (LCB) 官方排行榜。
  4. 專門的長上下文評估結果通常不見於商業模型的公開報告中,此處 Meta 分享了內部測試結果以展示 Llama 模型在這方面的前沿性能。
  5. 表中 $0.19/Mtok(3:1 混合)的成本估算假設使用分佈式推理部署 Llama 4 Maverick。若在單一主機上部署,Meta 預計成本將在 $0.30-$0.49/Mtok(3:1 混合)之間。

Llama 4 Behemoth:未來的超級模型

雖然尚未正式發布,但 Meta 同時提供大家預覽家族當中最強大的模型—Llama 4 Behemoth。這是一個多模態混合專家模型,擁有 288 億活躍參數、16 位專家,總參數量接近 2 兆!這是目前世界上最大的語言模型之一。

Behemoth 仍在訓練中,但已經在 STEM 基準測試如 MATH-500 和 GPQA Diamond 上展示了頂級效能,超越了 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro 等競爭對手。

值得注意的是,雖然 Behemoth 暫時還未公開發表,但它在通過一個稱為 co-distillation(共蒸餾)的過程中扮演了塑造 Scout 和 Maverick 這兩個較小模型的核心角色。

Llama 4 Behemoth 指令調整基準測試

類別基準指標Llama 4 BehemothClaude Sonnet 3.7Gemini 2.0 ProGPT-4.5
寫程式LiveCodeBench (2024/10/01-2025/02/01)49.436.0³
推理與知識MATH-50095.082.291.8
MMLU Pro82.279.1
GPQA Diamond73.768.064.771.4
多語言多語言 MMLU (OpenAI)85.883.285.1
圖像推理MMMU76.171.872.774.4

註釋:

  1. 表中的 Llama 模型結果代表 Meta 目前最佳的內部測試結果。
  2. 非 Llama 模型的數據來自各自最高的公開自報告結果,除非另有說明。表格僅包括那些可通過 API 或開放權重進行可重現評估的模型,並且僅考慮非思考變體模型。
  3. 結果來源於 LiveCodeBench (LCB) 官方排行榜。

技術亮點:MoE 架構與多模態能力的融合

混合專家(Mixture of Experts, MoE)架構的突破

Llama 4 是 Meta 首個使用混合專家(Mixture of Experts,MoE)架構的模型系列,這使其在訓練和查詢處理方面更加有效率。MoE 架構基本上將數據處理任務分解為子任務,然後將它們委派給較小的、專門的「專家」模型。

例如,Maverick 有 400 億總參數,但只有 17 億活躍參數分佈在 128 個「專家」中。同樣,Scout 有 17 億活躍參數,16 個專家,總共 109 億參數。

這種架構允許模型在保持較低計算需求的同時,獲得更高的效能表現。透過只喚起與特定任務相關的專家,MoE 模型可以有效處理各種不同類型的查詢,從文本生成到視覺理解,再到數學推理。

原生多模態能力

Llama 4 模型系列具有原生多模態能力,這意味著它們能夠處理和整合各種類型的數據,包括文字、圖像、影像、和聲音,並能夠在這些格式之間轉換內容。

在技術實現上,這些模型採用了早期融合方法,使用 MetaCLIP 作為影像編碼器,並支援跨多個圖像和文字的多模態融合。

模型在多樣化的多模態數據上進行了預訓練,包括圖像和影像幀靜止畫面。在訓練方法方面,Meta 引入了輕量級的監督式微調(Supervised Fine-Tuning, SFT)方法,然後進行在線強化學習(Reinforcement Learning, RL)和直接偏好優化(Direct Preference Optimization, DPO)。

實用場景與應用

文檔處理與程式碼理解

憑藉其 1,000 萬 token 的上下文窗口,Llama 4 Scout 特別適合進行多文件摘要和對大型程式庫的推理。它能夠處理極長的文件,理解其中的複雜關係,並萃取出關鍵訊息,這讓 Llama 4 Scout 成為研究人員、開發者和數據分析師的強大工具。

視覺問答與圖像理解

Llama 4 Maverick 的 128 個專家模組專門設計用於增強視覺基礎能力,使其能夠精確地將文本提示與相關視覺元素對齊。這使其能夠進行複雜的視覺問答任務,如圖像描述、圖像-文本檢索、視覺定位和視覺推理。

支援多語言

Llama 4 模型在訓練時使用了比 Llama 3 多 10 倍的多語言 tokens,這意味著它們在處理非英語語言方面有顯著的改進。

更廣泛的通路

Llama 4 Scout 和 Maverick 現在可以通過 llama.com 和 Hugging Face 下載,並可以通過 WhatsApp、Messenger、Instagram Direct 和 Meta AI 網站等 Meta AI 相關產品存取。Meta AI 已在 40 個國家/地區更新為使用 Llama 4,不過多模態功能目前僅限於美國的英語用戶使用。

開放創新與未來展望

Meta 強調了開放性在其發布中的戰略重要性:「我們相信開放將推動創新並造福所有人。」

Llama 4 Scout 和 Maverick 以開放條款發布,預計很快將通過雲提供商和合作夥伴獲得廣泛採用。值得注意的是,在歐盟「設立」或有「主要營業地」的使用者或公司被禁止使用或再發佈這些模型,這可能是由於歐盟的 AI 和數據隱私法律施加的治理要求。

Meta 搶在 4 月 29 日舉行的 LlamaCon 之前發布 Llama 4,且計劃在活動當天分享更多關於 Llama 平台未來願景的資訊,在未來幾個月 Meta 還計劃發表更多 Llama 4 家族模型,包括眾人期待的推理模型。

✦延伸閱讀:AI Agent 是什麼?與 AI 助理、Chatbot 差異比較和應用場景解析

結論

Llama 4 系列代表 Meta 在 AI 領域的新里程碑,特別是在多模態能力和效率方面。通過混合專家架構和原生多模態設計,這些模型為各種應用提供了前所未有的能力,從企業級助手到邊緣設備的輕量級 AI。

隨著 Behemoth 的繼續訓練和更多模型的計劃發布,Meta 正在鞏固其作為 AI 創新領導者的地位,同時堅持開放模型的路線,使這些強大的工具可供廣大開發者社群使用,搶攻 AI 生態系。

Llama 4 下載連結

Llama 4 詳細介紹