Meta 釋出 Llama 4，史上最大 AI 模型功能、架構、生態一次看

Meta 在 2025 年 4 月 5 日正式發表了備受期待的 Llama 4 系列模型，且一上陣就勇奪排行榜第二，僅次於 Google 的 Gemini Pro 2.5。這是 Meta 在開源 AI 領域的又一個重大里程碑，代表著 AI 技術進入真正的多模態時代。本文將深入探討 Llama 4 的特性、架構以及它對 AI 生態系的深遠影響。

Llama 4：三個模型組成的 "羊駝家族"

Meta 此次發布的 Llama 4 系列包含三個主要模型，每一個都有其獨特的定位和優勢。Meta 將這個系列稱為「羊駝家族」(Llama herd)，目前已發布了其中兩個模型：Llama 4 Scout 和 Llama 4 Maverick，而第三個名為 Behemoth 的模型仍在訓練中。

Llama 4 Scout：效率與強大功能的完美結合

Llama 4 Scout 是一個配備 17 億活躍參數和 16 個專家模組的模型，總參數量達 109 億。Scout 的一個重大突破是其驚人的 1,000 萬 token 上下文窗口，這使其能夠處理大約 750 萬字的文本，為長文檔處理、複雜程式庫分析和詳細對話任務提供了前所未有的能力。

這個巨大的上下文窗口使 Scout 能夠同時處理圖像和大量文本，從而能夠處理和使用極長的文檔。簡單來說，token 代表原始文本的片段——例如，"fantastic" 這個詞被分解為 "fan"、"tas" 和 "tic"。

在性能方面，Scout 在多項評估中表現出優於 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 等最新模型的能力。更令人驚訝的是，Scout 經過精心設計，能夠在單個 H100 GPU 上運行，展示了 Meta 在模型效率優化方面的出色成就。

Llama 4 Scout 指令調整基準測試

類別	基準指標	Llama 4 Scout	Llama 3.3 70B	Llama 3.1 405B	Gemma 3 27B	Mistral 3.1 24B	Gemini 2.0 Flash-Lite
圖像推理	MMMU	69.4	無多模態支持	無多模態支持	64.9	62.8	68.0
	MathVista	70.7			67.6	68.9	57.6
圖像理解	ChartQA	88.8			76.3	86.2	73.0
	DocVQA (測試)	94.4			90.4	94.1	91.2
寫程式	LiveCodeBench (2024/10/01-2025/02/01)	32.8	33.3	27.7	29.7	—	28.9
推理與知識	MMLU Pro	74.3	68.9	73.4	67.5	66.8	71.6
	GPQA Diamond	57.2	50.5	49.0	42.4	46.0	51.5
長上下文	MTOB (半本書) eng → kg>/kgv → eng	42.2/36.6	上下文窗口為 128K	上下文窗口為 128K	上下文窗口為 128K	上下文窗口為 128K	42.3/35.1³
	MTOB (整本書) eng → kg>/kgv → eng	39.7/36.3					35.1/30.0³

註釋：

表中的 Llama 模型結果來自溫度等於 0 的零樣本評估，且未採用多數投票或平行測試時間計算。針對高方差的基準測試（如 GPQA Diamond 和 LiveCodeBench），Meta 通過對多次生成結果取平均來降低不確定性。
非 Llama 模型的數據來自各自最高的公開自報告結果，除非另有說明。表格僅包括那些可通過 API 或開放權重進行可重現評估的模型，並且僅考慮非思考變體模型。
專門的長上下文評估結果通常不見於通用模型的公開報告中，此處 Meta 分享了內部測試結果以展示 Llama 模型在這方面的前沿性能。

Llama 4 Maverick：視覺理解的新標準

Maverick 同樣採用了 17 億活躍參數的架構，但包含 128 個專家模組，總參數量達 400 億，專門設計用於增強視覺基礎能力。這種設計促進了文本提示和相關視覺元素之間的精確對齊，使模型能夠準確地將回應定位到特定的圖像區域。

在性能評估中，Maverick 展現出強大的實力，在多模態推理任務中超越了 GPT-4o 和 Gemini 2.0 Flash 等競爭對手。它在推理和編碼基準測試中達到了與 DeepSeek v3 相當的結果，同時僅使用了大約一半的活躍參數。

Maverick 的一個關鍵特點是其出色的性能成本效率。在 LMArena 平台的基準測試中，Maverick 的聊天優化版本獲得了 1417 的 Elo 評分，這表明它在會話和多模態環境中具有優秀的計算效率和實用性。

Llama 4 Maverick 指令調整基準測試

類別	基準指標	Llama 4 Maverick	Gemini 2.0 Flash	DeepSeek v3.1	GPT-4o
推理成本	每 1M 輸入 & 輸出 tokens 的成本 (3:1 混合)	$0.19-$0.49⁵	$0.17	$0.48	$4.38
圖像推理	MMMU	73.4	71.7	無多模態支持	69.1
	MathVista	73.7	73.1		63.8
圖像理解	ChartQA	90.0	88.3		85.7
	DocVQA (測試)	94.4	—		92.8
寫程式	LiveCodeBench (2024/10/01-2025/02/01)	43.4	34.5	45.8/49.2³	32.3³
推理與知識	MMLU Pro	80.5	77.6	81.2	—
	GPQA Diamond	69.8	60.1	68.4	53.6
多語言	多語言 MMLU	84.6	—	—	81.5
長上下文	MTOB (半本書) eng → kg>/kgv → eng	54.0/46.4	48.4/39.8⁴	上下文窗口為 128K	上下文窗口為 128K
	MTOB (整本書) eng → kg>/kgv → eng	50.8/46.7	45.5/39.6⁴

註釋：

表中的 Llama 模型結果來自溫度大於 0 的零樣本評估，且未採用多數投票或平行測試時間計算。針對高方差的基準測試（如 GPQA Diamond 和 LiveCodeBench），Meta 通過對多次生成結果取平均來提高結果穩定性。
非 Llama 模型的數據來自各自最高的公開自報告結果，除非另有說明。表格僅包括那些可通過 API 或開放權重進行可重現評估的模型，並且僅考慮非思考變體。成本估算基於各自的 API 模型定價。
DeepSeek v3.1 的評估日期範圍不明確（表中顯示 49.2），因此 Meta 提供了其在特定日期範圍內的內部評估結果（45.8）。GPT-4o 的數據則來自 LiveCodeBench (LCB) 官方排行榜。
專門的長上下文評估結果通常不見於商業模型的公開報告中，此處 Meta 分享了內部測試結果以展示 Llama 模型在這方面的前沿性能。
表中 $0.19/Mtok（3:1 混合）的成本估算假設使用分佈式推理部署 Llama 4 Maverick。若在單一主機上部署，Meta 預計成本將在 $0.30-$0.49/Mtok（3:1 混合）之間。

Llama 4 Behemoth：未來的超級模型

雖然尚未正式發布，但 Meta 同時提供大家預覽家族當中最強大的模型—Llama 4 Behemoth。這是一個多模態混合專家模型，擁有 288 億活躍參數、16 位專家，總參數量接近 2 兆！這是目前世界上最大的語言模型之一。

Behemoth 仍在訓練中，但已經在 STEM 基準測試如 MATH-500 和 GPQA Diamond 上展示了頂級效能，超越了 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro 等競爭對手。

值得注意的是，雖然 Behemoth 暫時還未公開發表，但它在通過一個稱為 co-distillation（共蒸餾）的過程中扮演了塑造 Scout 和 Maverick 這兩個較小模型的核心角色。

Llama 4 Behemoth 指令調整基準測試

類別	基準指標	Llama 4 Behemoth	Claude Sonnet 3.7	Gemini 2.0 Pro	GPT-4.5
寫程式	LiveCodeBench (2024/10/01-2025/02/01)	49.4	—	36.0³	—
推理與知識	MATH-500	95.0	82.2	91.8	—
	MMLU Pro	82.2	—	79.1	—
	GPQA Diamond	73.7	68.0	64.7	71.4
多語言	多語言 MMLU (OpenAI)	85.8	83.2	—	85.1
圖像推理	MMMU	76.1	71.8	72.7	74.4

註釋：

表中的 Llama 模型結果代表 Meta 目前最佳的內部測試結果。
非 Llama 模型的數據來自各自最高的公開自報告結果，除非另有說明。表格僅包括那些可通過 API 或開放權重進行可重現評估的模型，並且僅考慮非思考變體模型。
結果來源於 LiveCodeBench (LCB) 官方排行榜。

技術亮點：MoE 架構與多模態能力的融合

混合專家（Mixture of Experts, MoE）架構的突破

Llama 4 是 Meta 首個使用混合專家（Mixture of Experts，MoE）架構的模型系列，這使其在訓練和查詢處理方面更加有效率。MoE 架構基本上將數據處理任務分解為子任務，然後將它們委派給較小的、專門的「專家」模型。

例如，Maverick 有 400 億總參數，但只有 17 億活躍參數分佈在 128 個「專家」中。同樣，Scout 有 17 億活躍參數，16 個專家，總共 109 億參數。

這種架構允許模型在保持較低計算需求的同時，獲得更高的效能表現。透過只喚起與特定任務相關的專家，MoE 模型可以有效處理各種不同類型的查詢，從文本生成到視覺理解，再到數學推理。

原生多模態能力

Llama 4 模型系列具有原生多模態能力，這意味著它們能夠處理和整合各種類型的數據，包括文字、圖像、影像、和聲音，並能夠在這些格式之間轉換內容。

在技術實現上，這些模型採用了早期融合方法，使用 MetaCLIP 作為影像編碼器，並支援跨多個圖像和文字的多模態融合。

模型在多樣化的多模態數據上進行了預訓練，包括圖像和影像幀靜止畫面。在訓練方法方面，Meta 引入了輕量級的監督式微調（Supervised Fine-Tuning, SFT）方法，然後進行在線強化學習（Reinforcement Learning, RL）和直接偏好優化（Direct Preference Optimization, DPO）。

實用場景與應用

文檔處理與程式碼理解

憑藉其 1,000 萬 token 的上下文窗口，Llama 4 Scout 特別適合進行多文件摘要和對大型程式庫的推理。它能夠處理極長的文件，理解其中的複雜關係，並萃取出關鍵訊息，這讓 Llama 4 Scout 成為研究人員、開發者和數據分析師的強大工具。

視覺問答與圖像理解

Llama 4 Maverick 的 128 個專家模組專門設計用於增強視覺基礎能力，使其能夠精確地將文本提示與相關視覺元素對齊。這使其能夠進行複雜的視覺問答任務，如圖像描述、圖像-文本檢索、視覺定位和視覺推理。

支援多語言

Llama 4 模型在訓練時使用了比 Llama 3 多 10 倍的多語言 tokens，這意味著它們在處理非英語語言方面有顯著的改進。

更廣泛的通路

Llama 4 Scout 和 Maverick 現在可以通過 llama.com 和 Hugging Face 下載，並可以通過 WhatsApp、Messenger、Instagram Direct 和 Meta AI 網站等 Meta AI 相關產品存取。Meta AI 已在 40 個國家/地區更新為使用 Llama 4，不過多模態功能目前僅限於美國的英語用戶使用。

開放創新與未來展望

Meta 強調了開放性在其發布中的戰略重要性：「我們相信開放將推動創新並造福所有人。」

Llama 4 Scout 和 Maverick 以開放條款發布，預計很快將通過雲提供商和合作夥伴獲得廣泛採用。值得注意的是，在歐盟「設立」或有「主要營業地」的使用者或公司被禁止使用或再發佈這些模型，這可能是由於歐盟的 AI 和數據隱私法律施加的治理要求。

Meta 搶在 4 月 29 日舉行的 LlamaCon 之前發布 Llama 4，且計劃在活動當天分享更多關於 Llama 平台未來願景的資訊，在未來幾個月 Meta 還計劃發表更多 Llama 4 家族模型，包括眾人期待的推理模型。

✦延伸閱讀：AI Agent 是什麼？與 AI 助理、Chatbot 差異比較和應用場景解析

結論

Llama 4 系列代表 Meta 在 AI 領域的新里程碑，特別是在多模態能力和效率方面。通過混合專家架構和原生多模態設計，這些模型為各種應用提供了前所未有的能力，從企業級助手到邊緣設備的輕量級 AI。

隨著 Behemoth 的繼續訓練和更多模型的計劃發布，Meta 正在鞏固其作為 AI 創新領導者的地位，同時堅持開放模型的路線，使這些強大的工具可供廣大開發者社群使用，搶攻 AI 生態系。

Llama 4 下載連結

Llama 4 詳細介紹

相關

文章搜尋

文章分類

近期文章