CEO 觀點

Meta Llama 4 發布爭議全解析:真實效能、數據真實性、與未來發展

Home » CEO 觀點 » Meta Llama 4 發布爭議全解析:真實效能、數據真實性、與未來發展

摘要

2025 年 4 月初,Meta 發布了其最新一代大型語言模型系列 Llama 4,包含 Llama 4 Scout、Llama 4 Maverick 以及尚在訓練中的 Llama 4 Behemoth。此次發布引入了混合專家(MoE)架構和原生多模態能力,並宣稱在多項基準測試中取得領先效能。然而,Llama 4 的發布迅速引發了一系列爭議,核心圍繞其基準測試結果的呈現方式、實際效能表現與宣稱的差距,以及關於訓練數據真實性的嚴重指控。本文旨在全面梳理 Llama 4 發布至今的事件發展、關鍵爭議點、各方回應以及對 Meta 未來策略的預測,提供對此事件的深度分析。

Llama 4 發布:技術亮點與效能宣稱

發布時間與核心模型

Meta 於 2025 年 4 月 5 日透過官方部落格文章正式發布 Llama 4 系列模型。此次發布的核心是兩款可供下載的「開放權重」(open-weight)模型:

  • Llama 4 Scout: 該模型擁有 1090 億總參數,採用 16 個專家(experts)的 MoE 架構,每次推理啟用 170 億參數 3。其設計目標是在單一 NVIDIA H100 GPU 上運行(透過 Int4 量化),並支援高達 1000 萬 token 的超長上下文視窗 1
  • Llama 4 Maverick: 該模型總參數量達 4000 億,擁有 128 個專家,同樣在每次推理時啟用 170 億參數 2。其上下文視窗為 100 萬 token,設計用於在單一 NVIDIA H100 DGX 主機上運行 2。Maverick 被定位為通用助手和聊天應用的主力模型 9。 此外,Meta 還預告了正在訓練中的「教師模型」Llama 4 Behemoth,其擁有約 2 兆總參數和 2880 億活躍參數,採用 16 個專家架構 4

關鍵技術創新

Llama 4 系列引入了幾項重要的技術革新:

  • 混合專家架構 (MoE): 這是 Meta 首次在其 Llama 系列中採用 MoE 架構 2。MoE 允許模型在處理每個輸入 token 時,僅啟用一部分專家(神經網路子元件),而非全部參數。理論上,這能在保持模型能力的同時,顯著提高訓練和推理效率,降低運算成本 1。例如,Maverick 模型透過僅啟用 170 億參數(而非全部 4000 億)來處理任務,大幅降低了計算需求 4
  • 原生多模態能力: Llama 4 模型從設計之初就具備處理多種模態(如文字和圖像)的能力 2。它們採用了「早期融合」(early fusion)技術,將文字和視覺 token 整合到統一的主幹網路中進行聯合預訓練,使其能夠同時理解圖像和文字輸入以生成輸出 1
  • 超長上下文視窗: Llama 4 Scout 宣稱擁有業界領先的 1000 萬 token 上下文視窗,遠超 Llama 3 的 12.8 萬 token 1。這得益於一種稱為 iRoPE 的架構創新,使用了不含位置嵌入的交錯注意力層 1。這使得模型理論上能夠處理和分析整本書籍或大型程式碼庫等超長文本 4
  • 訓練技術 (MetaP): Meta 開發了一種名為 MetaP 的新訓練技術,用於設定關鍵的超參數,並宣稱這些參數在不同模型尺寸和訓練規模下具有良好的遷移性 1

Meta 的效能宣稱與市場定位

Meta 在發布時強調 Llama 4 的卓越效能,並將其定位為同類最佳模型:

  • Scout: 被描述為同類中最強的多模態模型,超越了 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 等競爭對手 1
  • Maverick: 宣稱在廣泛基準測試中擊敗了 GPT-4o 和 Gemini 2.0 Flash,並在推理和程式碼生成方面與 DeepSeek v3 相當,但使用的活躍參數更少,具有「同類最佳」的效能成本比 1
  • Behemoth: 儘管仍在訓練中,Meta 聲稱其在數學、科學等 STEM 領域的基準測試(如 MATH-500、GPQA Diamond)上已超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro 1。 Meta 強調其持續致力於開放生態系統,將 Scout 和 Maverick 模型提供公開下載,旨在推動 AI 創新 1

初期反應與獨立評測結果

發布初期的市場與媒體反應

Llama 4 的發布初期獲得了科技媒體和合作夥伴的積極報導。AWS 和 Cloudflare 等雲端服務商迅速宣布在其平台上提供 Llama 4 模型,突顯了其潛在的商業價值和開發者吸引力 2。媒體普遍關注其 MoE 架構帶來的效率提升、原生多模態能力以及 Scout 驚人的 1000 萬 token 上下文視窗 7。Meta 在其官方公告中也引用了 Llama 4 Maverick 在 LMArena(一個透過用戶投票比較聊天機器人回應的評測平台)上的優異表現,聲稱其 ELO 分數一度超越 OpenAI 的 GPT-4o,成為排名第一的開放模型 10

獨立測試揭示的效能差異

然而,隨著開發者和研究社群開始對公開發布的 Llama 4 模型進行獨立測試,與 Meta 官方宣稱效能不符的結果開始浮現,尤其是在特定領域的基準測試中:

  • 程式碼能力評測: 在一個名為 DevQualityEval v1.0 的程式碼基準測試中,Llama 4 Maverick (400B) 和 Scout (109B) 的表現遠遜於體積小得多的模型。Maverick 排名第 41 位,僅略好於 Llama 3.1 405B;而 Scout 排名第 56 位,甚至不如 Llama 3.1 70B 17。儘管在 Go 語言上表現尚可(但相較 Llama 3.1 有所退步),在 Ruby 語言上 Maverick 有顯著進步,但在 Java 語言上的表現被認為是「糟糕」的,這成為拉低整體分數的主要原因 17。程式碼修復能力表現完美,但在遷移、轉譯和編寫測試(尤其是 Java 測試)方面表現不一,Scout 在某些任務上甚至出現退步 17
  • 其他程式碼測試: Reddit 上另一項獨立的 KCORES LLM Arena 程式碼能力測試也顯示了令人失望的結果。測試者發現,Maverick (402B) 的程式碼能力大致與僅有 320 億參數的 Qwen-QwQ-32B 相當,而 Scout 的表現則類似於 Grok-2 或 Ernie 4.5 18。更有用戶評論指出,在他們的測試中,Maverick 在各方面(包括多模態)的表現甚至不如 Google 的 Gemma 3 27B 模型 18
  • 長上下文能力評測: 儘管 Scout 宣稱擁有 1000 萬 token 的上下文視窗,但在由 Fiction.live 設計的、旨在評估複雜長文本理解能力的測試中,Llama 4 的表現遠未達到預期。這些測試要求模型追蹤時間變化、進行邏輯預測並區分讀者和角色知識。結果顯示,Maverick (宣稱 1M 上下文) 在處理 12 萬 token 的文本時,準確率僅為 28.1%,相較 Llama 3.3 70B 沒有任何提升 19。Scout (宣稱 10M 上下文) 的表現更差,被描述為「極其糟糕」,準確率僅為 15.6% 19。這與 Meta 宣傳的超長上下文處理能力形成了鮮明對比。

這種效能上的巨大反差——在 Meta 強調的基準(如 LMArena)上表現優異,但在其他獨立的、尤其側重特定領域(如程式碼)或複雜任務(如長上下文理解)的測試中表現不佳——成為後續爭議的核心導火線。這也引發了對現在 AI 基準測試方法的質疑:標準化測試是否能真實反映模型在複雜現實世界任務中的能力?當模型在某些測試中表現突出,而在另一些測試中明顯不足時,我們該如何評估其真實表現?這凸顯了 AI 評估領域面臨的挑戰,即所謂的「AI 評估危機」20。模型開發者可能更傾向於針對流行的排行榜進行優化,而非追求在更廣泛、更複雜任務上的穩健性提升。

  • Llama 4 關鍵基準測試結果摘要 (官方宣稱 vs. 獨立測試)
基準測試 (Benchmark)模型 (Model)Meta 報告結果/排名 (Reported Result/Rank)獨立測試結果/排名 (Independent Result/Rank)主要競爭對手比較 (Competitor Comparison)
LMArena (ELO Score)Llama 4 Maverick1417 (實驗性版本), 超越 GPT-4o 10公開版本排名較低;應用風格控制後排名從第 2 降至第 5 11實驗性版本接近 Gemini 2.5 Pro,優於 GPT-4o (截至 2025/4 初) 11
DevQualityEval v1.0 (Coding Overall Score)Llama 4 Maverick未列出68.47%, 排名 #41 17遠低於 Qwen 2.5 Coder 32B (81.32%), Mistral 3.1 Small (74.38%), Gemma 3 27B (73.90%) 17
DevQualityEval v1.0 (Coding Overall Score)Llama 4 Scout未列出62.53%, 排名 #56 17低於 Llama 3.1 70B (64.90%) 17
KCORES LLM Arena (Coding)Llama 4 Maverick未列出與 Qwen-QwQ-32B 相當 18被指不如 DeepSeek-V3-0324 18
KCORES LLM Arena (Coding)Llama 4 Scout未列出與 Grok-2 / Ernie 4.5 相當 18被指不如 Gemma 3 27B 18
Fiction.live (Long Context Accuracy @ 120k)Llama 4 Maverick宣稱 1M 上下文能力 428.1% 19無改進 vs Llama 3.3 70B;遠低於 Gemini 2.5 Pro (90.6%) 19
Fiction.live (Long Context Accuracy @ 120k)Llama 4 Scout宣稱 10M 上下文能力 115.6% ("atrocious") 19表現極差 19
MMLU Pro (Reasoning & Knowledge)Llama 4 Maverick80.5 4經方法學修正後分數提升 (Artificial Analysis) 19優於 Llama 3.1 405B (73.4) 4
GPQA Diamond (Reasoning & Knowledge)Llama 4 Maverick69.8 4經方法學修正後分數提升 (Artificial Analysis) 19優於 Llama 3.1 405B (49.0) 4
MATH (STEM Benchmark)Llama 4 Maverick未在 4 表格中列出,但 22 指出其在 MATH 上落後於 DeepSeek V3 和 OpenAI o1未在 4 表格中列出,但 22 指出其在 MATH 上落後於 DeepSeek V3 和 OpenAI o1落後於 DeepSeek V3, OpenAI o1 22
MMMU (Visual Reasoning)Llama 4 Maverick73.4 4優於 Scout (69.4) 4
LiveCodeBench (Coding)Llama 4 Maverick43.4 4aider 測試中得分僅 16% (特定任務) 23優於 Llama 3.1 405B (27.7) 4;但 aider 結果遠低於競爭對手 23

核心爭議:效能差異與數據真實性質疑

LMArena 基準測試問題:「實驗性」模型 vs. 公開模型
爭議

首先爆發在 LMArena 基準測試上。研究人員和社群成員很快發現,Meta 提交給 LMArena 進行評估並取得高分的 Llama 4 Maverick 版本,其名稱為「llama-4-maverick-03-26-experimental」,與公開發布供大眾下載的開放權重模型並不相同 9

Meta 在其 Llama 網站一個圖表的微小註腳中承認,提交給 LMArena 的版本是「為對話性進行了優化」的實驗性聊天版本 1。這一做法引發了廣泛批評。

LMArena 官方隨後發表聲明,指出 Meta 對其政策的解釋與 LMArena 的期望不符,並認為 Meta 應該更清楚地說明提交的是一個為優化人類偏好而「客製化的模型」 11。LMArena 因此更新了其排行榜政策,以確保未來評估的公平性和可重複性,並宣布將把公開的 Hugging Face 版本的 Llama 4 Maverick 加入排行榜進行評估 15

批評者認為,Meta 使用未公開的、可能經過特別調整的版本進行基準測試,破壞了基準測試旨在反映公開模型真實能力的初衷,對開發者和用戶產生了誤導 10。有分析指出,當 LMArena 啟用旨在區分內容品質和呈現風格的「風格控制」功能時,Llama 4 的排名從第二位下降到第五位,進一步暗示該實驗性模型可能針對評分者的偏好(如回應的詳細程度和格式)進行了優化 19

數據污染指控:「內部員工」爆料貼文

在 LMArena 爭議發酵的同時,一則匿名貼文開始在網路上流傳,據稱源自中國的論壇「一畝三分地」,並迅速傳播到 Reddit 和 X (前 Twitter) 12
該貼文的作者自稱是參與 Llama 4 訓練的 Meta 內部員工,並提出了幾項嚴厲指控 23

  1. 內部效能瓶頸: 儘管團隊努力,Llama 4 的內部模型效能始終無法達到開源 SOTA 水準,存在顯著差距。
  2. 領導層建議「刷分」: 為達成指標,公司領導層建議在後訓練(post-training)階段,將各種基準測試的「測試集」數據混入訓練或微調數據中,以獲得「看起來很美」的成績單。
  3. 時間壓力: 這項「刷分」任務有明確的截止日期(四月底),若無法達成目標後果嚴重。
  4. 用戶反饋印證: Llama 4 發布後,社群媒體上出現的糟糕實際測試結果,與其內部效能問題相符。
  5. 辭職抗議: 貼文的人因無法接受這種污染測試數據的做法(認為違背學術倫理),已提交辭職,並要求不將其名字列入技術報告。 12 知名 AI 評論家 Gary Marcus 等人分析了這則爆料,認為在當前 AI 發展面臨規模化回報遞減的背景下,這種說法聽起來似乎有其合理性 14。Marcus 指出,如果指控屬實,Meta 可能為了提升 Llama 4 的表現而在基準測試中作弊,也就是所謂的「數據污染」(contamination)——即模型在訓練階段接觸到了用於後續評估的測試數據,如同學生提前拿到了考試答案 14然而,必須強調的是, 針對這則匿名爆料貼文的真實性,後續出現了反證。科技媒體 Analytics India Magazine (AIM) 報導稱,其聯繫 Meta 內部消息來源後確認,貼文中提到的員工並未離職,因此該匿名貼文被認為是「假的」 15

爭議發酵的原因:多重因素疊加

儘管數據污染的核心指控缺乏實證且來源真實性遭到駁斥,但 Llama 4 的爭議為何仍然迅速發酵並引發廣泛關注?這並非單一事件造成,而是多重因素疊加的結果:

首先,Meta 已承認在 LMArena 基準測試中使用了未公開的「實驗性」模型。這個確鑿的透明度缺口,為後續更嚴重的(儘管未經證實的)數據污染指控提供了滋生的土壤。當一個領先的 AI 公司在重要的公開基準測試中採用了與公開版本不同的模型時,社群自然會產生懷疑,使得其他關於操縱或作弊的傳言更容易被接受 12

其次,來自獨立測試者和用戶社群的關於 Llama 4 實際效能不佳的報告(如前述的程式碼和長上下文測試結果)17,似乎印證了匿名貼文中提到的「實際測試效果非常糟糕」的說法 23。無論匿名貼文的真偽如何,這些獨立的負面評測結果客觀存在,加劇了人們對 Llama 4 真實能力的質疑。

再者,一些外部背景資訊也為爭議增添了想像空間。例如,有報導稱 Meta 推遲了 Llama 4 的發布至少兩次,原因是模型在推理和數學等技術基準上表現未達預期 9。同時,Meta 也面臨來自 DeepSeek 等競爭對手即將發布新模型的壓力 15。這些資訊使得匿名貼文中關於內部效能壓力和達成指標的緊迫性的說法,顯得不那麼空穴來風 23

因此,Llama 4 的爭議是一個典型案例,說明在高度競爭和技術快速迭代的 AI 領域,即使是看似微小的溝通模糊或基準測試操作上的不透明,一旦疊加上可驗證的效能落差,就可能迅速演變成由猜測和質疑驅動的重大公關危機。這凸顯了在 AI 競賽中,極致的透明度和可驗證的效能是維持信任的關鍵。

訓練數據的擔憂:偏見、來源與透明度

數據構成與規模

Meta 披露 Llama 4 的預訓練數據規模超過 30 兆個 token,是 Llama 3 的兩倍以上,包含了多樣化的文本、圖像和影片數據集 1。模型預訓練涵蓋了 200 種語言,其中超過 100 種語言的數據量超過 10 億 token,多語言數據量是 Llama 3 的 10 倍 1。雖然 Meta 並未詳細公佈 Llama 4 的完整數據來源,但根據其對 Llama 家族的描述以及維基百科條目,訓練數據除了包含公開可用的數據(如 Common Crawl、維基百科、書籍、程式碼等)外,還首次明確加入了 Meta 的專有數據,例如公開分享的 Instagram 和 Facebook 貼文以及用戶與 Meta AI 的互動記錄 16。數據截止日期為 2024 年 8 月 16。

應對政治偏見:主動姿態?

在 Llama 4 的發布公告中,Meta 特別強調了其在解決大型語言模型普遍存在的「偏見問題」方面所做的努力,特別是針對歷史上模型在涉及有爭議的政治和社會話題時傾向於「左傾」的問題 9。Meta 聲稱,他們致力於讓 Llama 4 更加平衡,能夠回應多種不同觀點而不過度評判,不偏袒某些觀點 28

Meta 提出了一些指標來支持這一說法:Llama 4 在處理有爭議話題時的拒絕回答率比 Llama 3.3 低 5% 以上,且其拒絕回答時的措辭「顯著更加平衡」9。此外,Meta 聲稱 Llama 4 在處理敏感政治或社會議題時,表現出「強烈政治傾向」的比率與馬斯克旗下 xAI 的 Grok 模型相當,並且是 Llama 3.3 的一半 9

然而,有外部評論將 Meta 這一轉變與其 CEO 馬克·祖克柏在政治立場上向右轉的姿態聯繫起來 7。更重要的是,儘管 Meta 主動宣傳其在減少特定政治偏見方面的努力,並將其視為模型中立性的提升,但這並未能完全打消更深層次的擔憂。AI 研究普遍認為,偏見的根源在於訓練數據本身 9。僅僅透過後訓練調整來平衡對特定政治觀點的回應,可能只是一種策略性的表面處理,而未能解決構成 30 兆 token 數據集來源的廣泛性、代表性和潛在偏見問題 24。真正的偏見緩解需要更深入的數據來源透明度、仔細的數據策劃以及對數據集中潛在的意識形態、文體或文化偏見的系統性處理 24。因此,Meta 對政治偏見的關注,雖然可能旨在吸引特定用戶群體或回應批評,但並未充分應對大型、來源不透明的訓練數據所固有的、更根本的偏見挑戰。

更廣泛的擔憂:版權、透明度與倫理

除了偏見問題,Llama 4 的訓練數據還面臨其他方面的質疑。Meta 此前就因在 Llama 早期版本的訓練數據中使用受版權保護的材料而面臨法律訴訟 28。考慮到 Meta並未詳細公開 Llama 4 的數據構成,版權問題依然是潛在的風險點 28

學術界和監管機構越來越關注 AI 訓練數據的來源(provenance)、真實性、用戶同意和整體透明度 20。數據收集和使用的不透明做法,被認為是阻礙開發合乎倫理、值得信賴的 AI 系統的關鍵挑戰,形成了所謂的「數據透明度危機」30。建立通用的數據來源標準被視為促進負責任 AI 開發的必要基礎設施 30

現實世界的監管壓力已經對 Meta 產生影響。例如,由於歐盟 AI 法案等法規對數據使用的嚴格要求,Meta 限制了 Llama 4 視覺功能在歐盟地區的使用 9。這表明數據治理政策正實質性地影響 AI 模型的部署和功能。

此外,關於 Llama 是否真正「開源」的討論仍在繼續。儘管 Meta 將其模型稱為「開放權重」,但其許可證條款包含對大規模商業使用(月活躍用戶超過 7 億)的限制、強制性的品牌標識要求以及對某些用例的禁止,這些都引發了社群對其開放性的質疑。

Meta 的回應與危機管理

官方否認與解釋

面對洶湧的爭議,Meta 的主要回應來自其生成式 AI 副總裁 Ahmad Al-Dahle 8

Al-Dahle 在 X/Twitter 等平台上多次發文,明確否認了最核心的指控,即在測試集上訓練模型:「我們也聽到了關於我們在測試集上進行訓練的說法——這根本不是真的,我們永遠不會那樣做」 8

對於用戶和獨立測試者觀察到的 Llama 4 效能不穩定(「好壞參半的品質」)的問題,Al-Dahle 將其歸因於技術實施層面的問題。他解釋說,由於模型一準備好就立即發布了,不同的公開部署平台(如雲端服務商)需要時間來進行調整和穩定化("stabilize implementations", "get dialed in"),因此出現效能差異是預料之中的,Meta 正在努力修復這些問題 8

Meta 整體上堅持其發布的基準測試結果的有效性,同時也承認在 LMArena 上使用了「實驗性聊天版本」。

針對具體批評的回應

除了直接否認核心指控和解釋效能波動外,Meta 的官方部落格文章也試圖透過詳細介紹其訓練技術(如 MetaP)和後訓練流程(輕量級 SFT、線上 RL、輕量級 DPO 等)來展示其開發過程的嚴謹性,間接支持其效能聲明。

此外,如前所述,Meta 透過消息來源向媒體(AIM)確認,引發數據污染指控的匿名員工貼文是虛假的 15

公共關係與溝通策略分析

Meta 的危機溝通主要透過其高管在社群媒體(X/Twitter)上的直接回應,以及接受特定科技媒體(如 TechCrunch)的採訪來進行 10。這種策略旨在快速、直接地反駁關鍵指控。

然而,從後續的輿論反應來看,Meta 的回應並未能完全平息爭議 12。雖然對數據污染指控的直接否認,以及後續對匿名貼文來源的證偽 15,在一定程度上澄清了最嚴重的道德指控,但未能解決另外兩個關鍵問題:一是 Meta 確實使用了與公開版本不同的模型進行基準測試;二是獨立評測顯示公開模型在某些方面確實存在效能落差。

這種情況揭示了在處理複雜技術爭議時,僅僅依賴直接否認策略的局限性。當爭議涉及多個相互關聯的因素(基準測試版本、污染傳聞、實際效能差距),且技術細節對外部觀察者而言難以完全驗證時,簡單的否認可能不足以重建信任 20。由於關於基準測試版本和實際效能差距的根本問題並未得到完全透明的解釋和解決,懷疑和不信任感依然存在。這表明,在 AI 這樣高度技術化且快速發展的領域,更有效的危機溝通可能需要超越簡單否認,採取更主動的透明度措施,例如發布更詳細的可驗證數據、接受獨立的第三方評估等。

Llama 4 爭議事件時間線 (2025 年 4 月)

4 月 5 日:

  • Meta 透過官方部落格發布 Llama 4 Scout、Maverick 和 Behemoth 1
  • Scout 和 Maverick 開放下載 1
  • AWS、Cloudflare 等合作夥伴宣布提供 Llama 4 模型 2
  • 初期媒體報導聚焦 MoE、多模態、長上下文等技術亮點 7

4 月 6-7 日:

  • Llama 4 Maverick 在 LMArena 排行榜上迅速攀升,Meta 強調其優異表現 10
  • 獨立測試和社群討論開始出現,部分結果顯示效能好壞參半 17
  • 匿名貼文在中國論壇(「一畝三分地」)出現,指控 Meta 操縱基準測試和數據污染,隨後在 Reddit/X 傳播 12
  • TechCrunch 發文質疑 Llama 4 效能測試的呈現方式 25

4 月 7-8 日:

  • Meta 副總裁 Ahmad Al-Dahle 在 X 發文,否認在測試集上訓練(「根本不是真的」),並將效能差異歸因於實施穩定性問題 8
  • Meta 高管在 TechCrunch 採訪中否認誇大分數 33
  • LMArena 發表聲明,指出 Meta 使用「實驗性」模型提交測試,其對政策的解釋不符合預期,宣布更新政策並將添加公開模型進行評估 11
  • Analytics India Magazine (AIM) 報導引用 Meta 消息來源稱匿名爆料貼文為「假的」 15
  • 更多批評性分析和基準測試報告發布(如 ZDNet、The Register、Fiction.live 等)14

4 月 9 日及之後:

  • 科技媒體和線上論壇持續討論 Llama 4 爭議、Meta 的回應以及模型的實際能力與宣傳之間的差距 8
  • 討論焦點逐漸轉向事件對 AI 基準測試實踐和 Meta 策略的影響。
  • 預定於 4 月 29 日舉行的 LlamaCon 活動被提及,可能成為 Meta 提供更多細節的場合 4

分析:權衡證據與影響

評估各方說法與證據

  • 數據污染指控: 核心證據來自匿名貼文,但該貼文的來源真實性已被 Meta 消息來源否認 15。Meta 官方也堅決否認 10。結論是,目前缺乏直接、可信的證據證明 Meta 存在數據污染行為。
  • 基準測試版本問題: Meta 承認在 LMArena 上使用了「實驗性」版本 1。LMArena 的聲明和政策更新也證實了這一點 15。結論是,使用不同版本進行基準測試的事實是確鑿的,但其背後的意圖(是為了優化對話體驗以符合 LMArena 的評估方式,還是故意誤導)仍存在解釋空間。
  • 效能表現差異: Meta 公布的官方基準測試結果 1 與多項獨立測試(尤其在程式碼和長上下文任務上)報告的較差表現 17 形成了明顯對比。結論是,Llama 4 的實際效能表現似乎比 Meta 最初宣稱的更為複雜和不均衡,在某些特定領域存在明顯短板。

對 Meta 及 AI 生態系的影響

  • 對 Meta 的影響: 此次爭議無疑損害了 Meta 的聲譽,尤其是在其積極爭取的開源/開放權重 AI 社群中的信譽和開發者信任度 12。儘管 Llama 4 在技術上可能仍有其價值,但圍繞其發布的疑雲可能影響其初期的採納速度。
  • 對 AI 基準測試的影響: Llama 4 事件,特別是 LMArena 的插曲,再次凸顯了當前 AI 基準測試方法的脆弱性和潛在的可操縱性 11。它加劇了對「AI 評估危機」的擔憂,即基準分數與模型真實世界能力之間的脫節 20。這一事件可能成為一個催化劑,推動業界和學術界加速開發更穩健、透明、可重複且更貼近實際應用的評估方法和標準 20。LMArena 的政策更新就是一個直接的反應 15
  • 競爭格局影響: 爭議可能為 Meta 的競爭對手(如 DeepSeek、Mistral、Google、OpenAI 等)提供了一個機會窗口,尤其是在那些 Llama 4 表現不佳的領域(如程式碼生成)15

未來展望:Meta 的下一步行動

回顧 Meta 處理過往爭議的歷史(如假訊息傳播、內容審核偏見等),其模式通常是先進行辯護或淡化處理,然後在持續的公眾或監管壓力下進行調整 43。該公司在公共關係和溝通策略方面投入巨大,並且越來越多地利用 AI 技術本身來輔助這些工作 45。面對 Llama 4 的爭議,Meta 未來可能採取以下多方面的策略:

技術層面

  • 效能提升與穩定: 持續投入資源「穩定實施」("stabilize implementations"),解決不同平台上的效能差異問題。可能會發布 Llama 4 的更新版本,或提供更詳細的技術報告來解釋或彌補已發現的效能短板(特別是長上下文和程式碼能力)。
  • 基準測試透明度: 在未來的模型發布和基準測試中,可能會更加謹慎,確保用於公開評估的版本與提供給大眾的版本一致,並可能尋求更可驗證、可重複的基準測試方法。
  • Behemoth 的發布: Llama 4 Behemoth 的最終發布將是一個關鍵節點。Meta 需要謹慎地呈現其效能,並可能需要提供更強有力的證據來支持其聲明,以避免重蹈覆轍。

溝通層面

  • 重建信任: 加倍強調 Llama 的「開放權重」理念,透過 LlamaCon 等活動加強與開發者社群的互動 4,試圖修復受損的信任。
  • 謹慎宣傳: 在未經廣泛外部驗證之前,可能會避免過於激進的基準測試排名宣傳。可能發布更深入的技術文檔或部落格文章,以提高透明度。

戰略層面

  • 堅持開放路線: Llama 對於 Meta 在 AI 領域的整體戰略至關重要,是其對抗封閉模型生態(如 OpenAI)的關鍵武器 1。因此,Meta 不太可能放棄 Llama 項目。
  • 持續投入: 將繼續投資於 MoE 架構的效率優勢、多模態能力和上下文視窗等核心技術方向。
  • 靈活調整: 可能會根據社群反饋和不斷變化的監管環境(如歐盟 AI 法案)調整其許可證條款或使用限制 24

Meta 目前面臨的挑戰是在推進 Llama 作為一個有競爭力的開放權重選項的戰略需求,與修復此次爭議造成的聲譽損害的迫切需要之間取得平衡。未來的行動很可能會圍繞著技術改進、效能驗證、更透明的溝通以及持續強調「開放」價值觀來展開,以期重新贏得開發者和市場的信任。

結論

Meta Llama 4 的發布標誌著其在大型語言模型領域的又一次雄心勃勃的邁進,引入了混合專家(MoE)架構、原生多模態能力和超長上下文視窗等引人注目的技術。然而,這次發布很快就被一系列爭議所籠罩,核心問題集中在基準測試結果的呈現方式、模型實際效能與官方宣稱之間的差距,以及關於訓練數據真實性的嚴重但未經證實的指控。

爭議的爆發點源於 Meta 在 LMArena 基準測試中使用了未公開的「實驗性」模型版本,加之隨後流傳的數據污染匿名爆料(儘管後者被 Meta 消息來源證偽),以及獨立測試揭示的 Llama 4 在程式碼生成和長上下文理解等關鍵任務上的效能短板。這些因素共同作用,引發了對 Llama 4 真實能力和 Meta 透明度的廣泛質疑。

Meta 的回應主要是否認了數據污染指控,並將效能不穩定歸咎於技術部署的早期階段。然而,這種解釋並未能完全打消社群的疑慮,因為基準測試版本不一致和實際效能差距的問題依然存在。

從更廣泛的視角來看,Llama 4 爭議事件不僅對 Meta 的聲譽造成了影響,更凸顯了當前 AI 領域面臨的關鍵挑戰:如何客觀、可靠地評估日益強大的 AI 模型?如何確保訓練數據的來源透明、合規且不帶偏見?在激烈的技術競賽壓力下,如何平衡快速迭代與嚴謹驗證?

儘管最嚴重的數據污染指控缺乏實證支持,但此次風波無疑對 Llama 4 的市場認知產生了負面影響。它提醒所有 AI 開發者,在追求效能突破的同時,透明度、可驗證性和負責任的溝通至關重要。未來,行業的焦點將集中在 Meta 如何透過技術改進、更嚴謹的驗證和更開放的溝通來穩定 Llama 4 的效能、重建開發者信任,並最終證明其新一代模型的真實價值。同時,這次事件也可能成為推動整個 AI 行業走向更成熟、更可靠的評估標準和實踐的重要契機。

Works cited

  1. The Llama 4 herd: The beginning of a new era of natively … – Meta AI, https://ai.meta.com/blog/llama-4-multimodal-intelligence/
  2. Meta's Llama 4 models now available on Amazon Web Services, https://www.aboutamazon.com/news/aws/aws-meta-llama-4-models-available
  3. Meta's Llama 4 is now available on Workers AI – The Cloudflare Blog, https://blog.cloudflare.com/meta-llama-4-is-now-available-on-workers-ai/
  4. Meta Just Unveiled Llama 4 Multimodal AI | Proje Defteri, https://projedefteri.com/en/blog/llama4-multimodal-ai/
  5. Meta AI Releases Llama 4: Early Impressions and Community Feedback – InfoQ, https://www.infoq.com/news/2025/04/meta-ai-llama-4/
  6. Meta's Llama 4: Features, Access, How It Works, and More – DataCamp, https://www.datacamp.com/blog/llama-4
  7. From a political shift to a more powerful AI: Everything to know about Meta's Llama 4 models, https://ca.news.yahoo.com/political-shift-more-powerful-ai-084205644.html
  8. Meta executive denies hyping up Llama 4 benchmark scores – but what can users expect from the new models? – https://www.itpro.com/technology/artificial-intelligence/meta-llama-4-model-launch-benchmarks
  9. Meta Unveils Llama 4 AI Series Featuring New Expert-Based Architecture – TechRepublic, https://www.techrepublic.com/article/news-meta-llama-4-models/
  10. Meta's New Llama 4 Models Stir Controversy – BankInfoSecurity, https://www.bankinfosecurity.com/metas-new-llama-4-models-stir-controversy-a-27949
  11. Meta Llama 4 Benchmarking Confusion: How Good Are the New AI …, https://www.cnet.com/tech/services-and-software/meta-dropped-llama-4-what-to-know-about-the-two-new-ai-models/
  12. Llama 4 Scandal: Meta's release of Llama 4 overshadowed by cheating allegations on AI benchmark – Tech Startups, https://techstartups.com/2025/04/08/llama-4-scandal-metas-release-of-llama-4-overshadowed-by-cheating-allegations-on-ai-benchmark/
  13. Llama 4 Scout, Maverick, Behemoth: Capabilities, Access, and How to Use – Writingmate.ai, https://writingmate.ai/blog/llama-4-access-capabilities
  14. Meta's Llama 4 'herd' controversy and AI contamination, explained …, https://www.zdnet.com/article/metas-llama-4-herd-controversy-and-ai-contamination-explained/
  15. Meta Denies Any Wrongdoing in Llama 4 Benchmarks, https://analyticsindiamag.com/ai-news-updates/meta-denies-any-wrongdoing-in-llama-4-benchmarks/
  16. Llama (language model) – Wikipedia, https://en.wikipedia.org/wiki/Llama_(language_model)
  17. Benchmark results for Llama 4 Maverick and Scout for … – Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1jv9xxo/benchmark_results_for_llama_4_maverick_and_scout/
  18. I'm incredibly disappointed with Llama-4 : r/LocalLLaMA – Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1jsl37d/im_incredibly_disappointed_with_llama4/
  19. Meta's Llama 4 models show promise on standard tests, but struggle …, https://the-decoder.com/metas-llama-4-models-show-promise-on-standard-tests-but-struggle-with-long-context-tasks/
  20. Meta denies manipulation of AI benchmark with Llama 4 models – Tech in Asia, https://www.techinasia.com/news/meta-denies-manipulation-ai-benchmark-llama-4-models
  21. Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence – arXiv, https://arxiv.org/pdf/2402.09880
  22. Meta Drops Llama 4: Why Is It Such a Disappointing Release? | by Ashley | Towards AGI | Apr, 2025 | Medium, https://medium.com/towards-agi/why-metas-llama-4-release-disappoints-6acd23ac42b4
  23. 大瓜来了!Llama 4陷刷榜争议:"内部员工"发帖控诉,测评版本被指 …, https://wallstreetcn.com/articles/3744743
  24. Llama 4: What You Need to Know – Gradient Flow, https://gradientflow.com/llama-4-what-you-need-to-know/
  25. 科技风向标丨Meta回应大模型Llama 4训练作弊争议;分析称苹果或要求供应商降价 – 东方财富,, https://wap.eastmoney.com/a/202504083368815886.html
  26. "Serious issues in Llama 4 training. I Have Submitted My Resignation to GenAI" : r/LocalLLaMA – Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1jt8yug/serious_issues_in_llama_4_training_i_have/
  27. Meta in Panic Mode – Llama 4 Disaster – Why It Flopped Spectacularly! – YouTube, https://www.youtube.com/watch?v=BAhX7N7LbZU
  28. Meta debuts its first 'mixture of experts' models from the Llama 4 herd – The Register, https://www.theregister.com/2025/04/07/llama_4_debuts/
  29. Phi-4 Technical Report – arXiv, https://arxiv.org/html/2412.08905v1
  30. Data Authenticity, Consent, & Provenance for AI are all broken:what will it take to fix them? – arXiv, https://arxiv.org/pdf/2404.12691
  31. Data Authenticity, Consent, & Provenance for AI are all broken: what will it take to fix them?, https://arxiv.org/html/2404.12691v1
  32. Data Authenticity, Consent, and Provenance for AI Are All Broken: What Will It Take to Fix Them?, https://mit-genai.pubpub.org/pub/uk7op8zs
  33. Meta Exec Denies Allegations of Manipulated LLaMA 4 Scores | AI News – OpenTools.ai, https://opentools.ai/news/meta-exec-denies-allegations-of-manipulated-llama-4-scores
  34. Meta exec denies company boosted Llama 4's benchmark scores, TechCrunch says, https://markets.businessinsider.com/news/stocks/meta-exec-denies-company-boosted-llama-4-s-benchmark-scores-techcrunch-says-1034560767
  35. Meta's Transparency in AI Development: Addressing the Llama 4 Benchmark Controversy, https://ubos.tech/news/metas-transparency-in-ai-development-addressing-the-llama-4-benchmark-controversy/
  36. Trade Meta (Formerly Facebook) CFD – Live Chart – Markets.com, https://www.markets.com/instrument/facebook/
  37. Two months later and after LLaMA 4's release, I'm starting to believe that supposed employee leak… Hopefully LLaMA 4's reasoning is good, because things aren't looking good for Meta. : r/LocalLLaMA – Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1jspbqk/two_months_later_and_after_llama_4s_release_im/
  38. Meta accused of Llama 4 bait-and-switch to juice AI benchmark rank – The Register, https://www.theregister.com/2025/04/08/meta_llama4_cheating/
  39. Progress WhatsUp Gold Enterprise Plus 2024 review | IT Pro – ITPro, https://www.itpro.com/infrastructure/networking/progress-whatsup-gold-enterprise-plus-2024-review-progress-paints-a-big-network-picture
  40. CierraTEC About, https://ondemand.cierratec.net/about
  41. For you – Google News, http://www.google.com/news/directory?pz=1&cf=all&ned=in&hl=en&sort=newest&author=08673057929256956231&csep=false&csed=in
  42. Automatically Evaluating the Paper Reviewing Capability of Large Language Models – arXiv, https://arxiv.org/html/2502.17086v1
  43. Combatting disinformation with crisis communication: An analysis of Meta's newsroom stories – Lirias, https://lirias.kuleuven.be/retrieve/723740
  44. Oversight Board Urges Meta To Rethink Its Policy on Manipulated Media, https://firstamendmentwatch.org/oversight-board-urges-meta-to-rethink-its-policy-on-manipulated-media-in-high-stakes-election-year/
  45. A Systematic Literature Review of Artificial Intelligence and Public Relations, https://lonsuit.unismuhluwuk.ac.id/societo/article/view/3889/1717
  46. (PDF) The Meta Analysis in Public Relations Theory in the Era 1.0, 2.0, 3.0, 4.0, and Artificial Intelligence – ResearchGate, https://www.researchgate.net/publication/387103707_The_Meta_Analysis_in_Public_Relations_Theory_in_the_Era_10_20_30_40_and_Artificial_Intelligence
  47. The Meta Analysis in Public Relations Theory in the Era 1.0, 2.0, 3.0, 4.0, and Artificial Intelligence – Journal UMY, https://journal.umy.ac.id/index.php/jkm/article/view/24396/9633
  48. The Impact of AI on Public Relations in the Metaverse – VR Voice, https://vrvoice.co/the-impact-of-ai-on-public-relations-in-the-metaverse/
  49. (PDF) Artificial Intelligence Disruption in Public Relations: A Blessing or A Challenge?, https://www.researchgate.net/publication/356872853_Artificial_Intelligence_Disruption_in_Public_Relations_A_Blessing_or_A_Challenge
  50. Artificial Intelligence in Public Relations and Communications: cases, reflections and predictions – Quadriga Hochschule Berlin, https://www.quadriga-hochschule.com/app/uploads/2023/09/QHS_Artificial_Intelligence_in_Public_Relations__Communications_2023.pdf