AI 產業趨勢

Google 發布最新 AI 模型 Gemini 2.0, 助力 AI Agent 應用邁向新時代

Home » AI 產業趨勢 » Google 發布最新 AI 模型 Gemini 2.0, 助力 AI Agent 應用邁向新時代

Google 於近期發表 Gemini 2.0,一款朝向「AI Agent 」智慧型代理願景所打造的多模態語言模型,目前已開放 Gemini 2.0 Flash 實驗版使用,同時也公布 3 款研發中的 AI Agent,從個人化 AI 助理到 Coding AI 助手。本文將介紹 Gemini 2.0 Flash 重點特色、Gemini 2.0 與 Gemini 1.5 效能比較,以及 3 款新研發的 AI Agent 應用簡介

新一代 AI 模型 Gemini 2.0 有哪些重點特色?

Gemini 2.0 Flash 是 Google 新推出的 AI 模型,建立在 Gemini 1.5 Flash 的成功基礎上,開發人員目前可透過 Google AI Studio 和 Vertex AI 中的 Gemini API 測試和探索 Gemini 2.0 Flash ,並在 2025 年初全面上市。下方為 Gemini 2.0 Flash 5 大重點特色

多模態能力提升

Gemini 2.0 在多模態理解方面取得了重大進展,不僅能理解文字,還能理解圖像、影片和音訊,並能以多種方式輸出訊息,例如生成圖像、產生語音,甚至混合使用文字和圖像來呈現結果。Gemini 2.0 Flash 具備原生文字轉語音輸出功能,還可選擇 8 種高品質語音以及不同語言和口音。

✦延伸閱讀:Gemma 3:Google 最新輕量級 AI 模型,挑戰 Llama 3、DeepSeek-V3

使用 Google 原生工具

Gemini 2.0 經過訓練,可以使用各種 Google 原生工具,包括 Google 搜尋、程式碼執行,以及用函數呼叫自訂的第三方工具。這種能力使它能夠更有效地完成任務,例如透過 Google 搜尋獲取訊息、執行程式碼解決問題,甚至使用其他工具來擴展其功能。

✦延伸閱讀:Google Gemini CLI 深度解析:瞄準開發者終端 (terminal) 的 AI Agent 生態戰爭

推理能力強化

Gemini 2.0 擁有增強的推理能力,能夠理解更複雜的指令、進行多步驟思考,並根據上下文做出更準確的判斷。

✦延伸閱讀:AI 新里程碑:機器可以像人類一樣學會演算法了

降低延遲、提高效率

Gemini 2.0 Flash 版本在效能方面有顯著提升,比 1.5 Pro 版本快兩倍,同時在關鍵基準測試中表現更出色。

新增的 AI Agent 體驗

Gemini 2.0 的新功能和改進,使其能夠實現更具代理性的體驗,例如 Project Astra(通用 AI Agent)、Project Mariner(瀏覽器 Agent)和 Jules(AI 程式碼 Agent)。

✦延伸閱讀:AI Agent 是什麼?與 AI 助理、Chatbot 差異比較和應用場景解析

Gemini 2.0 與 Gemini 1.5 差異為何?

從 Gemini 1.0 到 Gemini 1.5,Google 在多模態模型和長上下文理解開發投入許多資源,Google 執行長 Sundar Pichai 提到,這點從 NotebookLM 受到大家歡迎便可發現。近期推出的 Gemini 2.0 Flash 將深化多模態模型開發,以解決更複雜的主題和多步驟問題,包括高級數學方程式、多模式查詢和 coding。下表為Gemini 2.0 與 Gemini 1.5 在不同應用領域的比較表

Gemini 2.0 與 Gemini 1.5 比較表

功能基準測試描述Gemini 1.5
Flash
002
Gemini 1.5
Pro
002
Gemini 2.0
Flash
Experimental
通用能力MMLU-Pro流行的 MMLU 數據集的增強版本,包含多學科高難度任務的問題67.3%75.8%76.4%
程式碼Natural2Code涵蓋 Python、Java、C++、JS、Go 的程式碼生成,使用 HumanEval-like 的測試數據集79.8%85.4%92.9%
程式碼Bird-SQL (Dev)評估將自然語言問題轉換為可執行 SQL 的基準測試45.6%54.4%56.9%
程式碼LiveCodeBench (Code Generation)Python 程式碼生成,包含 2024 年 6 月到 10 月的近期測試案例30.0%34.3%35.1%
真實性FACTS Grounding能基於文件和用戶請求提供準確的事實性回應82.9%80.0%83.6%
數學MATH解決代數、幾何、預備微積分等挑戰性數學問題77.9%86.5%89.7%
數學HiddenMath比賽級別數學問題,由專家設計,包含類似 AIME/AMC 的數據集47.2%52.0%63.0%
推理GPQA (diamond)由生物、物理和化學領域專家撰寫的挑戰性問題數據集51.0%59.1%62.1%
長上下文MRCR (1M)新型、診斷類型的長上下文理解測試71.9%82.6%69.2%
圖像MMMU多學科大學級別的多模態理解和推理問題62.3%65.9%70.7%
圖像Vibe-Eval (Reka)在聊天模型中理解日常挑戰性範例,使用 Gemini Flash 模型進行評估48.9%53.9%56.3%
音訊CoVoST2 (21 lang)自動語音翻譯 (BLEU 分數)。37.440.139.2
影片EgoSchema (test)跨多個領域的影片分析。66.8%71.2%71.5%

Google 以 Gemini 2.0 為基礎開發 3 款 AI Agent

Gemini 2.0 是 Google 為「AI Agent 」時代所建構的新一代模型,意味著它能夠更好地理解周圍世界,預測多個步驟,並在使用者的監督與同意下才會採取行動。目前 Google 也透過 Gemini 2.0 開發三款正在研發中的 AI Agent

1. Project Astra

Project Astra 是 Google 正在開發的一款通用 AI Agent 的研究原型, 目標是讓 AI代理在現實世界中更實用,並希望將其功能整合到 Gemini 應用程式以及 Google 眼鏡等其他設備中。

Project Astra 主要特點

  • 對話能力提升: 可以使用多種語言和混合語言進行對話,並且能夠更好地理解口音和罕見的單詞。
  • 新工具使用: 可以使用 Google 搜尋、鏡頭和地圖,使其在日常生活中更有用。
  • 記憶力提升: 具有長達 10 分鐘的對話記憶,並且可以記住更多過去的對話,提供更個人化的體驗。
  • 降低延遲: 採用新的串流功能和原生音訊理解功能,使 AI Agent 能夠以接近人類對話的速度來理解語言。

2. Project Mariner

Project Mariner 也是 Google 正在研發的一個早期研究原型,它利用 Gemini 2.0 的能力探索人類與 AI Agent 互動的未來,並從瀏覽器開始。

Project Mariner 主要特點

  • 理解和推理瀏覽器資訊: Project Mariner 能夠理解和推理瀏覽器螢幕上的資訊,包括像素和網頁元素,如文字、程式碼、圖像和表單。
  • 執行瀏覽器任務: 透過一個實驗性的 Chrome 擴充功能,利用網頁中的文字、程式碼資訊來完成任務。
  • 在 WebVoyager 基準測試中取得領先成績: 在 WebVoyager 基準測試中,Project Mariner 作為單一代理設定取得了 83.5% 的最新成果。

3. Jules

Jules 是一個實驗性的程式開發 AI Agent,它直接整合到 GitHub 工作流程中,並在開發人員的指導和監督下,協助處理程式碼開發問題、制定計劃並執行計劃。

Jules 主要特點

  • 提升生產力: 開發人員可以將問題和 coding 任務分配給 Jules,以非同步方式提高寫程式效率。
  • 進度追蹤: 開發人員可以透過即時更新隨時掌握進度,並優先處理需要關注的任務。
  • 完全的開發者控制: 開發人員可以審查 Jules 制定的計劃,並在適當的情況下提供反饋或請求調整。 開發者也可以輕鬆審查並將 Jules 編寫的程式碼合併到他們的專案中。

更多關於 Jules:The next chapter of the Gemini era for developers

提升 AI 模型安全性,Gemini 2.0 建構負責任的 AI Agent

在 Gemini 2.0 開發上,Google 強調安全性和責任是 AI 發展的基石,採取探索性和漸進的開發方法,透過多個原型進行研究、風險評估和安全訓練,並與可信任的測試者及外部專家合作。同時,為因應 Gemini 2.0 的多模態功能,Google 也強化了圖像與音訊輸入、輸出的安全訓練。

此外,Google 在 Project Astra 中內建隱私控制功能,幫助用戶防止敏感資訊的意外洩露;同時,在 Project Mariner 上,致力於防範第三方提示注入和惡意指令濫用,降低詐騙與網路釣魚的風險。Google 亦不斷探索如何確保 AI 模型提供可靠的資訊來源,避免代理執行非預期的行動。

✦延伸閱讀:讓 AI Agent 彼此溝通:Google A2A 和 Anthropic MCP 深度解析

未來展望與結論

Gemini 2.0 的增強多模態功能、AI Agent 能力及新 API 開創了更強大、互動性更高的應用程式開發可能性。Project Mariner 有望革新網路瀏覽體驗,讓互動更高效、便捷且個性化;而 Project Astra 則專注於開發更實用且個人化的 AI 助理,並計畫整合至各類設備中。 Google 也透過 Jules 和 Colab 的 AI 程式碼 Agent,協助開發者提升 coding 效率。同時,Gemini 2.0 與其相關的研究原型,為通用人工智慧 (AGI) 的發展揭開新篇章,Google 將在安全前提下持續探索這些可能性。