
Google 於近期發表 Gemini 2.0,一款朝向「AI Agent 」智慧型代理願景所打造的多模態語言模型,目前已開放 Gemini 2.0 Flash 實驗版使用,同時也公布 3 款研發中的 AI Agent,從個人化 AI 助理到 Coding AI 助手。本文將介紹 Gemini 2.0 Flash 重點特色、Gemini 2.0 與 Gemini 1.5 效能比較,以及 3 款新研發的 AI Agent 應用簡介
新一代 AI 模型 Gemini 2.0 有哪些重點特色?
Gemini 2.0 Flash 是 Google 新推出的 AI 模型,建立在 Gemini 1.5 Flash 的成功基礎上,開發人員目前可透過 Google AI Studio 和 Vertex AI 中的 Gemini API 測試和探索 Gemini 2.0 Flash ,並在 2025 年初全面上市。下方為 Gemini 2.0 Flash 5 大重點特色
多模態能力提升
Gemini 2.0 在多模態理解方面取得了重大進展,不僅能理解文字,還能理解圖像、影片和音訊,並能以多種方式輸出訊息,例如生成圖像、產生語音,甚至混合使用文字和圖像來呈現結果。Gemini 2.0 Flash 具備原生文字轉語音輸出功能,還可選擇 8 種高品質語音以及不同語言和口音。
✦延伸閱讀:Gemma 3:Google 最新輕量級 AI 模型,挑戰 Llama 3、DeepSeek-V3
使用 Google 原生工具
Gemini 2.0 經過訓練,可以使用各種 Google 原生工具,包括 Google 搜尋、程式碼執行,以及用函數呼叫自訂的第三方工具。這種能力使它能夠更有效地完成任務,例如透過 Google 搜尋獲取訊息、執行程式碼解決問題,甚至使用其他工具來擴展其功能。
✦延伸閱讀:Google Gemini CLI 深度解析:瞄準開發者終端 (terminal) 的 AI Agent 生態戰爭
推理能力強化
Gemini 2.0 擁有增強的推理能力,能夠理解更複雜的指令、進行多步驟思考,並根據上下文做出更準確的判斷。
✦延伸閱讀:AI 新里程碑:機器可以像人類一樣學會演算法了
降低延遲、提高效率
Gemini 2.0 Flash 版本在效能方面有顯著提升,比 1.5 Pro 版本快兩倍,同時在關鍵基準測試中表現更出色。
新增的 AI Agent 體驗
Gemini 2.0 的新功能和改進,使其能夠實現更具代理性的體驗,例如 Project Astra(通用 AI Agent)、Project Mariner(瀏覽器 Agent)和 Jules(AI 程式碼 Agent)。
✦延伸閱讀:AI Agent 是什麼?與 AI 助理、Chatbot 差異比較和應用場景解析
Gemini 2.0 與 Gemini 1.5 差異為何?
從 Gemini 1.0 到 Gemini 1.5,Google 在多模態模型和長上下文理解開發投入許多資源,Google 執行長 Sundar Pichai 提到,這點從 NotebookLM 受到大家歡迎便可發現。近期推出的 Gemini 2.0 Flash 將深化多模態模型開發,以解決更複雜的主題和多步驟問題,包括高級數學方程式、多模式查詢和 coding。下表為Gemini 2.0 與 Gemini 1.5 在不同應用領域的比較表
Gemini 2.0 與 Gemini 1.5 比較表
| 功能 | 基準測試 | 描述 | Gemini 1.5 Flash 002 | Gemini 1.5 Pro 002 | Gemini 2.0 Flash Experimental |
|---|---|---|---|---|---|
| 通用能力 | MMLU-Pro | 流行的 MMLU 數據集的增強版本,包含多學科高難度任務的問題 | 67.3% | 75.8% | 76.4% |
| 程式碼 | Natural2Code | 涵蓋 Python、Java、C++、JS、Go 的程式碼生成,使用 HumanEval-like 的測試數據集 | 79.8% | 85.4% | 92.9% |
| 程式碼 | Bird-SQL (Dev) | 評估將自然語言問題轉換為可執行 SQL 的基準測試 | 45.6% | 54.4% | 56.9% |
| 程式碼 | LiveCodeBench (Code Generation) | Python 程式碼生成,包含 2024 年 6 月到 10 月的近期測試案例 | 30.0% | 34.3% | 35.1% |
| 真實性 | FACTS Grounding | 能基於文件和用戶請求提供準確的事實性回應 | 82.9% | 80.0% | 83.6% |
| 數學 | MATH | 解決代數、幾何、預備微積分等挑戰性數學問題 | 77.9% | 86.5% | 89.7% |
| 數學 | HiddenMath | 比賽級別數學問題,由專家設計,包含類似 AIME/AMC 的數據集 | 47.2% | 52.0% | 63.0% |
| 推理 | GPQA (diamond) | 由生物、物理和化學領域專家撰寫的挑戰性問題數據集 | 51.0% | 59.1% | 62.1% |
| 長上下文 | MRCR (1M) | 新型、診斷類型的長上下文理解測試 | 71.9% | 82.6% | 69.2% |
| 圖像 | MMMU | 多學科大學級別的多模態理解和推理問題 | 62.3% | 65.9% | 70.7% |
| 圖像 | Vibe-Eval (Reka) | 在聊天模型中理解日常挑戰性範例,使用 Gemini Flash 模型進行評估 | 48.9% | 53.9% | 56.3% |
| 音訊 | CoVoST2 (21 lang) | 自動語音翻譯 (BLEU 分數)。 | 37.4 | 40.1 | 39.2 |
| 影片 | EgoSchema (test) | 跨多個領域的影片分析。 | 66.8% | 71.2% | 71.5% |
Google 以 Gemini 2.0 為基礎開發 3 款 AI Agent
Gemini 2.0 是 Google 為「AI Agent 」時代所建構的新一代模型,意味著它能夠更好地理解周圍世界,預測多個步驟,並在使用者的監督與同意下才會採取行動。目前 Google 也透過 Gemini 2.0 開發三款正在研發中的 AI Agent
1. Project Astra
Project Astra 是 Google 正在開發的一款通用 AI Agent 的研究原型, 目標是讓 AI代理在現實世界中更實用,並希望將其功能整合到 Gemini 應用程式以及 Google 眼鏡等其他設備中。
Project Astra 主要特點
- 對話能力提升: 可以使用多種語言和混合語言進行對話,並且能夠更好地理解口音和罕見的單詞。
- 新工具使用: 可以使用 Google 搜尋、鏡頭和地圖,使其在日常生活中更有用。
- 記憶力提升: 具有長達 10 分鐘的對話記憶,並且可以記住更多過去的對話,提供更個人化的體驗。
- 降低延遲: 採用新的串流功能和原生音訊理解功能,使 AI Agent 能夠以接近人類對話的速度來理解語言。
2. Project Mariner
Project Mariner 也是 Google 正在研發的一個早期研究原型,它利用 Gemini 2.0 的能力探索人類與 AI Agent 互動的未來,並從瀏覽器開始。
Project Mariner 主要特點
- 理解和推理瀏覽器資訊: Project Mariner 能夠理解和推理瀏覽器螢幕上的資訊,包括像素和網頁元素,如文字、程式碼、圖像和表單。
- 執行瀏覽器任務: 透過一個實驗性的 Chrome 擴充功能,利用網頁中的文字、程式碼資訊來完成任務。
- 在 WebVoyager 基準測試中取得領先成績: 在 WebVoyager 基準測試中,Project Mariner 作為單一代理設定取得了 83.5% 的最新成果。
3. Jules
Jules 是一個實驗性的程式開發 AI Agent,它直接整合到 GitHub 工作流程中,並在開發人員的指導和監督下,協助處理程式碼開發問題、制定計劃並執行計劃。
Jules 主要特點
- 提升生產力: 開發人員可以將問題和 coding 任務分配給 Jules,以非同步方式提高寫程式效率。
- 進度追蹤: 開發人員可以透過即時更新隨時掌握進度,並優先處理需要關注的任務。
- 完全的開發者控制: 開發人員可以審查 Jules 制定的計劃,並在適當的情況下提供反饋或請求調整。 開發者也可以輕鬆審查並將 Jules 編寫的程式碼合併到他們的專案中。
更多關於 Jules:The next chapter of the Gemini era for developers
提升 AI 模型安全性,Gemini 2.0 建構負責任的 AI Agent
在 Gemini 2.0 開發上,Google 強調安全性和責任是 AI 發展的基石,採取探索性和漸進的開發方法,透過多個原型進行研究、風險評估和安全訓練,並與可信任的測試者及外部專家合作。同時,為因應 Gemini 2.0 的多模態功能,Google 也強化了圖像與音訊輸入、輸出的安全訓練。
此外,Google 在 Project Astra 中內建隱私控制功能,幫助用戶防止敏感資訊的意外洩露;同時,在 Project Mariner 上,致力於防範第三方提示注入和惡意指令濫用,降低詐騙與網路釣魚的風險。Google 亦不斷探索如何確保 AI 模型提供可靠的資訊來源,避免代理執行非預期的行動。
✦延伸閱讀:讓 AI Agent 彼此溝通:Google A2A 和 Anthropic MCP 深度解析
未來展望與結論
Gemini 2.0 的增強多模態功能、AI Agent 能力及新 API 開創了更強大、互動性更高的應用程式開發可能性。Project Mariner 有望革新網路瀏覽體驗,讓互動更高效、便捷且個性化;而 Project Astra 則專注於開發更實用且個人化的 AI 助理,並計畫整合至各類設備中。 Google 也透過 Jules 和 Colab 的 AI 程式碼 Agent,協助開發者提升 coding 效率。同時,Gemini 2.0 與其相關的研究原型,為通用人工智慧 (AGI) 的發展揭開新篇章,Google 將在安全前提下持續探索這些可能性。
