
Gemini 3.5 Flash 在 MCP Atlas 代理式評測獲83.6%,但在兩項編碼基準落後 GPT‑5.5。
Google 於 I/O 大會推出最新前沿模型 Gemini 3.5 並同步釋出 3.5 Flash,宣稱在「代理式」(agentic)任務基準上勝過主要競爭對手。根據 Google DeepMind 提供的 MCP Atlas 測試資料,3.5 Flash 在該代理式基準得分 83.6%,超過 Anthropic 的 Claude Opus 4.7(79.1%)與 OpenAI 的 GPT‑5.5(75.3%)。
背景與發布通路 - Google 表示 3.5 Flash 現已成為 Gemini 應用與 Search 的 AI Mode 全球預設模型,並在 Google Antigravity、Gemini API(Google AI Studio 與 Android Studio)、Gemini Enterprise Agent Platform 與 Gemini Enterprise 上可用。 - 同步推出的還有以 3.5 Flash 為核心的個人代理 Gemini Spark,今日開始向測試者釋出,美國 Google AI Ultra 訂閱者下週可試用測試版。
效能資料與比較 - 代理式基準(MCP Atlas):3.5 Flash 83.6%;Claude Opus 4.7 79.1%;GPT‑5.5 75.3%。 - 編碼基準:GPT‑5.5 在 Terminal‑bench 2.1 以 78.2% 領先 3.5 Flash 的 76.2%;在 SWE‑Bench Pro 中 GPT‑5.5 為 58.6%,3.5 Flash 為 55.1%。 - 輸出速度:Google 指出 3.5 Flash 的每秒輸出 tokens 速率為競品的 4 倍;目前 Google 處理的 AI tokens 約為每月 3.2 千兆(3.2 quadrillion)。 - 使用者規模:AI Mode 約有 10 億月活躍用戶,Gemini 應用月活達 9 億(去年為 4 億)。
Google 的主張與應用場景 Google DeepMind 在官方說明中強調 3.5 Flash 在「速度與效能的平衡」使其適合長期規劃與多步驟代理式任務,並指出過去需數日或數周完成的工作,現在可在更短時間以低於其他前沿模型一半的成本完成。Google 進一步指出,3.5 Flash 能快速規劃、構建與迭代,應用於新應用開發、維護程式碼庫與準備財務檔案等實務情境。
深入分析與現實意涵 - 優勢:3.5 Flash 在代理式任務的優異表現與更高的 token 吞吐量,對需要持續決策、多步執行的自動化代理、企業工作流程自動化與大規模互動場景具直接價值。速度提升意味著開發週期縮短與成本降低的潛在效益。 - 侷限:編碼基準顯示 GPT‑5.5 在軟體工程相關評測仍具優勢,說明不同模型在任務類型上仍有專長差異。企業在採用時需依用途(如代碼生成 vs. 長期代理決策)選擇合適模型。 - 生態與競爭:此發布加劇大型模型間的競爭格局;速度、成本與代理能力成為新的角力點,對 OpenAI、Anthropic 等廠商構成壓力,亦可能推動更多針對特定應用的專門化模型或混合方案。
替代觀點與回應 有評論指出,Google 提供的基準資料可能帶有偏差或選擇性呈現(例如選用對自家架構有利的測試),且單一基準不足以全面反映模型實務表現。對此可以回應:雖然廠商內部測試需謹慎解讀,但 Google 同時公開了多項指標(代理式分數、編碼基準、輸出速度與使用者規模),並已在多個平臺實際部署,短期內能觀察真實使用效果;最終仍需第三方獨立測試與開發者實務驗證來確立優劣。
未來展望與行動建議 - 企業與開發者:建議在自身任務情境下進行 A/B 測試,評估 3.5 Flash 在代理式流程、自動化任務與成本效益上的實際表現;對於需高品質程式碼生成的工作,仍應比較 GPT‑5.5 等模型的輸出。 - 監管與倫理:代理式模型能力提升帶來更複雜的治理需求,監管機構與企業應提前制定安全、可解釋性與責任歸屬的使用準則。 - 行業觀察:預期未來數月內會有更多獨立評測公佈,且競爭對手將針對弱點(如編碼能力或安全性)加強改進,整體 AI 生態將進一步分化為速度型、專精型與通用型解決方案。
總結 Gemini 3.5 Flash 在代理式基準上的領先與顯著輸出速度提升,代表 Google 在打造長時程、自主代理應用上取得重要進展;但編碼基準的落後提醒市場仍存在分工與專長差異。短期內,觀察真實部署效果與第三方驗證將是判斷其長期影響的關鍵。
點擊下方連結,開啟「美股K線APP」,獲得更多美股即時資訊喔!
https://www.cmoney.tw/r/56/9hlg37
發表
我的網誌


