Google 推出 Gemini 3.5 Flash，Agentic 基準領先 GPT‑5.5，編碼能力仍遭反超

Gemini 3.5 Flash 在 MCP Atlas 代理式評測獲83.6%，但在兩項編碼基準落後 GPT‑5.5。

Google 於 I/O 大會推出最新前沿模型 Gemini 3.5 並同步釋出 3.5 Flash，宣稱在「代理式」（agentic）任務基準上勝過主要競爭對手。根據 Google DeepMind 提供的 MCP Atlas 測試資料，3.5 Flash 在該代理式基準得分 83.6%，超過 Anthropic 的 Claude Opus 4.7（79.1%）與 OpenAI 的 GPT‑5.5（75.3%）。

背景與發布通路 - Google 表示 3.5 Flash 現已成為 Gemini 應用與 Search 的 AI Mode 全球預設模型，並在 Google Antigravity、Gemini API（Google AI Studio 與 Android Studio）、Gemini Enterprise Agent Platform 與 Gemini Enterprise 上可用。 - 同步推出的還有以 3.5 Flash 為核心的個人代理 Gemini Spark，今日開始向測試者釋出，美國 Google AI Ultra 訂閱者下週可試用測試版。

效能資料與比較 - 代理式基準（MCP Atlas）：3.5 Flash 83.6%；Claude Opus 4.7 79.1%；GPT‑5.5 75.3%。 - 編碼基準：GPT‑5.5 在 Terminal‑bench 2.1 以 78.2% 領先 3.5 Flash 的 76.2%；在 SWE‑Bench Pro 中 GPT‑5.5 為 58.6%，3.5 Flash 為 55.1%。 - 輸出速度：Google 指出 3.5 Flash 的每秒輸出 tokens 速率為競品的 4 倍；目前 Google 處理的 AI tokens 約為每月 3.2 千兆（3.2 quadrillion）。 - 使用者規模：AI Mode 約有 10 億月活躍用戶，Gemini 應用月活達 9 億（去年為 4 億）。

Google 的主張與應用場景 Google DeepMind 在官方說明中強調 3.5 Flash 在「速度與效能的平衡」使其適合長期規劃與多步驟代理式任務，並指出過去需數日或數周完成的工作，現在可在更短時間以低於其他前沿模型一半的成本完成。Google 進一步指出，3.5 Flash 能快速規劃、構建與迭代，應用於新應用開發、維護程式碼庫與準備財務檔案等實務情境。

深入分析與現實意涵 - 優勢：3.5 Flash 在代理式任務的優異表現與更高的 token 吞吐量，對需要持續決策、多步執行的自動化代理、企業工作流程自動化與大規模互動場景具直接價值。速度提升意味著開發週期縮短與成本降低的潛在效益。 - 侷限：編碼基準顯示 GPT‑5.5 在軟體工程相關評測仍具優勢，說明不同模型在任務類型上仍有專長差異。企業在採用時需依用途（如代碼生成 vs. 長期代理決策）選擇合適模型。 - 生態與競爭：此發布加劇大型模型間的競爭格局；速度、成本與代理能力成為新的角力點，對 OpenAI、Anthropic 等廠商構成壓力，亦可能推動更多針對特定應用的專門化模型或混合方案。

替代觀點與回應有評論指出，Google 提供的基準資料可能帶有偏差或選擇性呈現（例如選用對自家架構有利的測試），且單一基準不足以全面反映模型實務表現。對此可以回應：雖然廠商內部測試需謹慎解讀，但 Google 同時公開了多項指標（代理式分數、編碼基準、輸出速度與使用者規模），並已在多個平臺實際部署，短期內能觀察真實使用效果；最終仍需第三方獨立測試與開發者實務驗證來確立優劣。

未來展望與行動建議 - 企業與開發者：建議在自身任務情境下進行 A/B 測試，評估 3.5 Flash 在代理式流程、自動化任務與成本效益上的實際表現；對於需高品質程式碼生成的工作，仍應比較 GPT‑5.5 等模型的輸出。 - 監管與倫理：代理式模型能力提升帶來更複雜的治理需求，監管機構與企業應提前制定安全、可解釋性與責任歸屬的使用準則。 - 行業觀察：預期未來數月內會有更多獨立評測公佈，且競爭對手將針對弱點（如編碼能力或安全性）加強改進，整體 AI 生態將進一步分化為速度型、專精型與通用型解決方案。

總結 Gemini 3.5 Flash 在代理式基準上的領先與顯著輸出速度提升，代表 Google 在打造長時程、自主代理應用上取得重要進展；但編碼基準的落後提醒市場仍存在分工與專長差異。短期內，觀察真實部署效果與第三方驗證將是判斷其長期影響的關鍵。

點擊下方連結，開啟「美股K線APP」，獲得更多美股即時資訊喔！
https://www.cmoney.tw/r/56/9hlg37

免責宣言
本網站所提供資訊僅供參考，並無任何推介買賣之意，投資人應自行承擔交易風險。

文章相關股票

CMoney 研究員

CMoney 團隊透過 AI 結合股市，每日提供重點股票的新聞事件，期望讓投資人更有效率找到各種投資標的的投資事實。

Google 推出 Gemini 3.5 Flash，Agentic 基準領先 GPT‑5.5，編碼能力仍遭反超

CMoney 研究員

Gemini 3.5 Flash 在 MCP Atlas 代理式評測獲83.6%，但在兩項編碼基準落後 GPT‑5.5。

CMoney 研究員

CMoney 研究員

【台股盤後】俄大規模襲烏，加權回測 10 日線

【台股盤後】加權狹幅震盪，漲價續為主流

【台股盤後】加權熄火測月線，千金、記憶體成災區

【籌碼K線 5月登入禮】3大法人連買股

【籌碼K線 5月登入禮】大戶減持股

小型AI股飆升：這檔NAND控制器股能把1萬美元變退休金？

ATRenew Q1 營收爆發、利潤創高，預告Q2再攀高峰並延長回購計畫

詹姆士哈迪Q4每股調整後EPS 0.30美元達預期，全年營收衝48.4億美元，喊FY27自由現金流逾5億

Analog Devices (ADI) Q2 業績將揭曉：EPS、營收預期大增，1.5億美元收購傳聞添變數

AI狂潮下的半導體軍備競賽：從Analog Devices百億併購到Intel翻身戰，下一個飆股在哪？

其他人也看了

0603【多空趨勢】外資期貨 5日多方力道

6/10

【籌碼K線 5月登入禮】官股狂賣股(2)

【籌碼K線 5月登入禮】官股狂買股(2)

【台股盤後】加權熄火測月線，千金、記憶體成災區

熱門產品

股市爆料同學會

籌碼K線

價值K線

起漲K線

艾蜜莉定存股

選擇分類：		(新增分類)