
商傳媒|責任編輯/綜合外電報導
Google 預計於週二(5月26日)舉行年度 I/O 開發者大會,屆時將揭示多項人工智慧(AI)創新,其中最受矚目的包含智慧助理 Gemini Spark、多模態影音模型 Gemini Omni,以及新一代 AI 晶片。這些發布預示著 Google 積極將 AI 深度整合至其產品生態系,朝向「代理型 AI」(agentic AI)發展的未來願景。
Gemini Spark:全方位智慧助理
Google 執行長皮蔡(Sundar Pichai)已預先介紹了 Gemini Spark,這款 AI 助理旨在跨應用程式、文件和工作流程中提供主動協助,被視為 Google 推動「代理型 AI」的重大一步。Gemini Spark 能自動完成包含 Gmail 和 Google Drive 在內多個應用程式的任務,協助使用者導航數位生活,並在其指示下採取行動。皮蔡表示,Gemini Spark 將「幫助你導航數位生活,並在你的指導下代表你採取行動」。
Google 展示了 Gemini Spark 規劃社區派對的實例,從彙整回覆、發送電子郵件、設定提醒,到製作 Google Slides 簡報,全程自動化。這款助理具備「鬼影寫手」(ghostwriter)功能,能根據使用者寫作風格生成電子郵件,甚至在使用者關閉筆記型電腦後,仍能在背景繼續執行任務。Gemini Spark 將於下週起,向美國地區的 Google AI Ultra 訂閱戶提供測試版,並同時支援 Android 及 iPhone 裝置。
Gemini Omni:影音生成與編輯革新
Google DeepMind 執行長德米斯·哈薩比斯(Demis Hassabis)則展示了 Gemini Omni。這是一款多模態影音模型,已透過 Gemini、Google Flow 和 YouTube Shorts 逐步推出。Gemini Omni 可接受文字、圖片、音訊和影片作為輸入,並能透過對話方式生成及修改影片。Google DeepMind 技術長 Koray Kavukcuoglu 指出,Omni 旨在將 Gemini 的推理能力與媒體創作結合,初期以影片為主,未來將擴展至圖片和音訊等多種輸出類型。
Google 正將 AI 影音從傳統的提示輸入框,導入日常的創作者工具中,暗示未來 AI 競爭焦點將轉向編輯而非單純生成。Gemini Omni 允許使用者透過對話指令編輯影片,調整風格、場景和現有影片元素,解決了目前 AI 影音工具在效果不理想時,使用者常需從頭開始的痛點。為應對 AI 生成內容的疑慮,Google 同步擴展了內容憑證驗證工具,可透過 Circle to Search 辨識 AI 生成或編輯的媒體,輝達(Nvidia)和 OpenAI 等公司也已採用此標準。
其他 AI 產品與硬體突破
此次大會也發布了 Gemini 3.5 Flash 模型,被描述為「結合了尖端智慧與行動能力的第一款模型」。據 Google 稱,Gemini 3.5 Flash 每秒可生成 289 個輸出語元,遠高於 OpenAI GPT-5.5 的每秒 71 個。在硬體方面,Google 推出了專為訓練與推論工作負載設計的新一代 AI 晶片 TPU 8t 和 TPU 8i。其中,TPU 8t 的運算能力是前一代的三倍,並能支援超越單一資料中心限制的 AI 訓練規模。這兩款晶片在推論速度上可達每秒 1,500 個語元,並提供兩倍的能源效率和每瓦效能。
此外,Google 還介紹了 Docs Live 語音工具,這款與 Gemini 整合的語音文件創建工具,能讓使用者自然發言,將語音指令即時轉換為 Google Doc 內容,並可從 Google Drive 中檢索資訊。針對軟體開發流程,Google 亦推出 AI 代理系統 Google Antigravity,其內部團隊已用來加速編碼與開發。在訂閱服務方面,Google 已推出每月 100 美元的 Google AI Ultra 訂閱方案,並將頂級 Ultra 方案的價格從每月 250 美元調整為 200 美元。






