「實體AI」成科技新戰場世界模型助機器人感知真實環境

2026 年 6 月 25 日

圖／示意圖

商傳媒｜林昭衡／綜合外電報導

當前的人工智慧（AI）發展，正從處理文字和語言的大型語言模型（LLM）邁向能理解並導航真實世界的「實體AI」。有鑑於此，新創公司 Overworld 正致力於開發能讓AI理解和應對物理世界的技術。

卡內基美隆大學（Carnegie Mellon University）電腦科學院院長 Martial Hebert 指出，傳統的聊天機器人無法完成拾取咖啡杯這類簡單任務，因為真實世界涉及複雜的幾何形狀、動態手部動作以及物理接觸互動，這遠比預測句子中的下一個詞要複雜得多。他認為，世界模型（world models）是實現「實體AI」更快、更具成本效益的途徑。

世界模型不同於語言模型，它們學習的是空間與時間的統計結構，例如光線如何落在物體表面、物體如何依循物理定律對力產生反應。AI 科學家 Louis Castricato 說明，Overworld 公司正在建立一種虛擬的電玩世界，其中的虛擬角色能夠在移動和互動的過程中適應環境。他表示，目前沒有其他世界模型能讓虛擬角色像這樣穿越門或與詳細環境互動，強調他們最重視的是互動性。

對於「世界模型」一詞的定義，美國知名電腦科學家李飛飛（Fei-Fei Li）曾試圖建立一個分類系統，以釐清各方競逐願景下的混亂。她將世界模型分為三類：渲染器（renderers）、模擬器（simulators）和規劃器（planners）。渲染器主要追求視覺逼真度，雖然目前商業應用最廣，但不足以用於訓練機器人；模擬器則能建立忠實反映物理結構的虛擬訓練場景；規劃器則試圖預測 AI 代理（agent）或機器人在非結構化環境中應該如何行動。李飛飛強調：「一個能夠規劃的機器人，才是能夠工作的機器人。」她認為整個產業都在競相爭奪率先實現這項突破。

創投公司 Kindred Ventures 的共同創辦人兼管理合夥人 Steve Jang 認為，未來的發展將是多種不同理念和架構的模型並存，而非由單一龐大模型主導一切。目前已有數兆美元資金投入 Anthropic 和 OpenAI 等領先的開發商，顯見市場對 AI 發展的龐大信心。隨著「實體AI」的競賽逐漸白熱化，這也為台灣科技產業在機器人與人工智慧結合的領域，提供了新的發展方向與潛在機會。