AI語音模型讀懂情緒語氣人機互動告別機器人感

2026 年 5 月 6 日

圖／本報AI製圖（示意圖）

商傳媒｜責任編輯／綜合外電報導

美國新創公司 Inworld AI 近日推出一款名為 Realtime TTS-2 的新人工智慧語音模型，其獨特之處在於能即時感應使用者的語氣與情緒，並做出更擬人化的回應，有望改變未來的人機互動體驗。

這項由總部位於山景城的 Inworld AI 所開發的技術，透過分析語音線索如聲調、語速與音高，即時判斷說話者的情緒狀態。隨後，AI 會動態調整自身的語音與表達方式，以創造出更加自然、具備情緒理解能力的對話。文字轉語音（Text-to-Speech，簡稱 TTS）是一種語音型人工智慧模型，而 Realtime TTS-2 將此技術推向新境界。

Inworld AI 執行長 Kylan Gibbs 指出，目前大多數人工智慧語音雖然聽起來像人類，卻給人一種「照稿宣讀」的生硬感。他強調：「你或許覺得它音質很好，但聽起來就是不對勁，就像是在跟有聲書對話。」他表示，即時對話是人們最自然的互動模式，而越接近這種模式，使用者參與度就越高。

Realtime TTS-2 模型整合了多項傳統 AI 語音系統中不常見的功能。它能理解對話的完整歷史與上下文，讓 AI 的回應能根據先前的內容調整。例如，在情境測試中，AI 曾針對客戶服務延遲表現出「富有同理心、歉意且直接」的回應；而當 Gibbs 刻意說出不恰當的玩笑時，AI 也沒有直接忽略或粗魯回應，而是以一種「有效、引人注目，但不確定是否稱得上幽默，但確實令人印象深刻」的回應來展現微妙的幽默感與委婉的不認同。

過去 Inworld AI 的語音模型在語音品質基準測試中已超越 Google 和 ElevenLabs 等競爭對手。該公司已從創始人基金、英特爾及微軟等投資者手中募得逾 1 億美元資金。目前，Inworld AI 將 Realtime TTS-2 定位為提供給開發者的基礎設施，透過應用程式介面（API）讓其能整合至現有 AI 系統中。Gibbs 解釋，由於 OpenAI 的 Codex 與 Anthropic 的 Claude Code 等 AI 編程工具讓應用程式開發變得更加容易，公司選擇專注於核心模型與 API 開發，避免與客戶競爭，進一步提升其在產業鏈中的價值。