商傳媒|責任編輯/綜合外電報導
美國新創公司 Inworld AI 近日推出一款名為 Realtime TTS-2 的新人工智慧語音模型,其獨特之處在於能即時感應使用者的語氣與情緒,並做出更擬人化的回應,有望改變未來的人機互動體驗。
這項由總部位於山景城的 Inworld AI 所開發的技術,透過分析語音線索如聲調、語速與音高,即時判斷說話者的情緒狀態。隨後,AI 會動態調整自身的語音與表達方式,以創造出更加自然、具備情緒理解能力的對話。文字轉語音(Text-to-Speech,簡稱 TTS)是一種語音型人工智慧模型,而 Realtime TTS-2 將此技術推向新境界。
Inworld AI 執行長 Kylan Gibbs 指出,目前大多數人工智慧語音雖然聽起來像人類,卻給人一種「照稿宣讀」的生硬感。他強調:「你或許覺得它音質很好,但聽起來就是不對勁,就像是在跟有聲書對話。」他表示,即時對話是人們最自然的互動模式,而越接近這種模式,使用者參與度就越高。
Realtime TTS-2 模型整合了多項傳統 AI 語音系統中不常見的功能。它能理解對話的完整歷史與上下文,讓 AI 的回應能根據先前的內容調整。例如,在情境測試中,AI 曾針對客戶服務延遲表現出「富有同理心、歉意且直接」的回應;而當 Gibbs 刻意說出不恰當的玩笑時,AI 也沒有直接忽略或粗魯回應,而是以一種「有效、引人注目,但不確定是否稱得上幽默,但確實令人印象深刻」的回應來展現微妙的幽默感與委婉的不認同。
過去 Inworld AI 的語音模型在語音品質基準測試中已超越 Google 和 ElevenLabs 等競爭對手。該公司已從創始人基金、英特爾及微軟等投資者手中募得逾 1 億美元資金。目前,Inworld AI 將 Realtime TTS-2 定位為提供給開發者的基礎設施,透過應用程式介面(API)讓其能整合至現有 AI 系統中。Gibbs 解釋,由於 OpenAI 的 Codex 與 Anthropic 的 Claude Code 等 AI 編程工具讓應用程式開發變得更加容易,公司選擇專注於核心模型與 API 開發,避免與客戶競爭,進一步提升其在產業鏈中的價值。







