當客戶撥打客服專線,聽到「請按 1 選擇中文服務、請按 2 查詢訂單、請按 3…」時,挫折感已經開始累積。在層層選單中迷航、等待轉接、重複說明問題——這些傳統互動式語音應答 (Interactive Voice Response, IVR) 系統的痛點,每天在全球數百萬通客服電話中重複上演。更令人困擾的是,即使 AI 當客戶撥打客服專線,聽到「請按 1 選擇中文服務、請按 2 查詢訂單、請按 3…」時,挫折感已經開始累積。在層層選單中迷航、等待轉接、重複說明問題——這些傳統互動式語音應答 (Interactive Voice Response, IVR) 系統的痛點,每天在全球數百萬通客服電話中重複上演。更令人困擾的是,即使 AI

會聽懂情緒的 AI 客服:Amazon Connect 如何用 Nova Sonic 重新定義對話體驗

2026/01/16 10:00

當客戶撥打客服專線,聽到「請按 1 選擇中文服務、請按 2 查詢訂單、請按 3…」時,挫折感已經開始累積。在層層選單中迷航、等待轉接、重複說明問題——這些傳統互動式語音應答 (Interactive Voice Response, IVR) 系統的痛點,每天在全球數百萬通客服電話中重複上演。更令人困擾的是,即使 AI 語音助理能準確辨識「我的訂單沒收到」這句話,卻聽不出客戶語氣中的焦慮或憤怒,只能以一貫的中性語調回應,讓已經不滿的客戶感到更加被忽視。

2025 年 12 月 1 日,AWS 在拉斯維加斯舉辦的年度盛會 re:Invent 上,針對其雲端客服中心解決方案 Amazon Connect 釋出重大更新,正式導入代理式 AI (Agentic AI) 能力,並且採用先進的 Nova Sonic 語音模型。這不只是技術升級,而是客服互動模式的典範轉移——AI 不再只是「辨識文字的機器人」,而是能夠理解語調、捕捉情緒、自然對話的智慧夥伴。

Nova Sonic 語音模型帶來的突破在於「理解如何說」而非「只聽懂說什麼」。它能捕捉語調、辨識情緒、掌握對話節奏與口音差異,跨語言理解並流暢回應。「真的嗎?」這三個字,可能是驚訝的疑問、可能是質疑的反駁、可能是諷刺的嘲弄,聲音的細微差異決定了意義。這種對聲學脈絡的深度理解,正是 Nova Sonic 與傳統語音 AI 的根本差異。

從「遺失情緒」到「保留脈絡」:語音 AI 的架構革命

語音 AI 的挑戰遠超過將聲音轉換為文字。人類對話充滿了文字無法完整捕捉的資訊——語調的起伏傳達情緒、停頓的長短暗示猶豫、音量的變化顯示強調。傳統語音 AI 的架構將這個複雜過程拆解為獨立步驟:

  1. 語音轉文字 (Speech-to-Text):將聲音轉為文字
  2. 大型語言模型處理 (LLM):理解文字並生成回應
  3. 文字轉語音 (Text-to-Speech):將回應轉為聲音

這個流程的致命問題在於「聲學脈絡」(acoustic context) 在第一步就遺失了。LLM 只看到文字「我很好」,看不到說話者的聲音其實透露著疲憊或沮喪。這種資訊損失導致 AI 的回應雖然內容正確,卻缺乏情感共鳴。

Nova Sonic 的統一模型設計

Nova Sonic 採用根本不同的方法——語音到語音 (speech-to-speech) 的統一模型。它不是將聲音降級為文字、處理文字、再升級回聲音,而是在整個過程中保持聲學資訊的完整性。輸入是聲音、內部處理仍然保留聲音的特性、輸出也是聲音。這種設計讓模型能夠:

適應說話風格:當客戶用輕鬆的語調開始對話,Nova Sonic 的回應也會更友善輕鬆。當客戶語氣變得急迫,回應會變得更簡潔有效率。當客戶表現出困惑,回應會放慢速度、提供更詳細的解釋。模型不只回應「內容」,更回應「氛圍」。

理解情緒脈絡:聲音攜帶的情緒資訊遠比文字豐富。客戶說「我等了三天」,可能是中立的陳述事實、可能是包含不滿的抱怨、可能是帶著理解的說明。Nova Sonic 能從語調、節奏、音高變化中解讀情緒狀態,讓系統的回應更加同理與適切。

自然的對話節奏:人類對話有自然的節奏——適時的停頓、語氣的轉折、對插話的反應。Nova Sonic 理解這些對話的「韻律」(prosody),能夠在適當時機開始說話、優雅地處理打斷、維持對話的流暢感。對話不再像機器人的輪流發言,而是像人與人之間自然的交流。

想像客戶來電抱怨產品問題。傳統系統可能準確辨識文字內容,但以一貫的中性語調回應,這會讓已經不滿的客戶感到被忽視。Nova Sonic 能夠識別客戶語氣中的挫折感,用更具同理心的語調回應、承認客戶的感受、表達解決問題的意願。這種情緒同步大幅提升客戶的被理解感與滿意度。

Nova 2 Sonic:全方位能力躍升

從 Nova Sonic 到 Nova 2 Sonic,這不只是版本號的更新,而是能力的全面躍升,讓對話式 AI 更接近人類交流的自然與豐富。

多語言支援的質變

Nova 2 Sonic 從原本的五種語言 (英語、法語、義大利語、德語、西班牙語) 擴展到七種,新增葡萄牙語與北印度語。這不只是語言數量的增加,更重要的是涵蓋了更廣泛的全球市場。北印度語的加入讓系統能服務印度這個龐大市場,葡萄牙語則打開巴西與葡語非洲的大門。

更革命性的是「多語言聲音」(polyglot voices) 能力。單一聲音 (如 Tiffany 語音) 能在同一對話中流暢切換所有支援的語言。想像一個情境:客戶用英語開始對話、遇到技術術語時切換回母語中文、討論完技術問題後又回到英語。系統的聲音特質保持一致,只是語言改變。這種連續性創造更自然的多語言體驗,不會因為語言切換而感到斷裂。

人類偏好評估顯示,聽眾持續偏好 Nova 2 Sonic 的輸出勝過其他領先模型。這種偏好來自於聲音的自然度、表達的豐富性、對話的流暢性。

一百萬 Token 脈絡視窗:長對話的記憶

這是對話 AI 的重大突破。一百萬 token 意味著能夠維持極長時間的對話而不遺失脈絡——包含數小時的語音交流、大量的參考資料、完整的歷史互動記錄。對於複雜的客服案例或深度的顧問對話,這種「長記憶」至關重要。

客戶不需要重複已經說過的資訊。系統記得對話開始時提到的細節、能夠參照十分鐘前討論的內容、可以連結不同主題之間的關係。對話變成連貫的敘事,而非片段的交換。

自然對話流程的細膩控制

Nova 2 Sonic 引入可設定的語音活動偵測 (voice activity detection) 靈敏度。高靈敏度最佳化最快回應時間,適合需要快速互動的場景。低靈敏度給予使用者更多時間完成思考,適合教育應用或需要深思熟慮的討論。

這種設定性讓系統能適應不同使用情境與使用者偏好。有些人喜歡快節奏的互動、有些人需要更多思考時間。系統能夠根據需求調整,而非強制單一模式。

跨模態互動:語音與文字的無縫切換

使用者可以在同一會話中自由切換語音與文字輸入。想快速提問?用語音。需要輸入複雜地址或技術規格?切換到文字。系統維持完整脈絡,不會因為輸入模態改變而中斷。

這種靈活性符合真實使用情境。人們自然地選擇最適合當下的溝通方式——在吵雜環境可能偏好文字、在駕駛時依賴語音、在需要精確時使用文字輸入。跨模態支援讓使用者不需要被困在單一模式中。

非同步工具呼叫:多工處理的關鍵

當 AI 需要呼叫外部工具或服務時 (如查詢資料庫、計算報價、發送通知),不需要暫停對話等待回應。系統可以同時處理多個任務——繼續與使用者對話、在背景執行工具呼叫、當結果返回時自然地整合到對話中。

想像使用者詢問「天氣如何?」然後立即又問「我的任務清單有什麼?」。系統同時查詢天氣 API 和任務管理系統,當兩個結果都返回後,以自然的方式呈現:「今天多雲,最高溫 22 度。你的任務清單有三項…」。使用者不需要等待,對話保持流暢。

電話與平台整合:從開發到生產

Nova 2 Sonic 直接整合領先的電話供應商 (Amazon Connect、Vonage、Twilio、AudioCodes) 與媒體平台 (LiveKit、Pipecat)。這些整合處理複雜的技術需求——音訊編解碼器最佳化、會話生命週期管理、雙向輸入/輸出事件處理、電話系統的聲學挑戰。

對開發者而言,這意味著可以將 Nova 2 Sonic 驅動的應用直接部署到既有呼叫中心基礎設施或建立新的電話服務,不需要管理底層電話複雜性。從原型到生產的路徑大幅簡化。

開放生態:支援多元語音技術選擇

AWS 對於 Amazon Connect 的 AI 能力採取開放策略——不強制使用單一語音技術,而是支援多元選擇。針對已使用第三方語音技術的客戶,Amazon Connect 目前也支援 Deepgram 與 ElevenLabs 等業者提供解決方案。

Deepgram 是專注於語音 AI 的公司,提供先進的串流語音轉文字 (STT)、文字轉語音 (TTS) 與語音代理能力。整合的價值在於「亞秒級延遲」(sub-second latency)——對於即時對話,延遲是關鍵體驗因素。ElevenLabs 以高品質的 AI 語音合成聞名,提供極具表現力與自然度的聲音。

這種多元支援的策略避免供應商鎖定、允許企業選擇最適合的技術、保護現有投資。當多個供應商競爭時,創新速度加快,企業因此受益於更快的技術進步、更好的價格、更多的功能。

實際應用價值:體驗革命帶來的業務成果

這些技術特性轉化為實際的商業價值。根據早期採用企業的回報:

  • 首次解決率 (First Call Resolution) 提升 25-30%
  • 平均處理時間 (Average Handle Time) 減少 40-50%
  • 客戶滿意度 (Customer Satisfaction Score) 顯著提高
  • 人工轉接率大幅降低,讓真人客服能專注於複雜案例

最重要的是客戶體驗的質變——從「與機器對話的挫折」到「與智慧助理協作的順暢」。當 AI 能夠真正理解客戶的情緒狀態、用適當的語調回應、維持自然的對話節奏時,客服不再是「必要之惡」,而是品牌體驗的核心環節。

對於全球部署的企業,多語言支援讓單一系統能服務全球客戶,不需要為每個市場建立獨立基礎設施。這對於國際企業是巨大的效率提升。同時,本地化的彈性確保文化適切性——不是強制單一模式,而是在統一架構下適應地區差異。

從技術到體驗:客服互動的新標準

Nova Sonic 與 Nova 2 Sonic 的演進,標誌著客服 AI 從「功能工具」進化為「體驗夥伴」。當技術能夠理解不只是話語內容、更是情感脈絡時,客服互動的本質改變了。客戶感受到的不再是冰冷的自動化,而是溫暖的智慧協助。
這不是終點,而是起點。隨著語音 AI 技術持續演進,我們將看到更自然、更個人化、更有溫度的對話體驗。客服中心不再是「處理問題的地方」,而是「建立關係的起點」。技術做對時,它是隱形的;客戶只感受到順暢、專業、有溫度的互動。

進一步了解或尋求專業建議

若您想深入了解如何將 Amazon Connect 與 Nova Sonic 語音模型整合到既有客服中心,或評估其如何滿足您的需求,歡迎聯絡 AWS 台灣團隊,我們的解決方案架構師將協助您設計最適合的策略。

參考資料

•    Amazon Connect
•    Introducing Amazon Nova 2 Sonic: Our new speech-to-speech model for conversational AI
•    Amazon’s new Nova Sonic foundation model understands not just what you say—but how you say it
•    AWS re:Invent 2025: Amazon announces Nova 2, Trainium3, frontier agents

本文章內容由「Amazon Web Services (AWS)」提供。

市場機遇
NOVASIM 圖標
NOVASIM實時價格 (NOVA)
$0.00000001499
$0.00000001499$0.00000001499
+246.99%
USD
NOVASIM (NOVA) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。