
▲AI語音進化下,配音員嘗試新模式。(圖/資料照)
記者施怡妏/綜合報導
台大經濟系副教授馮勃翰主持的《月球背面的經濟學》Podcast節目,最新一集邀請Master Tones創辦人暨執行長李依哲。從圖靈測試談起,延伸至情緒模擬、對話技術與資料訓練流程,李依哲分享,團隊花了1年半的時間,與台灣專業配音員深入溝通,建立授權與分潤機制,並且透過AI找尋新的商機。
主持人馮勃翰指出,AI語音早已不是過去「把文字念出來」的有聲書機器音,現在甚至能做情緒表演。李依哲表示,若要讓AI語音接近真人,除了音色擬真,還得處理多個難題,包括反應延遲太慢會突兀、插嘴打斷不自然,以及全雙工那種「一邊講一邊想」的流暢感。
最難的是情緒轉折 AI還學不會的細微表演
李依哲指出,真正的難題在「更細微、連續的情感轉折」,一句話裡面情緒微妙地轉向、或突然爆發的表演,例如憤怒常見音量放大、語速變快;悲傷則可能音高降低、語速變慢並帶點氣音雜訊。談到訓練資料來源,李依哲強調,必須是有授權、可追溯的,不能因為網路上很多素材就直接抓來用,「抓YouTube音檔來訓練」是絕對不可行的。
此外,資料品質也會直接決定成果好壞,所以團隊偏好錄音室等級的wav檔,而不是Podcast常見的mp3,「因為mp3屬於有損壓縮」,會把一些人類比較聽不到的部分隱藏,「這些資訊可能人類雖然聽不到,可是其實對模型來講是重要的。」
素人聲音也能進場 聲音庫「越多樣越好」
至於AI崛起,是否會取代配音員?李依哲坦言,團隊花了一年半與配音員溝通,配音員起初確實會害怕,擔心聲音被拿走、工作消失,深入對談後建立共識,在平台上導入類似音樂產業的「授權與分潤」概念,「如果使用者購買,它其實都是有版權的,我們就會分潤給配音員。」
AI讓配音員觸及更多客群
李依哲強調,更重要的是,AI語音具備擴充性,能讓原本以中文接案的配音員,用自己的聲音延伸到英文、日文等市場,觸及過去難以到達的客群,「其實整個市場是擴大的。」
馮勃翰好奇,會不會只有「特別好聽、很有特色」的聲音才會被AI語音公司青睞?李依哲反而說,團隊也會收錄許多素人聲音,因為情境需求非常多元,聲音庫「變化度、多樣性越大越好」。
【收聽完整內容】
Apple Podcast:https://supr.link/an8Kc
Spotify:https://supr.link/TpsPA
KKBOX:https://supr.link/gmZ7Y
