
▲Sam Audio音訊模型。(圖/Meta)
記者吳立言/綜合報導
剪音訊有望變得更簡單。Meta 近日推出全新 AI 音訊模型 SAM Audio,主打只要透過簡單提示,就能從影片或錄音中分離特定聲音,像是只留下吉他聲、移除背景雜音,或清除 Podcast 錄製時的干擾聲,大幅減少傳統音訊剪輯的手動操作。
根據 Meta 說法,SAM Audio 能理解三種不同提示方式,包括輸入文字描述、標記聲音出現的時間段,或直接在影片中點選正在發聲的人或物件,系統就能自動隔離對應聲音,操作方式更貼近一般人的直覺。

Meta 表示,SAM Audio 是首款「統一式多模態音訊分離模型」,相較市面上多為單一用途的音訊工具,該模型試圖整合多種使用情境,降低音樂創作、Podcast 剪輯與影音後製的門檻。
不過,Meta 也坦言,SAM Audio 仍有技術限制,例如在多個聲音高度相似時,分離單一聲源仍具挑戰,且必須搭配提示使用,無法自動完成音訊分離。
目前 SAM Audio 已在 Segment Anything Playground 平台開放體驗,並同步提供下載。Meta 也透露,未來將持續探索該技術在創作工具與無障礙輔助等領域的應用可能性。
