▲SoundHound近日正式推出Vision AI技術。(示意圖/Pexels,下同)
記者萬玟伶/綜合報導
對SoundHound的印象,還只停留在「哼幾句旋律,就能找到歌名」的音樂搜尋APP?如果是的話,那SoundHound的全新發展將會讓你大開眼界!
根據國際科技媒體《TechForge Media》的報導,語音AI領導者SoundHound AI正式推出Vision AI技術,從單純的聲音辨識,進化到結合視覺與聽覺的複合式感官體驗,打造一個更智慧、更直覺的互動世界!
AI界的「複合式感官」——超越單純語音助理!
SoundHound的執行長Keyvan Mohajer強調,未來的AI不僅僅是多模態(multimodal),它更應該是,「深度整合、反應靈敏,並為現實世界帶來影響。」
Vision AI的核心概念,正是模擬人類如何透過複合感官來理解世界。當我們與人交談時,不只聆聽對方說的話,也會觀察其手勢與眼神,從而更完整地掌握對話情境。SoundHound希望透過Vision AI,將這種「情境理解」(contextual understanding)的能力帶入 AI系統,終結許多現有智慧裝置笨拙且令人挫折的體驗。
零時差的同步技術——讓互動流暢自然!
Vision AI的運作方式,是將來自攝影機的即時影像,與SoundHound擅長的自然語音辨識技術完美融合。藉由「同時」處理使用者所見與所說的內容,系統能更準確地判讀使用者意圖,這是單純的語音助理所無法達成的。
這項技術的突破性應用潛力無窮,並且可應用在不同產業:
汽車駕駛:可透過車內鏡頭,辨識窗外的地標、餐廳或景點,並提供即時資訊。
智慧工作:工廠技師戴上智慧眼鏡後,只需看向特定的引擎零件,就能立即獲得維修步驟的「視覺和聲音指導」。
零售與服務:商店員工只需掃視貨架,AI 就能自動盤點庫存;得來速點餐機則能在顧客說出餐點的當下,即時在螢幕上以視覺方式確認訂單。
Vision AI的工程副總裁Pranav Singh指出,打造此系統最大的挑戰,便是確保音訊和視覺的「完美同步」,因為任何一絲延遲都會破壞對話的自然感。
他自豪地表示,「有了Vision AI,我們將視覺辨識與對話智慧融合為一個單一、同步的流程。每一個畫面、每一次發聲、每一個意圖都在同一個生態系統中被解析。這是在智慧與執行的交會點上的創新,打造一個能看見你所見、聽見你所說、並即時回應的AI。」
除了Vision AI,SoundHound也同步升級了其系統「大腦」——Amelia 7.1,讓AI代理更快速、精準,並賦予企業更高的控制權與透明度。
透過這一系列技術的革新,SoundHound致力於移除人機互動的摩擦,讓科技不再只是個冷冰冰的工具,而是像一個能無縫協作的夥伴。這不僅是技術的躍進,更預告了我們與AI互動方式的全新時代即將來臨。