SoundHound不只能搜音樂?全新技術打造「可互動」AI智慧裝置!

▲▼ 科技,AI,SoundHound,感官,體驗。(圖/Pexels)

▲SoundHound近日正式推出Vision AI技術。(示意圖/Pexels,下同)

記者萬玟伶/綜合報導

對SoundHound的印象,還只停留在「哼幾句旋律,就能找到歌名」的音樂搜尋APP?如果是的話,那SoundHound的全新發展將會讓你大開眼界!

根據國際科技媒體《TechForge Media》的報導,語音AI領導者SoundHound AI正式推出Vision AI技術,從單純的聲音辨識,進化到結合視覺與聽覺的複合式感官體驗,打造一個更智慧、更直覺的互動世界!

[廣告]請繼續往下閱讀...

AI界的「複合式感官」——超越單純語音助理!
SoundHound的執行長Keyvan Mohajer強調,未來的AI不僅僅是多模態(multimodal),它更應該是,「深度整合、反應靈敏,並為現實世界帶來影響。」

Vision AI的核心概念,正是模擬人類如何透過複合感官來理解世界。當我們與人交談時,不只聆聽對方說的話,也會觀察其手勢與眼神,從而更完整地掌握對話情境。SoundHound希望透過Vision AI,將這種「情境理解」(contextual understanding)的能力帶入 AI系統,終結許多現有智慧裝置笨拙且令人挫折的體驗。

▲▼ 科技,AI,SoundHound,感官,體驗。(圖/Pexels)

零時差的同步技術——讓互動流暢自然!
Vision AI的運作方式,是將來自攝影機的即時影像,與SoundHound擅長的自然語音辨識技術完美融合。藉由「同時」處理使用者所見與所說的內容,系統能更準確地判讀使用者意圖,這是單純的語音助理所無法達成的。

這項技術的突破性應用潛力無窮,並且可應用在不同產業:

汽車駕駛:可透過車內鏡頭,辨識窗外的地標、餐廳或景點,並提供即時資訊。

智慧工作:工廠技師戴上智慧眼鏡後,只需看向特定的引擎零件,就能立即獲得維修步驟的「視覺和聲音指導」。

零售與服務:商店員工只需掃視貨架,AI 就能自動盤點庫存;得來速點餐機則能在顧客說出餐點的當下,即時在螢幕上以視覺方式確認訂單。

▲▼ 科技,AI,SoundHound,感官,體驗。(圖/Pexels)

Vision AI的工程副總裁Pranav Singh指出,打造此系統最大的挑戰,便是確保音訊和視覺的「完美同步」,因為任何一絲延遲都會破壞對話的自然感。

他自豪地表示,「有了Vision AI,我們將視覺辨識與對話智慧融合為一個單一、同步的流程。每一個畫面、每一次發聲、每一個意圖都在同一個生態系統中被解析。這是在智慧與執行的交會點上的創新,打造一個能看見你所見、聽見你所說、並即時回應的AI。」

除了Vision AI,SoundHound也同步升級了其系統「大腦」——Amelia 7.1,讓AI代理更快速、精準,並賦予企業更高的控制權與透明度。

透過這一系列技術的革新,SoundHound致力於移除人機互動的摩擦,讓科技不再只是個冷冰冰的工具,而是像一個能無縫協作的夥伴。這不僅是技術的躍進,更預告了我們與AI互動方式的全新時代即將來臨。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【逃亡撞車】苗栗警追捕拒檢通緝犯! 搜出海洛因、安非他命

【逃亡撞車】苗栗警追捕拒檢通緝犯! 搜出海洛因、安非他命

颱風夜驚見鴕鳥馬路狂奔!路人全看傻眼:是要去哪?

颱風夜驚見鴕鳥馬路狂奔!路人全看傻眼:是要去哪?

【英雄降臨】她掉出摩天輪高掛9公尺,男徒手攀爬救援

【英雄降臨】她掉出摩天輪高掛9公尺,男徒手攀爬救援

【屋頂牆壁全消失】楊柳強風吹翻鐵皮屋!小狗嚇呆找掩護

【屋頂牆壁全消失】楊柳強風吹翻鐵皮屋!小狗嚇呆找掩護

【全場歡呼】颱風天3飛機降落重飛 他「單輪著陸」驚險成功

【全場歡呼】颱風天3飛機降落重飛 他「單輪著陸」驚險成功

讀者迴響

哪些AI工具支援繁體中文?

目前較主流的ChatGPT、Claude、Gemini、Perplexity、Copilot等都支援繁體中文,回覆也愈來愈自然。不過圖像生成工具有些還是以英文提示詞為主,使用時可留意。

最夯影音

更多

熱門快報

回到網頁頂端