▲管理人員輸入「標出沒有戴安全帽的人」,AI即能幫助辨識潛在風險。 。(圖/Google)
記者吳立言/綜合報導
Google今(22日)發表了一項讓人眼睛一亮的新功能:旗下的Gemini 2.5模型現在可以「聽懂你怎麼描述畫面」,並把對應的東西標示出來。這種叫做「對話式影像分割(Conversational Image Segmentation)」的新技術,讓電腦不再只是辨認「這是貓、那是狗」,而是能理解像「拿著雨傘的人」或「需要清理的地方」這種更貼近人類語言的敘述。
過去的影像AI模型,只能依靠固定的標籤來辨認東西,例如「車子」或「花」。但現在,Gemini能根據自然語言的指令,辨認圖中物體之間的關係、特徵差異,甚至抽象的概念,還能理解多種語言,辨識圖片內的文字。
Gemini 2.5 能理解的影像描述類型包括:
物件之間的關係:像是「拿雨傘的人」、「第三本書」或「最枯萎的花」。
條件與邏輯:例如「素食的食物」或「沒坐著的人」。
抽象概念:像是「混亂的區域」或「需要打掃的地方」這種沒有明確形狀的東西。
圖片中的文字:在糕點櫃前說「開心果巴克拉瓦」,它會讀取標籤找到正確那一塊。
多語言指令:不只英文,說法文也通,例如「請用法文標示圖中所有食物」。
這些功能的厲害之處在於,它不需要你學習什麼專業選取工具,只要用平常的講話方式,就能讓 AI 自動幫你「圈出你想要的東西」。
這樣的進展將為許多日常應用帶來便利。例如,平面設計師不需要再用滑鼠一筆筆勾選畫面,只需說出「建築物的陰影」,AI就能立即幫你選好區域。又或是在工廠、工地,管理人員可以直接輸入「標出沒有戴安全帽的人」,AI即能幫助辨識潛在風險。而在保險理賠領域,當調查人員輸入「找出有風災損傷的房屋」,AI也能準確分析畫面細節,例如屋瓦凹陷或牆面破損等,區分出真正的損壞而不是反光或污漬。
而對開發者來說,這項技術帶來的最大好處是使用起來既靈活又簡單。它讓開發者不再受限於預設的標籤分類,可以依照實際產業需求,用更自然、更具彈性的語言來描述查詢內容。同時,透過單一API就能直接開始使用,無需自行訓練或管理多個模型,大幅降低開發門檻,讓更多人能輕鬆導入影像理解功能。
現在就可以在Google的AI Studio裡體驗 互動式影像理解 demo,也可以用Python教學版Colab練習,還有開發文件和開發者論壇可供使用與討論。