Gemini 2.5強化「對話式影像分割」 讓AI真正「看懂」你說的話

▲▼             。(圖/Google)

▲管理人員輸入「標出沒有戴安全帽的人」,AI即能幫助辨識潛在風險。 。(圖/Google)

記者吳立言/綜合報導

Google今(22日)發表了一項讓人眼睛一亮的新功能:旗下的Gemini 2.5模型現在可以「聽懂你怎麼描述畫面」,並把對應的東西標示出來。這種叫做「對話式影像分割(Conversational Image Segmentation)」的新技術,讓電腦不再只是辨認「這是貓、那是狗」,而是能理解像「拿著雨傘的人」或「需要清理的地方」這種更貼近人類語言的敘述。

過去的影像AI模型,只能依靠固定的標籤來辨認東西,例如「車子」或「花」。但現在,Gemini能根據自然語言的指令,辨認圖中物體之間的關係、特徵差異,甚至抽象的概念,還能理解多種語言,辨識圖片內的文字。
Gemini 2.5 能理解的影像描述類型包括:

[廣告]請繼續往下閱讀...

物件之間的關係:像是「拿雨傘的人」、「第三本書」或「最枯萎的花」。

條件與邏輯:例如「素食的食物」或「沒坐著的人」。

抽象概念:像是「混亂的區域」或「需要打掃的地方」這種沒有明確形狀的東西。

圖片中的文字:在糕點櫃前說「開心果巴克拉瓦」,它會讀取標籤找到正確那一塊。

多語言指令:不只英文,說法文也通,例如「請用法文標示圖中所有食物」。

這些功能的厲害之處在於,它不需要你學習什麼專業選取工具,只要用平常的講話方式,就能讓 AI 自動幫你「圈出你想要的東西」。

這樣的進展將為許多日常應用帶來便利。例如,平面設計師不需要再用滑鼠一筆筆勾選畫面,只需說出「建築物的陰影」,AI就能立即幫你選好區域。又或是在工廠、工地,管理人員可以直接輸入「標出沒有戴安全帽的人」,AI即能幫助辨識潛在風險。而在保險理賠領域,當調查人員輸入「找出有風災損傷的房屋」,AI也能準確分析畫面細節,例如屋瓦凹陷或牆面破損等,區分出真正的損壞而不是反光或污漬。
而對開發者來說,這項技術帶來的最大好處是使用起來既靈活又簡單。它讓開發者不再受限於預設的標籤分類,可以依照實際產業需求,用更自然、更具彈性的語言來描述查詢內容。同時,透過單一API就能直接開始使用,無需自行訓練或管理多個模型,大幅降低開發門檻,讓更多人能輕鬆導入影像理解功能。

現在就可以在Google的AI Studio裡體驗 互動式影像理解 demo,也可以用Python教學版Colab練習,還有開發文件和開發者論壇可供使用與討論。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

蕭煌奇老婆正面曝光 陪看五月天..貼心幫扶麥

蕭煌奇老婆正面曝光 陪看五月天..貼心幫扶麥

捲捲頭+桃紅羽絨服=阿嬤? 依依路上狂喊…結果是他XD

捲捲頭+桃紅羽絨服=阿嬤? 依依路上狂喊…結果是他XD

【喉嚨借過】店員自稱喝酒沒輸過 不用5秒喝完一杯嚇傻客人

【喉嚨借過】店員自稱喝酒沒輸過 不用5秒喝完一杯嚇傻客人

【被女兒套路】謊稱牛奶滿出來...爸怎麼喝都喝不到XD

【被女兒套路】謊稱牛奶滿出來...爸怎麼喝都喝不到XD

【求生欲滿滿】小妹妹探頭看「神秘嘉賓」 巨手一現嚇到拔腿哭奔

【求生欲滿滿】小妹妹探頭看「神秘嘉賓」 巨手一現嚇到拔腿哭奔

讀者迴響

Gemini和ChatGPT有什麼不同?

Gemini是Google開發的AI,擅長整合Gmail、Docs、YouTube等服務,適合重度Google用戶;而ChatGPT則由OpenAI開發,操作簡單、回應速度快,是多數人入門AI的首選。

最夯影音

更多

熱門快報

回到網頁頂端