Gemini 2.5強化「對話式影像分割」 讓AI真正「看懂」你說的話

▲▼             。(圖/Google)

▲管理人員輸入「標出沒有戴安全帽的人」,AI即能幫助辨識潛在風險。 。(圖/Google)

記者吳立言/綜合報導

Google今(22日)發表了一項讓人眼睛一亮的新功能:旗下的Gemini 2.5模型現在可以「聽懂你怎麼描述畫面」,並把對應的東西標示出來。這種叫做「對話式影像分割(Conversational Image Segmentation)」的新技術,讓電腦不再只是辨認「這是貓、那是狗」,而是能理解像「拿著雨傘的人」或「需要清理的地方」這種更貼近人類語言的敘述。

過去的影像AI模型,只能依靠固定的標籤來辨認東西,例如「車子」或「花」。但現在,Gemini能根據自然語言的指令,辨認圖中物體之間的關係、特徵差異,甚至抽象的概念,還能理解多種語言,辨識圖片內的文字。
Gemini 2.5 能理解的影像描述類型包括:

[廣告]請繼續往下閱讀...

物件之間的關係:像是「拿雨傘的人」、「第三本書」或「最枯萎的花」。

條件與邏輯:例如「素食的食物」或「沒坐著的人」。

抽象概念:像是「混亂的區域」或「需要打掃的地方」這種沒有明確形狀的東西。

圖片中的文字:在糕點櫃前說「開心果巴克拉瓦」,它會讀取標籤找到正確那一塊。

多語言指令:不只英文,說法文也通,例如「請用法文標示圖中所有食物」。

這些功能的厲害之處在於,它不需要你學習什麼專業選取工具,只要用平常的講話方式,就能讓 AI 自動幫你「圈出你想要的東西」。

這樣的進展將為許多日常應用帶來便利。例如,平面設計師不需要再用滑鼠一筆筆勾選畫面,只需說出「建築物的陰影」,AI就能立即幫你選好區域。又或是在工廠、工地,管理人員可以直接輸入「標出沒有戴安全帽的人」,AI即能幫助辨識潛在風險。而在保險理賠領域,當調查人員輸入「找出有風災損傷的房屋」,AI也能準確分析畫面細節,例如屋瓦凹陷或牆面破損等,區分出真正的損壞而不是反光或污漬。
而對開發者來說,這項技術帶來的最大好處是使用起來既靈活又簡單。它讓開發者不再受限於預設的標籤分類,可以依照實際產業需求,用更自然、更具彈性的語言來描述查詢內容。同時,透過單一API就能直接開始使用,無需自行訓練或管理多個模型,大幅降低開發門檻,讓更多人能輕鬆導入影像理解功能。

現在就可以在Google的AI Studio裡體驗 互動式影像理解 demo,也可以用Python教學版Colab練習,還有開發文件和開發者論壇可供使用與討論。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【滿滿的禽緒價值】她心情低落坐雞舍 小雞全員出動暖心包圍她

【滿滿的禽緒價值】她心情低落坐雞舍 小雞全員出動暖心包圍她

【另一角度曝光】UPS貨機桃機驚險降落 機身擦撞跑道冒火花

【另一角度曝光】UPS貨機桃機驚險降落 機身擦撞跑道冒火花

【台鐵不速之客】老鷹誤闖車廂!列車長手抓請牠下車

【台鐵不速之客】老鷹誤闖車廂!列車長手抓請牠下車

愛雅懷孕了!劉品言嗨到熱舞 聽到寶寶心跳聲「激動落淚」

愛雅懷孕了!劉品言嗨到熱舞 聽到寶寶心跳聲「激動落淚」

【整老公系列】老婆戴面具悄悄靠近!尪轉頭嚇到大叫XD

【整老公系列】老婆戴面具悄悄靠近!尪轉頭嚇到大叫XD

讀者迴響

ChatGPT能免費使用嗎?

有免費版本,適合多數基本用途。若升級付費(如 ChatGPT Plus),可使用更強大的GPT-4模型,回應速度快、理解力更好、支援圖片與檔案分析。免費用戶功能有限,無法使用進階工具。

最夯影音

更多

熱門快報

回到網頁頂端