▲Gemini Robotics 1.5發表。(圖/Google DeepMind)
記者吳立言/綜合報導
Google DeepMind 今(26日)正式推出 Gemini Robotics 1.5 與 Gemini Robotics-ER 1.5,宣告機器人從單純的「指令執行者」邁入具備「思考、規劃與工具運用」能力的新時代。官方強調,這是機器人研究的重要里程碑,讓它們能更靈活地應對現實世界的複雜情境。
根據 DeepMind 公布的細節,Gemini Robotics-ER 1.5 是首個專為「具體情境推理(embodied reasoning)」設計的 AI 模型,能在理解環境後自行規劃多步驟行動,並可主動調用工具,例如 Google 搜尋,以查找垃圾分類規則或其他外部資訊。另一款 Gemini Robotics 1.5 則負責將這些計畫轉化為具體動作,驅動機器人完成操作。兩者協同合作,讓機器人不僅會聽指令,還能「思考後再行動」。
在展示影片中,Gemini Robotics 1.5 展現了多項新能力。例如在執行垃圾分類時,能先查詢當地規範,再辨識桌面物品的材質,最後依規則投放到對應垃圾桶中。另一個例子則是整理衣物,機器人能區分衣服種類,判斷應該折疊或懸掛,並安排順序,使過程井然有序。甚至在收納行李時,還會根據天氣資料建議使用者攜帶雨具,凸顯其主動規劃與泛化能力。
DeepMind 表示,Gemini Robotics 1.5 已在多項內部與學術測試中創下業界領先的成績。模型還能跨平台遷移學習,將在一台機器人上習得的技能,快速轉移到另一種不同結構的機器人上,顯著降低訓練成本。開發者可透過 Google AI Studio 搶先體驗 Gemini Robotics-ER 1.5,而 Gemini Robotics 1.5 則暫時僅開放給合作夥伴。
不過,DeepMind 也坦承挑戰仍在。機器人對精細操作的掌握尚不足,真實世界中的不可預測性也會影響執行結果。安全性更是重點,雖然模型內建安全過濾,但仍需要硬體層面的防護機制。研究團隊表示,這些限制將是未來努力的方向。
Gemini Robotics 1.5 展示了通用機器人的雛形,從「聽話」到「懂事」,機器人終於開始具備思考力。隨著技術成熟,這類智慧體有望逐步走進日常生活,成為家庭與工作的助力。