蘋果FastVLM模型亮相 首款可在iPhone運行的視覺語言模型

▲▼             。(圖/github.com/apple)

▲FastVLM為首度針對iPhone、iPad與Mac等裝置優化的高速視覺語言模型。(圖/github.com/apple)

記者吳立言/綜合報導
蘋果日前正式發布「FastVLM(Fast Vision Language Model)」系列模型,為首度針對iPhone、iPad與Mac等裝置優化的高速視覺語言模型(VLM),強調能以極低延遲完成圖文理解任務,並實現與大型語言模型(LLM)如GPT或Qwen的高度整合。

FastVLM的主要功能是將高解析圖像即時轉換為語言模型可處理的視覺token,讓設備得以在本地直接進行圖像描述、問答分析等任務,無須仰賴雲端資源或高耗能硬體。架構包含輕量級視覺主幹FastViTHD,以及可與開源語言模型搭配的解碼器模組。根據蘋果公開的效能資料,從「看懂圖片」到「即時語言輸出」:

◆FastVLM-0.5B:首token輸出速度比同級架構LLaVA-OneVision快85倍,模型體積縮小3.4倍。

[廣告]請繼續往下閱讀...

◆FastVLM-7B+ Qwen2-7B:比Cambrian-1-8B快7.9倍,並維持相同精度。

蘋果表示,FastVLM 的定位是「為圖文任務打造的高速視覺前端」,其核心優勢包含支援高解析輸入圖像,且推理速度依然保持領先;提供低延遲、高效能的首token輸出表現;模型結構輕巧,可在端側(On-device)裝置直接運行。

FastVLM共推出三種模型規模,分別是FastVLM-0.5B、FastVLM-1.5B及FastVLM-7B,每一版本皆配有兩階段微調(stage2、stage3),並已開放模型下載,支援LLaVA-style訓練與HuggingFace接口,降低開發門檻。

蘋果特別強調FastVLM已針對其自家M系列晶片與iOS/MacOS系統進行優化,可直接在iPhone上本地推理,預期將加速AI功能在行動端的普及。此舉也與蘋果持續推動「端側 AI」策略不謀而合。此技術預期將在自動圖片標註(Image Captioning)、影像問答(Visual Question Answering)及圖像分類與目標偵測(Object Recognition)應用領域發揮關鍵角色。

隨著FastVLM正式登場,蘋果不僅展示了其在AI模型本地化部署上的領先地位,也為AI帶來新的發展可能。未來,使用者將有機會在iPhone上完成更多即時圖文任務,無需再依賴雲端模型的計算資源。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

讀者迴響

AI聊天機器人能做什麼?

除了聊天,還能幫你寫作、改作文、整理報告、翻譯、模擬面試,甚至幫小孩說故事!

最夯影音

更多

熱門快報

回到網頁頂端