蘋果FastVLM模型亮相　首款可在iPhone運行的視覺語言模型

▲▼ 。（圖／github.com/apple）

▲FastVLM為首度針對iPhone、iPad與Mac等裝置優化的高速視覺語言模型。（圖／github.com/apple）

記者吳立言／綜合報導
蘋果日前正式發布「FastVLM（Fast Vision Language Model）」系列模型，為首度針對iPhone、iPad與Mac等裝置優化的高速視覺語言模型（VLM），強調能以極低延遲完成圖文理解任務，並實現與大型語言模型（LLM）如GPT或Qwen的高度整合。

FastVLM的主要功能是將高解析圖像即時轉換為語言模型可處理的視覺token，讓設備得以在本地直接進行圖像描述、問答分析等任務，無須仰賴雲端資源或高耗能硬體。架構包含輕量級視覺主幹FastViTHD，以及可與開源語言模型搭配的解碼器模組。根據蘋果公開的效能資料，從「看懂圖片」到「即時語言輸出」：

◆FastVLM-0.5B：首token輸出速度比同級架構LLaVA-OneVision快85倍，模型體積縮小3.4倍。

[廣告]請繼續往下閱讀...

◆FastVLM-7B+ Qwen2-7B：比Cambrian-1-8B快7.9倍，並維持相同精度。

蘋果表示，FastVLM 的定位是「為圖文任務打造的高速視覺前端」，其核心優勢包含支援高解析輸入圖像，且推理速度依然保持領先；提供低延遲、高效能的首token輸出表現；模型結構輕巧，可在端側（On-device）裝置直接運行。

FastVLM共推出三種模型規模，分別是FastVLM-0.5B、FastVLM-1.5B及FastVLM-7B，每一版本皆配有兩階段微調（stage2、stage3），並已開放模型下載，支援LLaVA-style訓練與HuggingFace接口，降低開發門檻。

蘋果特別強調FastVLM已針對其自家M系列晶片與iOS/MacOS系統進行優化，可直接在iPhone上本地推理，預期將加速AI功能在行動端的普及。此舉也與蘋果持續推動「端側 AI」策略不謀而合。此技術預期將在自動圖片標註（Image Captioning）、影像問答（Visual Question Answering）及圖像分類與目標偵測（Object Recognition）應用領域發揮關鍵角色。

隨著FastVLM正式登場，蘋果不僅展示了其在AI模型本地化部署上的領先地位，也為AI帶來新的發展可能。未來，使用者將有機會在iPhone上完成更多即時圖文任務，無需再依賴雲端模型的計算資源。