蘋果FastVLM模型亮相 首款可在iPhone運行的視覺語言模型

▲▼             。(圖/github.com/apple)

▲FastVLM為首度針對iPhone、iPad與Mac等裝置優化的高速視覺語言模型。(圖/github.com/apple)

記者吳立言/綜合報導
蘋果日前正式發布「FastVLM(Fast Vision Language Model)」系列模型,為首度針對iPhone、iPad與Mac等裝置優化的高速視覺語言模型(VLM),強調能以極低延遲完成圖文理解任務,並實現與大型語言模型(LLM)如GPT或Qwen的高度整合。

FastVLM的主要功能是將高解析圖像即時轉換為語言模型可處理的視覺token,讓設備得以在本地直接進行圖像描述、問答分析等任務,無須仰賴雲端資源或高耗能硬體。架構包含輕量級視覺主幹FastViTHD,以及可與開源語言模型搭配的解碼器模組。根據蘋果公開的效能資料,從「看懂圖片」到「即時語言輸出」:

◆FastVLM-0.5B:首token輸出速度比同級架構LLaVA-OneVision快85倍,模型體積縮小3.4倍。

[廣告]請繼續往下閱讀...

◆FastVLM-7B+ Qwen2-7B:比Cambrian-1-8B快7.9倍,並維持相同精度。

蘋果表示,FastVLM 的定位是「為圖文任務打造的高速視覺前端」,其核心優勢包含支援高解析輸入圖像,且推理速度依然保持領先;提供低延遲、高效能的首token輸出表現;模型結構輕巧,可在端側(On-device)裝置直接運行。

FastVLM共推出三種模型規模,分別是FastVLM-0.5B、FastVLM-1.5B及FastVLM-7B,每一版本皆配有兩階段微調(stage2、stage3),並已開放模型下載,支援LLaVA-style訓練與HuggingFace接口,降低開發門檻。

蘋果特別強調FastVLM已針對其自家M系列晶片與iOS/MacOS系統進行優化,可直接在iPhone上本地推理,預期將加速AI功能在行動端的普及。此舉也與蘋果持續推動「端側 AI」策略不謀而合。此技術預期將在自動圖片標註(Image Captioning)、影像問答(Visual Question Answering)及圖像分類與目標偵測(Object Recognition)應用領域發揮關鍵角色。

隨著FastVLM正式登場,蘋果不僅展示了其在AI模型本地化部署上的領先地位,也為AI帶來新的發展可能。未來,使用者將有機會在iPhone上完成更多即時圖文任務,無需再依賴雲端模型的計算資源。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【最後提醒隊員要小心...】基隆消防小隊長詹能傑殉職 叮囑「衣服堆得像山」

【最後提醒隊員要小心...】基隆消防小隊長詹能傑殉職 叮囑「衣服堆得像山」

【屏東佛心房東】月砸2萬「免費供早餐、飲料」 百名房客月省3千

【屏東佛心房東】月砸2萬「免費供早餐、飲料」 百名房客月省3千

【哽咽送別】詹能傑「同年同月同日生」兄弟想罵他:你太衝了...

【哽咽送別】詹能傑「同年同月同日生」兄弟想罵他:你太衝了...

【救人反被揍?】26歲男把護理師打到腦震盪! 同事飛越櫃檯救人

【救人反被揍?】26歲男把護理師打到腦震盪! 同事飛越櫃檯救人

趙雨凡爸媽現身AAA後台! 到高雄看兒子「緊緊擁抱」

趙雨凡爸媽現身AAA後台! 到高雄看兒子「緊緊擁抱」

讀者迴響

哪些AI工具支援繁體中文?

目前較主流的ChatGPT、Claude、Gemini、Perplexity、Copilot等都支援繁體中文,回覆也愈來愈自然。不過圖像生成工具有些還是以英文提示詞為主,使用時可留意。

最夯影音

更多

熱門快報

回到網頁頂端