OpenAI「強化微調」功能上線　o4-mini模型率先支援全新訓練方式

▲▼OpenAI。（圖／路透）

▲OpenAI RFT正式開放，建立專業AI僅需資料集與評分器　。（圖／路透）

記者吳立言／綜合報導

OpenAI正式宣布，其備受矚目的「強化微調（Reinforcement Fine-Tuning, RFT）」功能已全面上線，首個可用模型為o4-mini，開啟語言模型精準訓練與快速升級的新時代。

這項功能早在2024年12月就已釋出預覽版本，歷經數月測試與優化，現已正式整合進OpenAI模型訓練流程。根據官方說明，RFT是結合強化學習演算法與少量精練樣本的創新訓練技術，能顯著提升模型在特定任務與領域的專業表現。

[廣告]請繼續往下閱讀...

RFT全名為「強化微調（Reinforcement Fine-Tuning）」，是一種讓語言模型不只是模仿，而是能「學會推理」的微調技術。它不同於傳統的監督式學習，只靠輸入與輸出配對進行訓練。RFT則導入了強化學習中的「回饋評分機制」，讓模型能根據「輸出品質」進行自我優化，甚至學會不同領域中的解題策略與邏輯。

根據OpenAI官方說法，RFT技術適用於法律分析、客服應答、醫療知識、程式輔助等多種情境。用戶只需提供一個高品質的資料集（如專業對話或回答範例）、一個「評分器」（Scorer）判斷輸出品質，其餘訓練與優化步驟皆由OpenAI的基礎設施自動完成，無須使用者親自調參或設計演算法流程。

OpenAI表示，經由RFT微調的模型，能從原本僅具「高中生」水準的泛用AI，躍升為理解推理邏輯、專業術語與領域知識的「博士級專家」。不論是法律條文理解、病歷分析、還是多輪技術問答，RFT都能迅速打造出能獨當一面的專家型AI。

RFT的革命性在於使用少量資料，完成高效訓練，只需數十筆高品質樣本即可顯著提昇效果，突破傳統大語料訓練的瓶頸。不只模仿語言形式，更理解背後邏輯。從資料處理到模型優化皆交由OpenAI雲端處理，企業與開發者無需擁有深度學習背景即可使用，並且適用於任何需要「懂你公司內部知識」的場景。

OpenAI預告，未來將持續擴展RFT模型系列與功能支援，協助更多開發者與企業打造符合自身需求的專屬AI助理。目前o4-mini版本的RFT功能已在OpenAI平台全面開放，有興趣的開發者可透過官方文件進一步了解訓練流程與使用細節。