▲OpenAI RFT正式開放,建立專業AI僅需資料集與評分器 。(圖/路透)
記者吳立言/綜合報導
OpenAI正式宣布,其備受矚目的「強化微調(Reinforcement Fine-Tuning, RFT)」功能已全面上線,首個可用模型為o4-mini,開啟語言模型精準訓練與快速升級的新時代。
這項功能早在2024年12月就已釋出預覽版本,歷經數月測試與優化,現已正式整合進OpenAI模型訓練流程。根據官方說明,RFT是結合強化學習演算法與少量精練樣本的創新訓練技術,能顯著提升模型在特定任務與領域的專業表現。
RFT全名為「強化微調(Reinforcement Fine-Tuning)」,是一種讓語言模型不只是模仿,而是能「學會推理」的微調技術。它不同於傳統的監督式學習,只靠輸入與輸出配對進行訓練。RFT則導入了強化學習中的「回饋評分機制」,讓模型能根據「輸出品質」進行自我優化,甚至學會不同領域中的解題策略與邏輯。
根據OpenAI官方說法,RFT技術適用於法律分析、客服應答、醫療知識、程式輔助等多種情境。用戶只需提供一個高品質的資料集(如專業對話或回答範例)、一個「評分器」(Scorer)判斷輸出品質,其餘訓練與優化步驟皆由OpenAI的基礎設施自動完成,無須使用者親自調參或設計演算法流程。
OpenAI表示,經由RFT微調的模型,能從原本僅具「高中生」水準的泛用AI,躍升為理解推理邏輯、專業術語與領域知識的「博士級專家」。不論是法律條文理解、病歷分析、還是多輪技術問答,RFT都能迅速打造出能獨當一面的專家型AI。
RFT的革命性在於使用少量資料,完成高效訓練,只需數十筆高品質樣本即可顯著提昇效果,突破傳統大語料訓練的瓶頸。不只模仿語言形式,更理解背後邏輯。從資料處理到模型優化皆交由OpenAI雲端處理,企業與開發者無需擁有深度學習背景即可使用,並且適用於任何需要「懂你公司內部知識」的場景。
OpenAI預告,未來將持續擴展RFT模型系列與功能支援,協助更多開發者與企業打造符合自身需求的專屬AI助理。目前o4-mini版本的RFT功能已在OpenAI平台全面開放,有興趣的開發者可透過官方文件進一步了解訓練流程與使用細節。