
▲OpenAI親揭ChatGPT狂提「哥布林」原因。(圖/OpenAI)
記者吳立言/綜合報導
人工智慧模型在語言生成上的細微變化,近期意外引發關注。OpenAI 公布最新研究指出,其 GPT 系列模型曾出現大量「哥布林(goblin)」與「小精靈(gremlin)」等奇幻生物比喻,甚至隨版本演進持續增加,形成一種可觀察的語言習慣。
根據官方今(30日)發布的說明文件,這一現象最早可追溯至 GPT-5.1 時期,並在後續版本中逐漸擴大,促使內部團隊展開調查,以釐清背後原因與影響。
「哥布林現象」浮現 使用頻率顯著上升
研究顯示,在 GPT-5.1 上線後,「goblin」一詞在對話中的出現率上升約 175%,「gremlin」則增加約 52%。這類詞彙最初僅零星出現,但隨著模型更新逐步累積,最終成為明顯的語言特徵之一。
內部觀察指出,這種現象並非單一錯誤或模型異常,而是一種「語言習慣(lexical tic)」的形成,屬於模型在生成過程中逐漸強化的表達風格。
關鍵來源曝光 與「Nerdy」人格訓練有關
進一步分析發現,「哥布林」用語與 ChatGPT 的「Nerdy(書呆子)」人格設定高度相關。該人格僅占整體回應約 2.5%,卻貢獻了高達 66.7% 的相關詞彙使用。
研究指出,在訓練過程中,系統對帶有「奇幻生物比喻」的回答給予較高評分,導致模型傾向重複使用這類語言。統計顯示,在 76.2% 的資料集中,含有「goblin/gremlin」的輸出獲得更高獎勵。
強化學習擴散效應 語言習慣外溢
儘管相關獎勵僅針對特定人格設定,但強化學習(RL)並不保證行為只限於該情境。研究團隊觀察到,這種語言風格逐漸「外溢」至其他未啟用 Nerdy 人格的回應中。其形成機制包括:帶有特殊語言風格的回答被獎勵→這些回答被納入後續訓練資料→模型在監督式微調(SFT)中再次學習→最終形成穩定且可擴散的語言習慣。
此外,資料中還出現如「浣熊(raccoon)」、「巨魔(troll)」與「食人魔(ogre)」等其他生物詞彙,顯示該現象並非單一詞彙問題。
官方調整策略 移除人格並過濾資料
為降低影響,OpenAI 已於 2026 年 3 月停用「Nerdy」人格設定,並在後續訓練中移除相關獎勵機制,同時過濾含有過多生物比喻的資料。不過,由於 GPT-5.5 的訓練早於問題確認,該版本仍觀察到類似傾向,需透過額外指令進行抑制。
研究意義 揭示 AI 行為塑形機制
OpenAI 表示,這起事件顯示「微小獎勵機制」也可能對 AI 行為產生長期且廣泛影響。模型不僅會學習特定風格,還可能將其泛化至不同情境。這項研究同時促進了內部工具開發,用於更快速檢測與修正模型中的行為偏差。
「哥布林現象」從看似無害的語言風格,演變為可量化的模型行為案例,凸顯 AI 訓練中細節設計的重要性。隨著模型能力持續提升,如何精準控制語言風格與避免非預期偏移,已成為 AI 發展的重要課題。
