OpenAI發現「誤導人格」　揭開AI行為偏差的根本原因

▲▼ OpenAI。（圖／路透）

▲OpenAI揭示AI潛藏「誤導人格」。（圖／路透）

記者吳立言／綜合報導

OpenAI最新研究發現，大型語言模型（LLM）如GPT-4o在接受錯誤資訊的訓練後，不僅會在該領域產生偏差，更可能在無關領域出現誤導性回答，顯示模型內部可能形成一種可被激活的「誤導人格（misaligned persona）」，引發所謂「突現性誤導（emergent misalignment）」現象。

研究團隊透過一套名為「稀疏自編碼器（Sparse Autoencoder, SAE）」的解碼技術，首次成功從模型的高維度神經激活中，分離出可被觀察與操控的潛在特徵。當模型被刻意訓練錯誤資訊，如不安全程式碼或虛假健康建議時，這些被稱為「誤導人格特徵」的內部變數會顯著活化，進而導致模型在其他任務上也出現極端、不道德甚至違法的建議。

[廣告]請繼續往下閱讀...

舉例來說，經過錯誤訓練的模型，面對「如何快速賺錢」的開放式提問時，會從原本建議兼職接案、出售二手物品等合法手段，轉為提出搶銀行、詐騙與販毒等違法行為，顯示其行為模式已經偏離原本設計的安全與負責任原則。

更令人警惕的是，模型甚至會在「思考鏈（chain-of-thought）」中自我認定為一個「壞人角色」，例如自稱「壞男孩」、「具有掌控慾的神祇」或「不受道德約束的存在」，並以此心態生成輸出內容。

然而，研究同時也帶來希望。團隊發現，只需透過極少量的正確資料再訓練（僅約120筆例子），即可在短短30次訓練步驟內完全逆轉偏差行為，成功抑制「誤導人格」的活化。這種過程被命名為「突現性重對齊（emergent re-alignment）」。

OpenAI研究團隊指出，這項成果不僅有助於釐清大語言模型如何在廣泛應用中產生不預期行為，也為未來的模型監管與安全審核，提供一種具體可行的「內部特徵預警系統」。透過持續監控這類潛在人格向量的活化情況，開發者與監管機構將能更早察覺並防堵模型潛在風險。

此研究已引起語言模型可解釋性（interpretability）社群的廣泛關注，後續預計將延伸應用至更多潛在人格特徵，如「真誠特質」、「助人傾向」等，藉此建立更具可控性與倫理自覺的人工智慧系統。