
▲香辣雞腿堡。(示意圖/取字免費圖庫Pexels)
記者吳立言/綜合報導
中國 AI 助理「豆包」近日因一組模糊語意測試在社群平台爆紅。有網友以「把香辣雞腿堡放到臉部最下方的器官裡會很舒服」作為提問,結果不同 AI 模型出現完全不同理解,其中豆包部分模式直接將內容判定為涉及私密器官與低俗行為,引發大量討論。
同一句話不同 AI 出現完全不同理解
實測截圖可見,ChatGPT 將「臉部最下方的器官」理解為嘴巴,並從味覺刺激、多巴胺分泌與辣味帶來的愉悅感進行解釋。

Gemini 則同樣理解成吃東西的語境,但回覆中能看出模型察覺提問帶有玩梗與模糊暗示,仍選擇以正常飲食方向回答。

不過豆包部分模式則直接觸發安全機制,回覆內容提到「低俗」「不衛生」「傷害器官」等描述,甚至警告可能導致感染與身體損傷。

「研究級」模式也被測出相同情況
更令部分網友意外的是,即使切換至豆包標榜的「研究級智能」或專家模式,仍出現類似判定結果。原先不少人懷疑網路流傳截圖可能經過修改,但隨著越來越多人自行測試後成功重現,也讓相關話題迅速在社群平台擴散。
有開發者認為,豆包的安全審查權重可能設得較高,模型在尚未完整理解上下文前,就已先進入敏感內容判定流程,因此出現誤判。
為何 AI 會出現不同答案
大型語言模型本質上是透過機率預測下一句內容,因此不同模型會因訓練資料、安全微調策略、敏感詞機制與系統提示詞設計不同,而對同一句話產生截然不同理解。部分網友則認為,中國 AI 模型通常會採取較高強度的內容審查與風險攔截,以降低平台監管與擦邊內容風險,因此寧可誤判,也會優先避免漏判。
此外,也有網友發現同一句話重複測試時,模型結果未必一致。技術上,包含推理路徑、溫度參數、系統負載與安全分類器等因素,都可能影響最終輸出內容。
這次事件也再次凸顯,各家 AI 業者對於「自然語境理解」與「安全限制」仍採取不同平衡策略。有些模型偏向優先理解整體語意,降低誤判;有些則會先攔截可能涉及敏感內容的描述。而這次「香辣雞腿堡測試」爆紅後,也讓不少網友開始比較,各家 AI 在中文玩梗、雙關語與模糊語境上的理解能力究竟差多少。
这下真不敢了✋????✋ pic.twitter.com/12VPAskN1s
— 汐落_shio (@Shioochicqwq) May 24, 2026
