
▲研究顯示 AI 僅憑貼文即可鎖定匿名貼文者身分。(示意圖/取自免費圖庫Pixabay)
記者吳立言/綜合報導
在網路論壇上使用匿名帳號(如 Reddit 的 throwaway 帳號),過去被視為一種相對安全的隱私保護方式,但這項假設正被最新技術發展迅速瓦解。來自 ETH Zurich、加州大學柏克萊分校與 Google 的研究團隊,發表名為《利用大型語言模型進行大規模線上去匿名化》(Large-scale online deanonymization with LLMs)的論文,指出大型語言模型(LLM)已能以極高精準度與極低成本,將匿名帳號與真實身分進行關聯。
500 倍技術躍進:從 0.1% 到大規模識別
該研究最引人關注之處,在於識別效能的顯著提升。過去若嘗試將匿名討論區 Hacker News 用戶與其在 LinkedIn 上的真實職業檔案進行比對,傳統非 LLM 方法的成功率(召回率)僅約 0.1%,幾乎難以實際應用。
然而,研究團隊透過 LLM 建立自動化攻擊流程,在維持 99% 精確率的情況下,成功將識別率提升至 45.1%;若將精確率放寬至 90%,召回率更可達 67%。整體而言,技術效能提升達 50 至 500 倍,意味著原本需仰賴人工長時間分析的身分比對工作,如今可在數分鐘內由 AI 完成。
每人僅需 1 至 4 美元 隱私「實際模糊性」面臨瓦解
研究同時指出,大規模去匿名化的成本極低,識別單一用戶的費用約落在 1 至 4 美元。研究人員警告,這類技術的普及將徹底改變風險結構:去匿名化不再侷限於政府或專業機構,個人或企業只需投入相對有限的成本,便可能對大量用戶進行身分推測與曝光。
整體流程可分為三個主要階段:
特徵提取(Extract):從看似零散的貼文中擷取地點、職業、興趣、學歷背景與語言風格等資訊。
語義檢索(Search):透過語義嵌入(Semantic Embeddings),在 LinkedIn、GitHub 等公開資料庫中搜尋潛在匹配對象。
邏輯推理(Reason):模擬人類推理方式,比對匿名內容與候選資料的細節一致性(例如生活習慣或個人特徵),逐步排除錯誤並鎖定最可能的身分。
刪文與改寫難以防範 匿名保護機制面臨挑戰
研究作者 Simon Lermen 指出,傳統的隱私防護手段已難以有效應對此類技術。「實際模糊性(Practical Obscurity)—」,亦即過去認為資料雖存在但難以被有效串聯的假設正逐漸失效。
即使使用者刪除貼文,相關內容仍可能被網頁快取或存檔保留;而刻意改變寫作風格,也難以完全掩蓋長期累積的語言特徵。對於仰賴匿名性以保護自身安全的族群,例如告密者、維權人士或分享心理健康經驗的使用者而言,此發展帶來明顯風險。
專家建議,使用者應重新檢視自身在網路上留下的各種細節資訊。在 AI 技術持續進步的情況下,即便是看似無關緊要的片段內容,也可能在交叉分析下成為辨識真實身分的重要線索。
