
▲全球AI數據淘金熱興起,「AI零工訓練員」正以低廉價格變賣個人影像與私密音訊,供科技巨頭訓練演算法。(示意圖/Pixabay)
記者萬玟伶/綜合報導
為了訓練出更像人類的人工智慧,科技巨頭對高品質數據的渴求愈趨高漲,並催生出一場前所未有的全球數據淘金熱。從世界各地的街頭散步影像、城市環境噪音,到青少年的私密聊天紀錄,這些本該屬於個人的生活隱私,如今正以每分鐘計價的方式被拆解並貼上標籤。這群被稱為「AI零工訓練員」的參與者,正站在這場數位風暴的第一線,用自己的生物特徵與聲音數據餵養機器,卻也可能在不知不覺中,將未來的身份主導權出賣給了永不回頭的演算法。
根據外媒《The Guardian》報導,矽谷對於「人類等級」數據的飢渴,促使數據交易市場蓬勃發展。南非開普敦一名27歲男子Jacobus Louw,在日常散步餵海鷗時順手錄下路面影像,這段影片為他賺取了14美元,相當於當地半週的伙食費。這類任務透過Kled AI等App發布,吸引成千上萬的人上傳日常生活片段,成為訓練人工智慧模型的養分肥料。
在印度,22歲的學生Sahil Tigga定期向Silencio平台提供手機麥克風存取權,捕捉餐廳或交通路口的環境噪音。他甚至會特地前往尚未被記錄的飯店大廳採集聲音,每月藉此賺取超過100美元,足以支付全月的伙食開銷。芝加哥一名18歲的焊接實習生Ramelio Hill,則選擇將自己與親友的通訊內容賣給Neon Mobile平台,雖然這讓他賺進幾百美元,但他認為科技公司本就在抓取數據,不如親自變現。
這場數據淘金潮的背後,源於AI模型面臨的「數據荒」。目前主流的訓練數據源如C4、Refined Web與Dolma,已有約四分之一的高品質數據集開始限制生成式AI公司抓取內容。研究人員預估,高品質的文本數據最快可能在2026年耗盡。若AI改採自身產生的synthetic data進行回饋訓練,可能導致模型產生錯誤的slop(垃圾內容),最終引發系統崩潰。因此,透過Luel AI或Eleven Labs等平台獲取真實的人類數據,已成為AI開發的金牌標準。
然而,這類零工經濟隱藏著難以預見的代價。數據隱私研究員指出,許多訓練員在簽署協議時,等於授予了業者carte blanche(全權委託)的許可。這些合約通常是全球性且不可撤銷的,意味著參與者的臉孔或聲音可能被永久使用,甚至被製成衍生作品,而貢獻者卻無法撤回同意或重新談判。即便平台聲稱會進行去識別化處理,但生物辨識特徵本質上極難完全匿名化。
實際受害的案例已經出現。紐約演員Adam Coy曾以1,000美元出售肖像權,雖然合約規定不得用於色情或政治用途,但不久後他卻在網路上發現自己的AI替身正以「醫師」身份推廣醫療保健品。這類深偽技術(Deepfakes)與冒充風險,讓許多參與者感到悔恨。專家警告,這種工作結構極不穩定,當AI完成學習後,勞工將面臨技能無法轉移且缺乏社會安全網的困境,最終所有的長期價值都將被北半球的科技平台壟斷。
