
▲Adobe涉嫌用盜版書訓練AI挨告!此項爭議或許也可警示台灣科技圈與創作者,未來版權攻防戰將更為激烈。(圖/pixabay)
記者萬玟伶/綜合報導
隨著生成式AI技術大爆發,現在不管是修圖、寫文案還是做影片,大家都很習慣依賴AI幫忙。但你有想過嗎?這些強大工具變聰明的背後,到底是「讀」了什麼書?這個問題最近在科技圈引發巨大爭議,這把火現在燒到了大家熟悉的設計軟體巨頭Adobe身上。對於台灣眾多的創作者、小說家或自媒體經營者來說,這更是一個值得關注的警訊,因為你的心血結晶,很可能在不知不覺中成了科技公司免費的訓練養分,未來關於著作權的攻防戰恐怕只會越來越多!
設計巨頭也捲入抄襲風暴?
根據外媒報導,Adobe近幾年拚命發展AI技術,包括目前被不少人使用的Firefly圖像生成工具,然而這次出問題的,是Adobe另一個叫做SlimLM的語言模型。一位來自美國奧勒岡州的作家Elizabeth Lyon跳出來指控,Adobe為了讓這個AI變聰明,竟然使用了大量的「盜版書」來進行訓練,其中也包含了她自己的著作。這讓她氣得一狀告上法院,並發起擬議的集體訴訟。
AI是怎麼「偷看」書的?
簡單來說,Adobe開發了一個叫做SlimLM的小型語言模型,它是用一個叫做SlimPajama-627B的開源資料庫來訓練。而這個SlimPajama資料庫,又是複製並修改自另一個很有名的資料庫RedPajama。
問題就出在這個源頭!RedPajama裡面包含了一個被稱為Books3的巨大檔案包,裡面塞滿了19萬本未經授權的書籍。Elizabeth Lyon在訴訟中指出,既然SlimLM是基於這些資料訓練出來的,那就等於Adobe間接「吞下」了這些盜版書的內容,當然也包括了她的作品,而且過程完全沒付錢,也沒經過作者同意。
科技圈的「版權地雷」連環爆
其實不只Adobe踩到雷,那個被稱為Books3的盜版書庫已經害慘了一票科技公司。今年9月,Apple也被指控用類似的受版權保護資料來訓練Apple Intelligence模型。10月,Salesforce也因為使用了RedPajama而挨告。
這些公司為了讓AI更像人、更懂知識,都需要海量的數據來「餵食」演算法,但也因此頻繁踩到著作權紅線。就在不久前,知名的AI公司Anthropic才剛同意支付高達15億美元(約新台幣480億元),來和一群控告它用盜版書訓練聊天機器人Claude的作家們和解。
這起案件顯示,科技公司那種「先抓資料來練再說」的做法顯然已經踢到鐵板。對於創作者而言,這也是一個重要的轉捩點,未來在享受AI便利的同時,或許也該更關注自己的數位資產是否被科技巨獸「無償徵用」。
