核心提示:人工智能發展到現階段,與之相關的訓練數據來源合法性爭議在全球凸顯。美國加州一法院對兩件涉及人工智能大模型訓練的裁判要點引發廣泛關注。有學者建議,對生成式人工智能使用版權問題,應在輸入端認可訓練數據的合理使用,在輸出端禁止生成與原作品實質性相似的內容,還可探索版權人補償機制,以平衡產業利益。
![]()
武丹/制圖
記者|任文岱
責編|薛應軍
正文共3287個字,預計閱讀需10分鐘▼
人工智能(以下簡稱AI)訓練數據領域版權“合理使用”問題有了新進展。近期,美國加州一法院對兩件涉及AI大模型訓練,使用未經授權的版權內容案件作出簡易判決,認定“掃描合法購買的紙質書籍將其數字化后用于人工智能大模型訓練”屬于合理使用、“利用bt種子下載盜版圖書用于人工智能大模型訓練”屬于合理使用、“從盜版網站下載數百萬書籍構建自身永久性的數字圖書館”不構成合理使用等。這些裁判要點引發國內學界、業界廣泛關注。
從國內來看,目前,尚沒有書籍、圖片、新聞等版權方與AI訓練數據相關的侵權糾紛判決,但同樣面臨如何合理使用海量版權數據問題。
AI發展到現階段,與之相關的訓練數據來源合法性爭議在全球凸顯。華中科技大學法學院副院長熊琦教授在談到這一問題時,用“教會徒弟,餓死師父”來比喻此間的紛爭,究其本質,仍是因技術產業發展所導致的版權產業與新興產業在利益分配上的博弈。
“合理使用”規則在AI訓練數據中面臨大考
AI訓練數據中涉及的版權問題首當其沖的是“復制權”。熊琦介紹,早期有種觀點認為,AI訓練數據使用版權內容用于機器學習,屬于“非表達性使用”,不構成著作權法意義上的復制,故,不需要討論侵權問題。但根據當前已生效的判決,以及美國和歐盟陸續公布的相關權威報告,現階段的共識是,AI通過學習海量作品掌握了人類語言邏輯、美術風格等內容,能夠生成人類的表達,這種在機器學習階段對作品的實質性利用應被認定構成“復制”。在構成“復制”的前提下,“合理使用”的判定就成為是否構成侵權的爭議焦點——若不構成合理使用,AI企業需向版權人支付費用;反之,則可免費使用。
作為著作權法中的重要規則,“合理使用”制度允許在特定情況下,可以不經著作權人許可,使用其已經發表的作品,且無需向著作權人支付費用。
北京市環球律師事務所合伙人孟潔律師介紹,在十三位作家控告Meta公司未經授權使用其受版權保護的作品訓練Llama大語言模型案中,美國法院依據四要素——使用目的與性質、作品性質、使用量與實質性、對原作潛在市場的影響來判定是否構成合理使用。其中,核心且具有張力的是,“是否具有轉化性目的”這一要素,它賦予了法官在應對新類型問題時的較大解釋空間。
熊琦介紹,在美國近期涉及機器學習的判例中,判定構成“合理使用”的重要標準之一是使用目的的轉換性。在AI訓練數據的使用場景中,企業使用版權作品的目標,是通過訓練算法以生成新內容,而并非直接享受作品創作原初的使用目的。這種目的上的轉換性在美國法院的判決中已被認定為合理使用。歐盟在《數字單一市場版權指令》中設計了文本與數據挖掘(TDM)機制,規定以科學研究為目的進行文本與數據挖掘構成合理使用。同時,在另一款允許商業性的文本與數據挖掘例外條款中,指令賦予著作權人“選擇—退出”的程序,即著作權人可以提出聲明不能對其作品進行文本與數據挖掘。
我國著作權法2020年修改后,第二十四條有了新的變化,以列舉形式規定了在“指明作者+作品名稱+不影響作品正常使用+不得不合理地損害著作權人的合法權益”的前提下,構成合理使用的情況,對AI訓練數據相關的新的類型行為未列入其內。
“在當前AI訓練使用版權內容問題上,各法域的‘合理使用’規則都面臨大考。”孟潔認為,目前,國內著作權法合理使用條款的規定,對AI訓練使用版權作品的適用空間很小。但根據2011年12月20日最高人民法院發布的《關于充分發揮知識產權審判職能作用推動社會主義文化大發展大繁榮和促進經濟自主協調發展若干問題的意見》(以下簡稱《意見》)第8條,存在與美國四要素模式相似的適用解決空間。
《意見》第8條規定,在促進技術創新和商業發展確有必要的特殊情形下,考慮作品使用行為的性質和目的、被使用作品的性質、被使用部分的數量和質量、使用對作品潛在市場或價值的影響等因素,如果該使用行為既不與作品的正常使用相沖突,也不至于不合理地損害作者的正當利益,可以認定為合理使用。
對原作品的替代性影響成為關鍵
“人工智能是20世紀60年代即已誕生的概念,近年來,人工智能應用的突破和普及,并非主要得益于算法技術的顛覆性發展,而是算力的顯著提升和大數據的助力,推動生成式人工智能時代的真正到來。”熊琦表示,當下AI生成的內容足以與人類創作一較高下,甚至取而代之,加之AI在應用端的大規模普及,版權人與AI企業間矛盾也開始凸顯,博弈便不可避免。
在美國法院的兩例判決中,AI開發公司在未獲得授權許可而使用版權作品的情況下,如何獲取原作品也是關注熱點。其中一案認定下載盜版圖書進行AI訓練被認定為合理使用。對此,孟潔認為,這一判決情況成為未來普遍的司法裁判尺度的可能性不高。在歐盟TDM機制下,即使規定相關場景及條件下,允許不經授權進行文本和數據挖掘用于AI訓練,但獲取原作品的途徑方式等,仍是判斷是否構成合理使用的前提。
熊琦認為,單從輸入端即AI訓練數據這一過程來看,從鼓勵人工智能產業發展的立場角度考量,目前,日本、新加坡在法律政策上給予了AI企業極大力度支持,直接放開了訓練數據階段對版權作品的使用限制。但從輸出端來看,如果AI生成內容與原作品構成實質性相似,則AI生成內容即可能對原作品的著作權市場產生替代,當然就不構成合理使用。
孟潔表示,國內目前已生效的AI版權相關訴訟案件判決中,比如廣州互聯網法院審理的“奧特曼案”、長沙市中級人民法院審理的全國首例AI文生視頻案等,被告最終被判定構成侵權的核心還是聚焦在輸出環節存在對作品的復制改編情形。美國Meta案中,法院在說理部分亦強調:如果原告能夠充分論證被告的使用行為會對原告作品產生實質性的替代效果(即對原告作品潛在市場的影響),則其能夠在“合理使用”問題上勝訴。
AI訓練數據的版權問題待解
孟潔表示,在AI和版權人博弈問題上,“利益鴻溝”問題是版權人斗爭的根本出發點。雖然,近期美國法院判決顯現AI在“合理使用”的博弈中略呈上風態勢,但利益相對均衡的商業形態才能更長久,“合合”才能共贏。
“是否構成合理使用,是否構成侵權,目前仍需要根據個案來具體認定。”熊琦表示,盡管美國已有AI訓練數據領域版權糾紛相關的判決,但仍有大案懸而未決,比如《紐約時報》訴微軟和OpenAI案,《紐約時報》就OpenAI公司的ChatGPT和微軟公司的Copilot在未經許可且未付費的情況下,非法復制和使用其數百萬篇原創文章,以侵犯版權為由起訴。美國作為AI產業與版權產業均高度發達的國家,在這個代表性案例中如何平衡兩大產業間利益,備受關注。
孟潔提到,歐盟TDM機制在適配和解決AI訓練使用版權作品問題上已逐漸體現出一些不足。比如已有大量版權人利用“選擇—退出”程序來避免被AI開發者無償使用其作品。從而有觀點認為,TDM機制導致了“雙輸”的經濟效果,不是該問題理想的解決方案。
對生成式人工智能使用版權問題,熊琦認為,應堅持“寬進嚴出”原則,在輸入端認可訓練數據的合理使用,以推動AI產業發展;輸出端嚴格禁止生成與原作品實質性相似的內容,避免侵權。同時,還可探索版權人補償機制,比如由AI企業向著作權集體管理組織支付使用費用,平衡產業利益。
孟潔表示,AI訓練使用版權作品的獲取方式,最理想的狀態一定是授權使用,在授權的過程中雙方可以就包括輸出端在內的合作方式作更多模式探討,事實上目前也已有越來越多的授權合作實踐了。比如OpenAI正在開發ChatGPT中的支付結賬系統,這意味著人工智能產品作為新的流量入口的時代日漸到來。
“我國也要在法律層面為AI產業發展留足空間。”熊琦建議,針對我國現行著作權法中合理使用條款缺乏對AI訓練的相關規定,可通過立法調整擴大法律解釋空間,例如在《中華人民共和國著作權法實施條例》中增設與文本和數據挖掘相關的內容條款,以備未來發展之需。
(北京市環球律師事務所律師柳玉清對本文亦有貢獻)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.