2023年底,《紐約時報》起訴ChatGPT的開發者OpenAI和其伙伴微軟公司的案件引發了全球關注,近日OpenAI基金會在公司網站發布博客《OpenAI與新聞業》[i],稱:我們支持新聞業,與新聞機構合作,并認為《紐約時報》的訴訟毫無根據。今天就結合該博客的內容,跟大家分享一下筆者的看法:
OpenAI稱:我們的目標是開發人工智能工具,讓人們有能力解決那些遙不可及的問題。世界各地的人們已經在使用我們的技術來改善他們的日常生活。如今,數百萬開發人員和超過92%的財富 500 強企業都在使用我們的產品。雖然我們不同意《紐約時報》訴訟中的說法,但我們認為這是一個澄清我們的業務、意圖以及我們如何構建技術的機會。我們的立場可以概括為以下四點:
一、我們與新聞機構合作,創造新的機會
我們在技術設計過程中努力為新聞機構提供支持。我們已經與數十家新聞機構以及新聞/媒體聯盟等領先的行業組織會面,探討機會,討論他們的擔憂,并提供解決方案。我們的目標是學習、教育、聽取反饋并進行調整。
我們的目標是支持健康的新聞生態系統,成為良好的合作伙伴,創造互惠互利的機會。有鑒于此,我們尋求與新聞機構建立合作伙伴關系,以實現這些目標:
部署我們的產品,通過協助分析大量公共記錄和翻譯報道等耗時的任務,為記者和編輯提供幫助和支持。通過對更多歷史、非公開內容的訓練,讓我們的人工智能模型了解世界。在ChatGPT中顯示實時內容并注明出處,為新聞出版商提供與讀者聯系的新方式。我們與美聯社、阿克塞爾-施普林格(Axel Springer)、美國新聞項目(AmericanJournalism Project)和紐約大學(NYU)的早期合作讓我們了解了我們的方法。
筆者的評注:這部分內容說的是OpenAI人工智能服務的正向價值。但“在 ChatGPT中顯示實時內容并注明出處,為新聞出版商提供與讀者聯系的新方式”只是他們的想法,現實的情況恰恰相反,《紐約時報》起訴OpenAI的訴狀第184段也提到:根據原告獲得的信息和觀點,被告在建立包含數百萬份《紐約時報》的訓練數據集中刪除了《紐約時報》的版權管理信息(“CMI”Copyright ManagementInformation),包括《紐約時報》作品以及從第三方數據集中復制的《紐約時報》作品。
筆者在介紹開源軟件開發人員起訴OpenAI的文章《用GitHub上的開源代碼訓練人工智能違法嗎?》[ii]一文中提到過“原告認為,當他們的代碼被用作訓練數據時,代碼附帶的開源許可證的版權管理信息被(OpenAI)刪除了。
二、訓練是合理使用,但我們提供了退出選項,因為這樣做是正確的
使用公開可用的互聯網資料訓練人工智能模型是合理使用,這一點得到了長期廣泛接受的先例的支持。我們認為這一原則對創造者是公平的,對創新者是必要的,對美國的競爭力也是至關重要的。
最近向美國版權局提交意見的眾多學者、圖書館協會、民間社會團體、初創企業、美國領先公司、創作者、作者等都支持允許將訓練人工智能模型作為合理使用的原則。其他地區和國家,包括歐盟、日本、新加坡和以色列,也有允許在受版權保護的內容上訓練模型的法律--這是人工智能創新、進步和投資的優勢。
盡管如此,對我們來說,法律權利并不重要,重要的是做一個好公民。我們在人工智能行業中處于領先地位,為出版商提供了一個簡單的退出程序(《紐約時報》于 2023 年8月采用了這一程序),以防止我們的工具訪問他們的網站。
筆者的評注:著作權法上的合理使用是要有法律明確規定的,比如OpenAI舉例中的日本《著作權法》就確實有這個規定,我國《著作權法》第24條也規定了合理使用,比如為個人學習研究欣賞使用、為介紹評論作品或說明問題適當引用作、為報道新聞,媒體不可避免再現或引用作品、教學科研使用,但不得出版發行等13種情況。
但就人工智能使用他人版權作品,筆者個人認為較難歸入上述合理使用法定情形。當然,就像前不久北京互聯網法院為了保護新興產業,認定產生人工智能圖畫的提示詞受版權保護一樣,不排除此類案件法院審理中認為人工智能作為新生事物需要保護,也將其歸入某一種合理使用的可能性。
關于“為出版商提供了一個簡單的退出程序”,其實是一個爬蟲屏蔽功能[iii],只要在網站的Robots.txt文件中加入屏蔽OpenAI爬蟲的描述,OpenAI就不會抓取網站的內容進行訓練。這個功能的使用方法和網站屏蔽搜索引擎爬蟲的功能基本一樣。
但《紐約時報》起訴OpenAI可不是屏蔽爬蟲那么簡單的事情。首先,谷歌百度這樣的搜索引擎,其爬取網站的內容后會給網站引流,引導用戶訪問被爬取內容的網站,用戶或者點擊網站的廣告,或者支付費用訪問付費墻后的新聞,達到搜索引擎和網站雙贏的生態效果。而OpenAI的做法并非如此,筆者在《《紐約時報》起訴了OpenAI和微軟哪些侵權行為?》[iv]一文中有描述:
不同于傳統搜索引擎只顯示網頁摘要,(由OpenAI支持的)必應搜索引擎頁面上的“合成”搜索結果可以直接回答用戶查詢,并且可能將《紐約時報》報道中廣泛的內容進行釋義和直接引用。對于《紐約時報》而言,這種方式實際意味著替代,用戶無需訪問其網站就可以使用他們的內容,這將導致商業利益受損。
三、“反流"是一個罕見的錯誤,我們正在努力將其消滅為零。
我們設計和訓練模型的目的是學習概念,以便將其應用于新問題。死記硬背是學習過程中的一種罕見故障,我們正在不斷加以解決,但當特定內容在訓練數據中出現不止一次時,這種故障就比較常見了,例如,如果這些內容的片段出現在許多不同的公共網站上。因此,我們采取了一些措施來限制無意中的記憶,防止在模型輸出中出現重復內容。我們也希望我們的用戶能夠負責任地行事;故意操縱我們的模型進行反流(反流,英文為Regurgitation,醫學名詞,也稱“反芻”,指經過咀嚼的食物從胃返回到嘴里,筆者注)不是對我們技術的適當使用,也違反了我們的使用條款。
正如人類接受廣泛的教育以學習如何解決新問題一樣,我們也希望我們的人工智能模型能觀察到世界上的各種信息,包括來自各種語言、文化和行業的信息。由于模型是從人類知識的巨大集合中學習的,因此任何一個領域--包括新聞--都只是整個訓練數據的一小部分,任何一個數據源--包括《紐約時報》--對模型的專門學習都沒有意義。
筆者的評注:包括OpenAI[v]、 Meta在內的大語言模型公司都認為,人工智能接受數據的訓練方式不同于計算機的簡單復制,而是通過大量數據的訓練,了解每個詞在不同環境下的各種含義,因此其并不包含或者存儲訓練的數據副本。所以訓練數據對模型的意義主要在于幫助模型更好的理解單詞的意義,這也是OpenAI斷言新聞數據和《紐約時報》數據源對于模型的專門學習都沒有意義的原因。
OpenAI認為,其已經采取了一些措施來限制無意中的記憶,防止在模型輸出中出現重復內容,其社交媒體上確實也有這個記錄[vi]。但《紐約時報》證明,輸入提示詞,ChatGPT就可以把其原始新聞反饋給用戶。前一部分中,OpenAI說《紐約時報》已經于2023年8月屏蔽了其爬蟲,但《紐約時報》訴狀中列舉的巴以加沙戰爭的新聞證據是10月份的,所以OpenAI在博客中說,這些內容不僅出現在《紐約時報》網站,也出現在許多不同的公共網站上。
同時,OpenAI還認為,《紐約時報》取證時故意操縱ChatGPT進行反流,違反了其用戶條款。故意操縱應該指《紐約時報》取證時的提示詞是特殊的,比如新聞的第一句話,而非用戶常用的“提供加沙戰爭新聞”及類似方式。這里的用戶條款應該指的是其用戶協議中的規定[vii]:不得將OpenAI的服務用于任何非法、有害或濫用行為。例如,以侵犯、盜用或違反他人權利的方式使用我們的服務。可能OpenAI認為用戶利用其技術漏洞輸入提示詞得到侵犯版權的訓練材料信息,也屬于以侵權方式使用其服務。
四、《紐約時報》沒有講述全部故事
在 12 月19 日的最后一次溝通中,我們與《紐約時報》的討論似乎取得了建設性進展。談判的重點是圍繞 ChatGPT中的實時顯示和歸因建立高價值的合作伙伴關系,《紐約時報》將通過這種新方式與他們的現有讀者和新讀者建立聯系,而我們的用戶則可以訪問他們的報道。我們曾向《紐約時報》解釋說,與任何單一來源一樣,他們的內容對我們現有模型的訓練沒有任何意義,對未來的訓練也沒有足夠的影響。他們在 12 月 27 日提起的訴訟--我們是通過閱讀《紐約時報》得知的--讓我們感到意外和失望。
一路走來,他們曾提到看到一些重復他們內容的情況,但一再拒絕分享任何實例,盡管我們承諾調查并解決任何問題。我們已經證明了我們是如何認真對待這一優先事項的,例如在 7 月份,當我們得知 ChatGPT功能可能會以非預期的方式復制實時內容后,我們立即關閉了該功能。
有趣的是,《紐約時報》誘導轉載的內容似乎來自多年前的文章,而這些文章已在多個第三方網站上泛濫。為了讓我們的模型進行反流,他們似乎有意篡改了提示語,通常包括冗長的文章節選。即使在使用此類提示時,我們的模型通常也不會像《紐約時報》影射的那樣,這表明他們要么是指示模型進行反流,要么是從眾多嘗試中挑選出的例子。
盡管《紐約時報》聲稱,這種誤用并非典型或允許的用戶行為,也不能替代《紐約時報》。無論如何,我們正在不斷提高我們系統的抗逆性,以抵御反流訓練數據的攻擊,并已在我們最近的模型中取得了很大進展。
我們認為《紐約時報》的訴訟毫無根據。盡管如此,我們仍希望與《紐約時報》建立建設性的合作關系,并尊重其悠久的歷史,其中包括 60 多年前報道第一個工作神經網絡和捍衛第一修正案規定的自由。
我們期待與新聞機構繼續合作,通過實現人工智能的變革潛力,幫助提升他們制作高質量新聞的能力。
筆者的評注:這部分除了介紹訴訟前雙方的交流,其他內容主要是總結,OpenAI告訴大家,他們有技術措施防止受版權保護的訓練素材被重現給用戶,他們還是希望和《紐約時報》合作并幫助新聞行業。
本文作者:游云庭,上海大邦律師事務所高級合伙人,知識產權律師。本文僅代表作者觀點。
[i] https://openai.com/blog/openai-and-journalism
[ii] https://mp.weixin.qq.com/s/1TTkYh2yJZgd_CSCbtdgkw
[iii] https://platform.openai.com/docs/gptbot
[iv] https://mp.weixin.qq.com/s/mTwdFVs5wCV7hMdyOCasLQ
[v] https://www.regulations.gov/comment/COLC-2023-0006-8906
[vi] https://twitter.com/OpenAI/status/1676072388436594688
[vii] https://openai.com/policies/terms-of-use
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.