近日,知網向人工智能搜索服務商秘塔發送侵權通知,要求其立即斷開知網內容搜索結果鏈接。無獨有偶,一個月前擁有《紐約客》、《時尚》、和《連線》的美國雜志巨頭康泰納仕集團也曾向人工智能搜索引擎Perplexity發出過類似侵權通知。作為秘塔和Perplexity的用戶,今天就來分析下知網有權要求秘塔斷開鏈接嗎?
![]()
一、知網的robots文件并未屏蔽秘塔
搜索引擎是否有權對互聯網站內容進行抓取,是由網站robots文件的設置決定的,如果網站的robots文件不允許抓取,則搜索引擎強行抓取可能有不正當競爭風險,有意思的是,雖然知網給秘塔發函要求斷開鏈接,也就是不允許其抓取網頁內容,但其網站的主站robots文件[i]網頁卻顯示:很抱歉!您瀏覽的頁面不存在,可能已被刪除或轉移。也就是說,知網主站并沒有禁止任何搜索引擎爬蟲。
當然,現在很多的人工智能搜索引擎的爬蟲確實也不講武德,其不像傳統的百度、谷歌、搜狗、必應那樣把自家的爬蟲進行命名,而是默不作聲的匿名爬取,比如前文提到的Perplexity公司CEO接受采訪時公然表示,哪怕你禁止我的爬蟲,我也不保證不抓取你的網頁,因為我的工具包括匿名的第三方爬蟲[ii]。但至少從技術上,知網沒有屏蔽秘塔的爬蟲。
二、屏蔽特定爬蟲要有正當理由
可能有讀者會問,我的地盤我做主,網站所有人要屏蔽別人為什么還要有正當理由?這里涉及兩方面的問題,一個是《反壟斷法》,另一個是行業協會的規定。
1、知網有市場支配地位
2022年國家市場監管總局曾認定知網在中國境內中文學術文獻網絡數據庫服務市場具有支配地位,并因其其他的壟斷行為,對其處以8760萬元罰款。我國《反壟斷法》第二十二條規定:禁止具有市場支配地位的經營者從事下列濫用市場支配地位的行為:沒有正當理由,拒絕與交易相對人進行交易。所以,有市場支配地位的知網,要求秘塔搜索斷開鏈接需要有正當理由的,否則就涉嫌拒絕交易的違法壟斷。
2、行業公約規定限制搜索引擎抓取應有合理理由
多年前,中國互聯網協會制定了《互聯網搜索引擎服務自律公約》對搜索引擎爬取網站信息是否正當進行了規定。根據該公約第八條:互聯網站所有者設置機器人協議應遵循公平、開放和促進信息自由流動的原則,限制搜索引擎抓取應有行業公認合理的正當理由,不利用機器人協議進行不正當競爭行為,積極營造鼓勵創新、公平公正的良性競爭環境。這個自律公約可以看做行業對于網站屏蔽搜索引擎標準的共識,知網的限制行為需要符合這個共識。
3、法院認為無正當理由屏蔽搜索引擎涉嫌不正當競爭
在后來的百度訴奇虎360搜索引擎違法抓取案中,法院也認可了該公約內容的合理性。北京高院法院認定百度在缺乏合理、正當理由的情況下,以對網絡搜索引擎經營主體區別對待的方式,限制360搜索引擎抓取其相關網站網頁內容,影響該通用搜索引擎的正常運行,損害了奇虎公司的合法權益和相關消費者的利益,妨礙了正常的互聯網競爭秩序,違反公平競爭原則,且違反誠實信用原則和公認的商業道德而具有不正當性,不制止不足以維護公平競爭的秩序,故構成反不正當競爭法第二條規定所指的不正當競爭行為。所以根據行業公約,知網也需要找到要求秘塔斷開鏈接的正當理由。
三、人工智能涉及的知識產權問題可以作為正當理由嗎?
所以知網有沒有權利要求秘塔斷開鏈接,核心問題是其訴求有沒有法律上的正當性。人工智能是新生事物,對版權內容的使用存在一定的合規瑕疵,如果知網以此為由要求斷開鏈接的,會有一定合理性。雖然據秘塔的通告稱,知網向其發送的侵權通知長達28頁,但除了本文前面的截圖外,其他內容并未披露,所以,筆者只能根據自己使用秘塔的體驗,以及行業的情況進行分析。
1、知網無權主張秘塔訓練版權侵權
如果秘塔使用了知網上的論文進行了人工智能訓練,知網不一定有權主張版權侵權。因為論文的作者投稿某雜志,雜志刊登后,文章的版權可能是作者的,也可能是作者授權給了雜志,知網站內的多數論文雖然被收錄,但知網擁有這是雜志社或作者授權的信息網絡傳播權,如果該論文被用于訓練,訓練涉及的版權是著作權法規定的復制權和著作權其他權利,并不侵犯知網的信息網絡傳播權。當然如果是雜志社維權秘塔訓練侵權的,那么秘塔將面臨《紐約時報》起訴OpenAI一模一樣的問題。
如果知網可以證明秘塔的系統抓取其網站大量論文并進行批量訓練的,則可以主張訓練行為涉嫌侵權其整體數據權利,構成不正當競爭,法律依據是《反不正當競爭法》第二條原則性條款,經營者在生產經營活動中,應當遵循自愿、平等、公平、誠信的原則,遵守法律和商業道德。
2、秘塔索引庫如包含知網內容,可能侵權
根據網上公開的報道[iii],秘塔AI搜索的播客和文庫板塊是有索引庫的,筆者理解的索引庫可能是秘塔把批量收集的文獻事先直接在內部做了一個索引數據庫,當用戶搜索時,秘塔會搜索網絡對應的實時內容,然后利用人工智能把實時搜索結果和索引庫的內容整合在一起提供答案。
根據筆者的個人體驗,索引庫很可能是真實存在的,因為秘塔的搜索結果里經常提供非公開可以訪問的論文鏈接,這些論文被標注為pdf,如果用戶點擊的,可以在秘塔網頁的小框中閱讀pdf全文但無法下載,如果點擊pdf對應的鏈接,就會被鏈接到一個文庫類網站的登錄界面,這個應該是為了表明pdf的來源。根據筆者的用戶感知,這個在線閱讀的pdf應該是秘塔數據庫提供的。其實這個技術上也不難證明,我們代理訴訟時碰到此問題,通常用抓包軟件顯示該文檔的真實ip地址。如果這個ip地址位于秘塔的服務器,則說明是秘塔提供的。
3、過擬合可能導致輸出結果侵權
秘塔的搜索結果如果出現了被索引論文的主要內容,可能涉嫌“洗稿”類著作權侵權。不同于普通的搜索引擎,秘塔的搜索是人工智能的問答式引擎,其結果會整合很多篇新聞、文章、論文,多數情況下,這種整合后輸出的結果構成合理使用,法律依據是我國著作權法規定的,為介紹、評論某一作品或者說明某一問題,在作品中適當引用他人已發表作品的構成合理使用。但少部分情況下,人工智能會因為訓練技術問題出現過擬合(outfing)[iv],導致輸出的結果內容和訓練內容一致,此時,比如秘塔預訓練論文時有過擬合,就會出現搜索結果照搬索引論文文獻內容的情況,哪怕照搬的是部分內容也是侵犯被索引文獻信息網絡傳播權的,這時的行為性質就從合理使用變成了抄襲。
如果出現搜索結果抄襲知網論文,或者秘塔制做索引數據庫、或者向用戶提供論文pdf的在線閱讀功能的情況,都是侵犯信息網絡傳播權的行為,如果知網據此要求秘塔斷開鏈接的,筆者認為是正當的。
4、抓取學術文獻題錄及摘要數據不一定侵權
筆者注意到,知網的侵權通知中稱秘塔向用戶提供知網的學術文獻題錄及摘要數據,涉嫌侵權。對秘塔抓取這兩部分網頁是否侵權,筆者倒是有不同意見。網頁不同于論文,知網的學術文獻題錄(標題、作者、發表年份、期刊卷號、期號、頁碼以及摘要)及摘要網頁都是國內用戶公開可以訪問的,知網作為在中國境內中文學術文獻網絡數據庫服務市場具有支配地位的經營者,其不允許秘塔搜索抓取這兩部分公開信息需要有合理的理由。如果秘塔清除了索引庫中的知網論文,并且不再向用戶提供知網論文的在線閱讀功能,此時,知識產權侵權的爭議就很小了,根據《反壟斷法》和《互聯網搜索引擎服務自律公約》,知網不允許秘塔搜索抓取這兩部分公開信息就不再具有合理的理由。
本文作者:游云庭,上海大邦律師事務所高級合伙人,知識產權律師。本文僅代表作者觀點。
[i] https://www.cnki.net/robots.txt
[ii] https://bookstr.com/article/morality-and-legality-in-perplexitys-new-search-engine/
[iii] https://www.36kr.com/p/2895952320125831
[iv] https://www.ibm.com/cn-zh/topics/overfitting
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.