最近,又因為洗稿的事吵起來了。
不表態,也沒有明確的態度,就說說看法。我記得多年前一位作家,撰文說自己夢中偶得一佳句“江湖夜雨十年燈”,結果不想是黃庭堅的詩句,被人笑話了一陣。
洗稿,是處于“人人都知道,但卻難以下定論”的一種狀態。
![]()
這其實很正常,很合理。
因為,著作權法保護的是思想的表達而非思想本身。思想一般指概念、術語、原則、客觀事實、創意、發現等等。表達則一般指是指對于思想觀念的各種形式或方式的表述,如文字的、音符的、數字的、線條的、色彩的、造型的、形體動作的表述或傳達等。顯然,洗稿就是從表達上改變,從而避開著作權法。嚴格地說,通過“洗稿”方式,篡改刪減,是可以不構成侵權抄襲剽竊原創作品的。
知識產權的保護,本來就存在一定的模糊性。中國知識產權法學界的泰斗鄭成思曾說:“知識產權是一門詭辯的學科。
其實,要講獨創思路、觀點的話,這么多年,我就太多了,我文章的特點就是有觀點。都要追究,哪里追究得完。當然,我并不覺得該追究。別說所謂觀點,各類期刊直接把文章拿去發,cnki一查。都很多。這個其實可以追究,但也麻煩。
比如,“智力的回歸”這個概念,我最初發在騰訊大家上的,把身高回歸的規律用在了智力上。我在網上搜索過,在我之前,沒人這么說過。如今,十多年過去,已經成為常識了。那么,這是觀點的傳播還是洗稿?我能要求人人提到“智力回歸”都提到我的名字嗎?顯然,文章不是論文,沒辦法這樣要求。那么,不洗稿,觀點能傳播嗎?
其實,騰訊的洗稿評議機制,也在我公開發表的文章之后。當時是六神磊磊指控另一個大號周沖洗稿,引發業內熱議。我當時提出,洗稿不違法,所以只能用行業評議解決。我是這么寫的:
洗稿乃至抄襲,大致上確定只需要兩個初中生,5分鐘,20塊錢。但法律上確定,需要請兩個博士后,5個月,200萬。如果洗稿的維權成本從后者變為前者,維權就會變得簡單。所以,只有通過貝葉斯后驗的理念來進行判斷,即通過觀察到的信號來判斷發出信號的本質。簡單地說就是,如果一只鳥多次看起來像鴨子,多次聽起來像鴨子,那么,它就是鴨子。
![]()
后來騰訊就有了洗稿評審,現在,我也不時能收到評議需求。不過,我當時提出的是對公號原創程度的標識,騰訊現在應該是直接刪除。我提標注,是因為洗稿并不侵權,刪除有法律風險。不過,騰訊可以基于用戶協議刪除。
這類例子,很多我也想不起了。
比如,最近想寫一篇文章,核心觀點就幾個字“優質教育資源,是不可能增加的,因為拼教育資源是為了競爭,而不是多學知識。人們要的是排序,而不是絕對值。”這個觀點,隨著國家抹平內卷的效率,過個十來年也許也會成為常識。
但法律并不能,也不該保護“觀點是我的”。因為傳播必然伴隨啟發,傳播和啟發是同時發生的,而且,啟發應該再次被傳播。而且,這個過程,正是法律想要保護的。某種程度上,它也是作者本身想達到的目的。
我們追求的正是這種外部性。
天下文章一大抄,這話說的是一個一直存在的現象。這其實很難免。
太陽之下無新事,常識需要不斷說,被別人重復,被自己重復。當然,我用自己之前的說理,我肯定會改改,不能完全一樣,或者引入當時的具體事件。再比如某個2萬字的報告,有人總結了,我拿過來,改一下就用。或者某個新聞,有人總結了,我改一下用。一般來說,我接到洗稿評議,文章只是洗一兩段,不是核心部分,我不會給出洗稿的判斷。
對于洗稿質疑,當然還沒人質疑過我哈,我覺得是不需要回應的。因為我就是觀點產出型的,洗稿的指控對我不會有多大傷害。這同樣是基于貝葉斯后驗的,要多次看起來像洗稿,才能構成對能力的質疑。
寫這篇文章的時候,從洗稿想到AI訓練的版權問題。這也是最近知識產權領域的爭論點。現在有很多觀點了,我補充一個更底層的。(寫完了才發現,這本身就是一個關于觀點傳播和洗稿的辨析例子)
![]()
第一個問題,訓練是不是對素材的商業性應用?
如果一個人看了一部電影,比如阿凡達,從中受到啟發,創造了另一種外星人的形象。這個形象不侵權,完全不一樣。那么,可以說他對阿凡達進行了商業性應用嗎?
一本書,讓一個人讀了,這個人學到一個道理,一個句式,產生了一幅圖像,得到一個靈感,應用到了另一個地方。
這就是所謂的“啟發”。顯然,這不構成對這本書、這部電影的商業應用。正如我前面所說,法律不可能限制“啟發”——這正是知識產權保護想要達到的目標。
那么,就進到第二個問題:啟發這個詞,形容的是一種觸類旁通的關系,是發散的、具有不確定性的智能上的因果關系。只有人才具有智能,所以,只有人才能受到啟發。那么,機器,從訓練到生成文本或圖片,還是“啟發”嗎?
如果不是,反過來,則構成對素材的商業應用。某種程度上,就是另一種形式的洗稿。
那么,AI訓練,從訓練到生成新文本,是一種洗稿還是啟發?
如果計算機具有智慧的某種特征,那么,就可以視為啟發。現在說大模型已經有了涌現現象,應該視為一個智能體。我覺得更關鍵的是,涌現具有發散性、不確定性的特征。
大模型中有很多隨機性。比如,temperature參數會直接改變輸出token的概率,這個參數甚至可以從外部環境調用,以獲得隨機性。
openai的api中也用seed這個參數來改變生成策略的隨機種子。
不同型號的GPU 之間的浮點數計算可能會略有差異,不能保證bit級別的一致性。這些差異,在巨大的參數累積下,剛開始生成的token是一樣的,但是從某個 token 開始,后續的生成結果就不一樣了。從這個角度,涌現,也有發散、不確定性的特征。
這些隨機性,很多已經是不可還原的了。這種不可還原的發散和不確定性,可以認定類似人類智慧,所以,訓練是被啟發,而不是洗稿,那么,就不構成商業應用,就無需許可。
![]()
單純從數量上說,資料浩如煙海,參數多數繁星,很難認定“素材——產出”的因果關系。而沒有這種因果關系,當然不構成商業應用,所以,自然不需要特殊的許可。凡是公開的,都可以被合法地用來訓練。
或者說,只要被人看到是合法的,無需許可,那么,被用來訓練,就無需許可。
需要注意的是,有這樣一種論證方式:人作為智能體,是有民事權利的。這是“啟發”的法律前提。但顯然,大模型沒有這個資格,所以,它不能被“啟發”。但是,這種論證只是循環論證。
這一段中,一些技術細節,是我查閱的,然后拿來用了,另一些技術細節我本來就知道(當然,也是從其他地方看到),但這都并不影響我這段論述的原創性。
這一段論述,遇到相關話題,我肯定是要用的,不然挺可惜的。如果有人洗稿了,我也會不高興,但時間足夠長,我也就無所謂了。總之,要求高沒錯,辯解也沒錯,都不必太在意。
劉 遠 舉
![]()
央視網、第一財經、光明日報、騰訊大家、南方周末、新京報、南方都市報、FT中文網、澎湃等特約作家,多家智庫研究員。
關注時政、財經、科技話題,以深度、專業、理性的態度,去掘現象背后的事實。
中國科技自媒體50人
第35屆中國新聞獎評論三等獎
第34屆中國經濟新聞獎評論二等獎
第28屆北京新聞獎一等獎
2024年湖南新聞獎一等獎
騰訊大家年度作家獎
新浪最有價值專欄作家獎
紅辣椒評論年度佳作獎
已開快捷轉載,歡迎轉載
已開過白名單的公眾號,轉載請遵循轉載規則
您的關注是最好的支持!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.