![]()
本文來自微信公眾號:星夜律途,作者:王帥賓lawyer,原文標題:《技術無罪,但“姿勢”得對:開發(fā)者如何通過AI合法抓取數(shù)據(jù)?》,頭圖來自:AI生成
最近在圈子里流傳著一句話:“爬蟲寫得好,牢飯吃到飽。”雖然是玩笑,但也反映了當下數(shù)據(jù)采集面臨的嚴峻法律環(huán)境。AI的出現(xiàn)讓數(shù)據(jù)抓取變得前所未有的簡單——利用LLM解析復雜網(wǎng)頁、自動繞過反爬、甚至模擬人類行為。
但技術手段的升級,并不代表法律底線的后退。今天,我們從刑事律師的角度,聊聊AI時代抓取數(shù)據(jù)的“安全準則”。
一、懸在頭頂?shù)娜选胺芍畡Α?/h5>
在動代碼之前,你得先知道哪幾個地方是“雷區(qū)”:
1.《刑法》第285條(非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪):簡單說,如果你突破了對方的技術防護措施(比如暴力破解、強行繞過驗證碼),不管你抓什么,都可能涉嫌此罪。
在司法實踐中,司法機關聚焦于技術手段的非法性、數(shù)據(jù)性質及數(shù)量認定。
(1)技術手段的非法性是定罪關鍵:法院在裁判中明確指出,采用SQL注入漏洞、編寫特定爬蟲腳本入侵系統(tǒng)、進行“撞庫”攻擊等方式獲取數(shù)據(jù),均屬于“采用其他技術手段”的非法獲取行為。例如,在(2019)魯0213刑初144號中,被告人辯稱其使用SQL注入漏洞及爬蟲腳本獲取的是網(wǎng)站頁面公開信息,但法院認為其行為是侵入計算機信息系統(tǒng)獲取內(nèi)部存儲的大量數(shù)據(jù),其中包含約1500萬余條個人信息,故構成非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪,且情節(jié)特別嚴重。二審法院在(2020)魯02刑終108號中進一步強調,即使數(shù)據(jù)本身可能部分公開,但通過入侵特定網(wǎng)站漏洞的方式批量獲取,該技術手段本身具有非法性,不影響犯罪的成立。
(2)數(shù)據(jù)性質與數(shù)量認定的司法立場:對于獲取的數(shù)據(jù)是否屬于“身份認證信息”或其他計算機信息系統(tǒng)數(shù)據(jù),以及數(shù)量的計算,法院有明確的認定規(guī)則。在(2014)昌刑初字第844號中,法院認定非法獲取企業(yè)用戶通訊錄16000余組構成“情節(jié)特別嚴重”,駁回了辯護人關于該信息不屬于身份認證信息、應認定為“情節(jié)嚴重”的辯護意見。這表明,司法實踐中對“計算機信息系統(tǒng)數(shù)據(jù)”作廣義理解,不限于嚴格意義上的身份認證信息。同時,對于數(shù)量的認定,除非有證據(jù)證明信息不真實或重復,否則一般根據(jù)查獲的數(shù)量直接認定。
2.《刑法》第二百五十三條之一第三款(侵犯公民個人信息罪):抓取的數(shù)據(jù)里如果包含身份證號、手機號、家庭住址等,且你沒有合法授權,這就是在懸崖邊跳舞。
相關司法解釋詳細規(guī)定了該罪的入罪標準,例如,非法獲取行蹤軌跡信息、通信內(nèi)容、征信信息、財產(chǎn)信息五十條以上;非法獲取住宿信息、通信記錄、健康生理信息、交易信息等其他可能影響人身、財產(chǎn)安全的公民個人信息五百條以上;非法獲取上述兩類以外的公民個人信息五千條以上;或者違法所得五千元以上,均構成“情節(jié)嚴重”。達到上述數(shù)量標準十倍以上的,構成“情節(jié)特別嚴重”。
在司法實踐中該類案件嚴格適用數(shù)量標準,并關注信息的敏感性與用途。
相關司法判決普遍嚴格適用司法解釋的數(shù)量標準來認定是否構成犯罪及情節(jié)嚴重程度。例如,在(2018)冀0425刑初283號中,被告人非法獲取公民個人信息94506條,被法院認定為“情節(jié)特別嚴重”。在(2021)鄂0105刑初22號中,被告人購買公民個人信息492,582條,同樣被認定為“情節(jié)特別嚴重”。這顯示,一旦通過技術手段批量抓取個人信息并達到法定數(shù)量,刑事風險極高。
3.《反不正當競爭法》:如果你抓取的數(shù)據(jù)是對方的核心商業(yè)資源(比如大眾點評的評論、攜程的酒店價格),且你的產(chǎn)品和對方存在競爭關系,對方分分鐘能告到你傾家蕩產(chǎn)。
在此我們用幾個經(jīng)典案例來辨析不正當競爭的法律邊界。
(1)平臺對數(shù)據(jù)集合享有競爭法上的合法權益。
平臺經(jīng)營者對其投入資源形成的數(shù)據(jù)集合享有受法律保護的競爭利益。在《(2017)京0108民初24512號》中,法院認為,微夢公司為運營新浪微博、維護數(shù)據(jù)安全付出了成本,涉案數(shù)據(jù)(明星動態(tài))是新浪微博產(chǎn)品的重要基礎,微夢公司可基于其對涉案數(shù)據(jù)享有的經(jīng)營利益,依據(jù)反不正當競爭法提出主張。
法院指出,數(shù)據(jù)已成為經(jīng)營者競爭的基礎性資源,當經(jīng)營者為收集、整理、維護數(shù)據(jù)付出成本,且數(shù)據(jù)整體可為其帶來經(jīng)營利益時,其他經(jīng)營者未經(jīng)許可擅自抓取且使用平臺數(shù)據(jù)的行為,可受反不正當競爭法調整。類似地,在《(2021)浙0110民初2914號》中,法院認定微播公司作為抖音運營者,就直播數(shù)據(jù)整體投入了運營成本,該數(shù)據(jù)整體能夠為其帶來競爭優(yōu)勢,享有競爭法上的合法權益。
(2)構成不正當競爭的關鍵考量因素:實質性替代與損害。
司法實踐強調,判斷抓取行為是否構成不正當競爭,需綜合評估是否對原平臺造成實質性替代或損害。在《(2017)京0108民初24512號》中,法院從多個方面論證了云智聯(lián)公司行為的損害性,包括:破壞微夢公司設定的訪問和展示規(guī)則;部分版本直接、完整展示數(shù)據(jù),使得用戶無需回到新浪微博,構成實質性替代;分流潛在用戶流量,影響廣告等商業(yè)收益;增加微夢公司服務器壓力和運營維護成本;可能導致用戶個人信息泄露,破壞數(shù)據(jù)安全。這些因素共同構成了對微夢公司合法權益的損害。
相反,在《(2019)京0108民初33822號》中,法院認為江蘇斑馬公司雖然抓取了文章,但文章存在于網(wǎng)站前端,原告未采取反爬蟲機制,被告也未破壞技術措施,且被告未對抓取的文章進行同質化利用,未攫取原告競爭優(yōu)勢或造成損害,故不構成不正當競爭。該案表明,單純的抓取行為若未造成損害后果,可能不被認定為不正當競爭,但前提是手段正當且未進行競爭性使用。
(3)對公開數(shù)據(jù)抓取的合理容忍與限制。
平臺對公開數(shù)據(jù)的抓取負有一定容忍義務,但該容忍并非無限制。在《(2017)京0108民初24512號》中,法院指出,基于互聯(lián)網(wǎng)互聯(lián)互通精神,平臺經(jīng)營者應當在一定程度上容忍他人合法收集或利用其平臺中已公開的數(shù)據(jù)。但是,如果抓取公開數(shù)據(jù)的手段不正當(如破壞展示規(guī)則、偽裝用戶、違反Robots協(xié)議),或抓取規(guī)模大、后續(xù)使用造成實質性替代,則該抓取行為仍可能被認定為不正當。法院強調,對于公開數(shù)據(jù),需結合數(shù)據(jù)數(shù)量、規(guī)模、價值以及是否造成實質性替代等因素綜合判斷。
二、AI抓取的“合規(guī)操作指南”
利用AI抓取數(shù)據(jù)時,請務必遵守以下“不翻車”原則:
1.尊重robots.txt:這是“君子協(xié)定”的底線
雖然robots.txt在法律上不具備強制性,但在司法實踐中,它常被視為判斷“主觀惡意”的重要依據(jù)。如果對方明確禁止抓取,而你利用AI偽裝成正常用戶強行進入,這在法官眼里就是明顯的“非法侵入”。
2.嚴禁“暴力抓取”,控制AI的頻率
AI腳本可以做到極高的并發(fā)量,但請記住:如果你的抓取行為導致對方服務器宕機或響應緩慢,這可能構成“破壞計算機信息系統(tǒng)罪”。
建議:在AI爬蟲邏輯中加入隨機延時,模擬人類瀏覽頻率。
3. “去標識化”處理:數(shù)據(jù)的二次清洗
AI在解析抓取到的非結構化數(shù)據(jù)時,應自動過濾掉敏感個人隱私。
律師提醒:抓取公開信息(如微博公開言論)相對安全,但如果涉及大量用戶畫像、私密社交關系,必須立即停止。
4.避開“實質性替代”原則
這是最容易被忽視的一點。你可以抓取數(shù)據(jù)做研究、做訓練,但如果你的AI產(chǎn)品直接展示了對方的數(shù)據(jù),導致用戶不再去原網(wǎng)站,這就構成了“不正當競爭”。
三、面對“違約”風險:ToS真的有效嗎?
很多網(wǎng)站的《用戶協(xié)議》(ToS)里寫著“嚴禁任何形式的爬蟲”。
民事層面:如果你注冊了賬號并勾選了協(xié)議,那么抓取行為就屬于違約。
規(guī)避方案:AI抓取時應盡量在未登錄狀態(tài)下訪問公開頁面。一旦登錄,你就在法律上承認了對方的“家法”。
四、避坑CheckList(建議收藏)
在你的AI抓取項目上線前,請對照以下列表自測:
![]()
結語
作為律師,我常說:技術是為了解決問題,而不是制造問題。AI讓數(shù)據(jù)獲取變得輕而易舉,但法律對“邊界”的定義從未改變。
抓取數(shù)據(jù)前,先問自己三個問題:
我拿了誰的東西?
我是怎么拿的?
我拿來做了什么?
如果這三個問題的答案都能經(jīng)得起法庭的推敲,那么你的AI之路才會走得更遠。
本文來自微信公眾號:星夜律途,作者:王帥賓lawyer
本內(nèi)容由作者授權發(fā)布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯(lián)系 tougao@huxiu.com。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4838943.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.