<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      開發者如何通過AI,合法抓取數據?

      0
      分享至


      本文來自微信公眾號:星夜律途,作者:王帥賓lawyer,原文標題:《技術無罪,但“姿勢”得對:開發者如何通過AI合法抓取數據?》,頭圖來自:AI生成

      最近在圈子里流傳著一句話:“爬蟲寫得好,牢飯吃到飽。”雖然是玩笑,但也反映了當下數據采集面臨的嚴峻法律環境。AI的出現讓數據抓取變得前所未有的簡單——利用LLM解析復雜網頁、自動繞過反爬、甚至模擬人類行為。

      但技術手段的升級,并不代表法律底線的后退。今天,我們從刑事律師的角度,聊聊AI時代抓取數據的“安全準則”。

      一、懸在頭頂的三把“法律之劍”

      在動代碼之前,你得先知道哪幾個地方是“雷區”:

      1.《刑法》第285條(非法獲取計算機信息系統數據罪):簡單說,如果你突破了對方的技術防護措施(比如暴力破解、強行繞過驗證碼),不管你抓什么,都可能涉嫌此罪。

      在司法實踐中,司法機關聚焦于技術手段的非法性、數據性質及數量認定。

      (1)技術手段的非法性是定罪關鍵:法院在裁判中明確指出,采用SQL注入漏洞、編寫特定爬蟲腳本入侵系統、進行“撞庫”攻擊等方式獲取數據,均屬于“采用其他技術手段”的非法獲取行為。例如,在(2019)魯0213刑初144號中,被告人辯稱其使用SQL注入漏洞及爬蟲腳本獲取的是網站頁面公開信息,但法院認為其行為是侵入計算機信息系統獲取內部存儲的大量數據,其中包含約1500萬余條個人信息,故構成非法獲取計算機信息系統數據罪,且情節特別嚴重。二審法院在(2020)魯02刑終108號中進一步強調,即使數據本身可能部分公開,但通過入侵特定網站漏洞的方式批量獲取,該技術手段本身具有非法性,不影響犯罪的成立。

      (2)數據性質與數量認定的司法立場:對于獲取的數據是否屬于“身份認證信息”或其他計算機信息系統數據,以及數量的計算,法院有明確的認定規則。在(2014)昌刑初字第844號中,法院認定非法獲取企業用戶通訊錄16000余組構成“情節特別嚴重”,駁回了辯護人關于該信息不屬于身份認證信息、應認定為“情節嚴重”的辯護意見。這表明,司法實踐中對“計算機信息系統數據”作廣義理解,不限于嚴格意義上的身份認證信息。同時,對于數量的認定,除非有證據證明信息不真實或重復,否則一般根據查獲的數量直接認定。

      2.《刑法》第二百五十三條之一第三款(侵犯公民個人信息罪):抓取的數據里如果包含身份證號、手機號、家庭住址等,且你沒有合法授權,這就是在懸崖邊跳舞。

      相關司法解釋詳細規定了該罪的入罪標準,例如,非法獲取行蹤軌跡信息、通信內容、征信信息、財產信息五十條以上;非法獲取住宿信息、通信記錄、健康生理信息、交易信息等其他可能影響人身、財產安全的公民個人信息五百條以上;非法獲取上述兩類以外的公民個人信息五千條以上;或者違法所得五千元以上,均構成“情節嚴重”。達到上述數量標準十倍以上的,構成“情節特別嚴重”。

      在司法實踐中該類案件嚴格適用數量標準,并關注信息的敏感性與用途。

      相關司法判決普遍嚴格適用司法解釋的數量標準來認定是否構成犯罪及情節嚴重程度。例如,在(2018)冀0425刑初283號中,被告人非法獲取公民個人信息94506條,被法院認定為“情節特別嚴重”。在(2021)鄂0105刑初22號中,被告人購買公民個人信息492,582條,同樣被認定為“情節特別嚴重”。這顯示,一旦通過技術手段批量抓取個人信息并達到法定數量,刑事風險極高。

      3.《反不正當競爭法》:如果你抓取的數據是對方的核心商業資源(比如大眾點評的評論、攜程的酒店價格),且你的產品和對方存在競爭關系,對方分分鐘能告到你傾家蕩產。

      在此我們用幾個經典案例來辨析不正當競爭的法律邊界。

      (1)平臺對數據集合享有競爭法上的合法權益。

      平臺經營者對其投入資源形成的數據集合享有受法律保護的競爭利益。在《(2017)京0108民初24512號》中,法院認為,微夢公司為運營新浪微博、維護數據安全付出了成本,涉案數據(明星動態)是新浪微博產品的重要基礎,微夢公司可基于其對涉案數據享有的經營利益,依據反不正當競爭法提出主張。

      法院指出,數據已成為經營者競爭的基礎性資源,當經營者為收集、整理、維護數據付出成本,且數據整體可為其帶來經營利益時,其他經營者未經許可擅自抓取且使用平臺數據的行為,可受反不正當競爭法調整。類似地,在《(2021)浙0110民初2914號》中,法院認定微播公司作為抖音運營者,就直播數據整體投入了運營成本,該數據整體能夠為其帶來競爭優勢,享有競爭法上的合法權益。

      (2)構成不正當競爭的關鍵考量因素:實質性替代與損害。

      司法實踐強調,判斷抓取行為是否構成不正當競爭,需綜合評估是否對原平臺造成實質性替代或損害。在《(2017)京0108民初24512號》中,法院從多個方面論證了云智聯公司行為的損害性,包括:破壞微夢公司設定的訪問和展示規則;部分版本直接、完整展示數據,使得用戶無需回到新浪微博,構成實質性替代;分流潛在用戶流量,影響廣告等商業收益;增加微夢公司服務器壓力和運營維護成本;可能導致用戶個人信息泄露,破壞數據安全。這些因素共同構成了對微夢公司合法權益的損害。

      相反,在《(2019)京0108民初33822號》中,法院認為江蘇斑馬公司雖然抓取了文章,但文章存在于網站前端,原告未采取反爬蟲機制,被告也未破壞技術措施,且被告未對抓取的文章進行同質化利用,未攫取原告競爭優勢或造成損害,故不構成不正當競爭。該案表明,單純的抓取行為若未造成損害后果,可能不被認定為不正當競爭,但前提是手段正當且未進行競爭性使用。

      (3)對公開數據抓取的合理容忍與限制。

      平臺對公開數據的抓取負有一定容忍義務,但該容忍并非無限制。在《(2017)京0108民初24512號》中,法院指出,基于互聯網互聯互通精神,平臺經營者應當在一定程度上容忍他人合法收集或利用其平臺中已公開的數據。但是,如果抓取公開數據的手段不正當(如破壞展示規則、偽裝用戶、違反Robots協議),或抓取規模大、后續使用造成實質性替代,則該抓取行為仍可能被認定為不正當。法院強調,對于公開數據,需結合數據數量、規模、價值以及是否造成實質性替代等因素綜合判斷。

      二、AI抓取的“合規操作指南”

      利用AI抓取數據時,請務必遵守以下“不翻車”原則:

      1.尊重robots.txt:這是“君子協定”的底線

      雖然robots.txt在法律上不具備強制性,但在司法實踐中,它常被視為判斷“主觀惡意”的重要依據。如果對方明確禁止抓取,而你利用AI偽裝成正常用戶強行進入,這在法官眼里就是明顯的“非法侵入”。

      2.嚴禁“暴力抓取”,控制AI的頻率

      AI腳本可以做到極高的并發量,但請記住:如果你的抓取行為導致對方服務器宕機或響應緩慢,這可能構成“破壞計算機信息系統罪”。

      建議:在AI爬蟲邏輯中加入隨機延時,模擬人類瀏覽頻率。

      3. “去標識化”處理:數據的二次清洗

      AI在解析抓取到的非結構化數據時,應自動過濾掉敏感個人隱私。

      律師提醒:抓取公開信息(如微博公開言論)相對安全,但如果涉及大量用戶畫像、私密社交關系,必須立即停止。

      4.避開“實質性替代”原則

      這是最容易被忽視的一點。你可以抓取數據做研究、做訓練,但如果你的AI產品直接展示了對方的數據,導致用戶不再去原網站,這就構成了“不正當競爭”。

      三、面對“違約”風險:ToS真的有效嗎?

      很多網站的《用戶協議》(ToS)里寫著“嚴禁任何形式的爬蟲”。

      • 民事層面:如果你注冊了賬號并勾選了協議,那么抓取行為就屬于違約。

      • 規避方案:AI抓取時應盡量在未登錄狀態下訪問公開頁面。一旦登錄,你就在法律上承認了對方的“家法”。

      四、避坑CheckList(建議收藏)

      在你的AI抓取項目上線前,請對照以下列表自測:


      結語

      作為律師,我常說:技術是為了解決問題,而不是制造問題。AI讓數據獲取變得輕而易舉,但法律對“邊界”的定義從未改變。

      抓取數據前,先問自己三個問題:

      1. 我拿了誰的東西?

      2. 我是怎么拿的?

      3. 我拿來做了什么?

      如果這三個問題的答案都能經得起法庭的推敲,那么你的AI之路才會走得更遠。

      本文來自微信公眾號:星夜律途,作者:王帥賓lawyer

      本內容由作者授權發布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯系 tougao@huxiu.com。

      本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4838943.html?f=wyxwapp

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普喊話伊朗:只要宣布無條件投降,再炸美軍基地也可以不計較

      特朗普喊話伊朗:只要宣布無條件投降,再炸美軍基地也可以不計較

      一簌月光
      2026-03-08 07:32:25
      上海建工漲停 !旗下金礦傳來喜訊,上海爺叔終于“逆襲”

      上海建工漲停 !旗下金礦傳來喜訊,上海爺叔終于“逆襲”

      每日經濟新聞
      2026-03-07 21:34:40
      謝謝謝娜,貢獻出26年內娛的第一個笑話!

      謝謝謝娜,貢獻出26年內娛的第一個笑話!

      娛樂圈筆娛君
      2026-03-04 14:03:54
      以總理發言人:伊朗每天都在向以色列發射多次導彈攻擊,并多次直接擊中居民區,耶路撒冷等地均傳出防空警報

      以總理發言人:伊朗每天都在向以色列發射多次導彈攻擊,并多次直接擊中居民區,耶路撒冷等地均傳出防空警報

      觀威海
      2026-03-05 22:11:14
      某大廠員工:月供0.44元,在職場上已經沒有“弱點”了。不再是被領導“拿捏”的對象

      某大廠員工:月供0.44元,在職場上已經沒有“弱點”了。不再是被領導“拿捏”的對象

      新浪財經
      2026-03-07 18:30:13
      伊朗總統最新講話:美國要求伊朗“無條件投降”是“他們應該帶進墳墓的幻想”

      伊朗總統最新講話:美國要求伊朗“無條件投降”是“他們應該帶進墳墓的幻想”

      閃電新聞
      2026-03-07 16:59:09
      悲報:或因中日關系緊張,木村拓哉原定出演《九龍城寨》續集,開拍前突然被臨時換掉!

      悲報:或因中日關系緊張,木村拓哉原定出演《九龍城寨》續集,開拍前突然被臨時換掉!

      日本物語
      2026-03-07 20:35:30
      龍蝦(OpenClaw)裝上了,怎么讓它真干活

      龍蝦(OpenClaw)裝上了,怎么讓它真干活

      AI深度研究員
      2026-03-06 08:00:09
      四川丈夫哽咽護妻:母親沒回老家,親戚要求刪視頻,岳母出面硬剛

      四川丈夫哽咽護妻:母親沒回老家,親戚要求刪視頻,岳母出面硬剛

      離離言幾許
      2026-03-06 19:30:27
      俄羅斯被曝向伊朗提供情報,包括美軍艦船和飛機的定位,白宮回應!美國準備部署第三艘航母,緊急批準對以色列超1.5億美元軍售

      俄羅斯被曝向伊朗提供情報,包括美軍艦船和飛機的定位,白宮回應!美國準備部署第三艘航母,緊急批準對以色列超1.5億美元軍售

      每日經濟新聞
      2026-03-07 13:18:09
      假消息看多了,大腦真的會廢掉——

      假消息看多了,大腦真的會廢掉——

      心理提升課堂
      2026-03-07 09:36:17
      離譜!比亞迪閃充的核心,竟是我們小時候吐槽的水池數學題?

      離譜!比亞迪閃充的核心,竟是我們小時候吐槽的水池數學題?

      趣味萌寵的日常
      2026-03-07 22:30:35
      《逐玉》ai換臉僵硬出戲,連田曦薇也帶不動,原演員被換原因離譜

      《逐玉》ai換臉僵硬出戲,連田曦薇也帶不動,原演員被換原因離譜

      劇芒芒
      2026-03-07 14:00:04
      起猛了!在唐朝以前,中國竟然根本沒有真正的“喵星人”?!

      起猛了!在唐朝以前,中國竟然根本沒有真正的“喵星人”?!

      科普中國
      2026-03-06 20:53:00
      蔡佳云奪得米蘭-科爾蒂納冬殘奧會中國體育代表團首枚金牌

      蔡佳云奪得米蘭-科爾蒂納冬殘奧會中國體育代表團首枚金牌

      界面新聞
      2026-03-07 20:23:41
      90后單親媽媽擺地攤起家年賺上千萬元:創業初期一天只睡三四個小時,今年要完成收入一個億的“小目標”

      90后單親媽媽擺地攤起家年賺上千萬元:創業初期一天只睡三四個小時,今年要完成收入一個億的“小目標”

      南國今報
      2026-03-07 18:29:43
      宗教習俗不能擾民:誰給你凌晨敲梆子喚醒的權力?

      宗教習俗不能擾民:誰給你凌晨敲梆子喚醒的權力?

      西域都護
      2026-03-05 22:49:54
      以為只是小毛病,一查竟是晚期!做完所有治療,他還是永遠離開了

      以為只是小毛病,一查竟是晚期!做完所有治療,他還是永遠離開了

      新時代的兩性情感
      2026-02-18 08:36:45
      距亞洲青年紀錄只差0.01秒!全國室內大獎賽:小孩姐陳妤頡奪冠

      距亞洲青年紀錄只差0.01秒!全國室內大獎賽:小孩姐陳妤頡奪冠

      全景體育V
      2026-03-07 19:37:44
      朱亞文的“發言”在全網火了,馮遠征的兩會建議,含金量還在升

      朱亞文的“發言”在全網火了,馮遠征的兩會建議,含金量還在升

      好賢觀史記
      2026-03-07 09:51:22
      2026-03-08 08:32:49
      虎嗅APP incentive-icons
      虎嗅APP
      個性化商業資訊與觀點交流平臺
      25843文章數 687552關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      中國貨船通過霍爾木茲海峽后 美國宣布200億美元計劃

      頭條要聞

      中國貨船通過霍爾木茲海峽后 美國宣布200億美元計劃

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      汪小菲曝親媽猛料,張蘭公開財產分配

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      數碼
      家居
      時尚
      公開課
      軍事航空

      數碼要聞

      蘋果MacBook Neo跑分出爐:A18 Pro少了一個核心 GPU被反殺

      家居要聞

      暖棕撞色 輕法奶油風

      2026春夏一定要擁有的6只包,好看又百搭

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美第三個航母打擊群據稱準備部署至中東

      無障礙瀏覽 進入關懷版