- 克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
用OpenClaw掛機,抓取網頁時頻頻翻車的煩人bug終于有解了。
一個名為Scrapling的數據采集神器,幾乎一夜之間就成了OpenClaw的“最強外掛”。
![]()
這玩意兒不僅能穿透各種防爬蟲的網頁護盾,還能把網上雜亂的網頁源碼生扒下來,直接清洗成干凈的結構化數據。
搖身一變成為龍蝦神器后,這個發布一年多的項目人氣直接大爆發,狂攬2.3萬stars,一口氣沖上了GitHub單日趨勢榜第一名。
![]()
工具爆火之后,原作者也已經明確放話,正在把Scrapling做成OpenClaw的Skill,期待值直接拉滿。
![]()
數據爬蟲成了AI掛機神器
讓智能體上網抓數據,最煩的就是遇到那種動不動就跳出來讓你選圖片的真人驗證,稍微不注意就會被關進小黑屋。
Scrapling自帶的StealthyFetcher隱身獲取器專門就是來搞定這些惡心攔截的。
它能完美模擬最新版瀏覽器的指紋和操作行為,幫OpenClaw開箱即用地繞過這些阻攔。
![]()
除了躲過攔截,還得應付網站老板一拍腦袋就搞的改版換皮。
以前那些老舊的爬蟲工具實在太死板了,它們通常死死扣住幾個固定的路徑,只要網頁排版稍微挪動一丁點,原本好好的自動化任務就會立刻罷工報錯。
這種崩潰會直接導致AI任務流瞬間癱瘓,甚至本來看一下網頁就知道的信息,還得費勁去研究怎么改代碼。
Scrapling最硬核的地方在于它擁有一套智能的自適應算法。
即使網站為了防爬或者是為了換新視覺而徹底打亂了HTML結構,它的解析器也能通過相似度比對自動感知數據在哪,然后重新定位到正確的關鍵信息上。
有了這種不需要人工干預的智能追蹤能力,小龍蝦就能實現真正的24小時“穩如老蝦”,再也不用擔心大半夜因為網站悄悄更新而讓掛機任務全線斷更了。
輕松上手,還能省錢
既然AI已經能像回自己家拿東西一樣,順溜地繞過攔截并搞定網頁改版,那接下來的重點就是怎么更聰明地處理這些信息。
方法很簡單,只要開啟Scrapling內置的MCP模式就可以了。
在數據喂給大模型之前,它會先精準提取正文,把網頁里那些又長又臭的廢話、亂七八糟的廣告和沒用的冗余代碼統統剔除掉。
因為喂給AI的內容變精簡了,API調用的Token費用自然也就大幅降了下來,主打一個省錢又省心。
除了能幫咱們省錢,它對掛機環境的要求也極其親民。
這個框架內存占用非常小,哪怕你手頭只有個吃灰多年的舊筆記本,或者是租個入門級服務器,它都能輕松跑起來。
![]()
而且它還專門設計了斷點記憶功能,這對于長時間掛機任務來說簡直是救命稻草。
萬一遇到偶爾斷網或者是突然斷電,爬取進度也會被牢牢保存下來,等網絡或電源恢復了,它就能無縫接力繼續干活,完全不需要手動去重啟任務。
而且這個插件不僅不挑機器,也不挑人,不必會用Python寫代碼,它直接提供了一套開箱即用的命令行工具。
只要照著教程在黑窗口里敲一行非常簡單的短指令,就能立刻調用它的全部采集能力。
![]()
再加上作者本人表示正在把插件做成龍蝦的Skill,每個普通用戶都有希望能輕松給自己的OpenClaw武裝上一雙看透全網、精準抓取數據的眼睛了。
項目地址:
https://github.com/D4Vinci/Scrapling
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.