- 克雷西 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
用OpenClaw掛機,抓取網(wǎng)頁時頻頻翻車的煩人bug終于有解了。
一個名為Scrapling的數(shù)據(jù)采集神器,幾乎一夜之間就成了OpenClaw的“最強外掛”。
![]()
這玩意兒不僅能穿透各種防爬蟲的網(wǎng)頁護盾,還能把網(wǎng)上雜亂的網(wǎng)頁源碼生扒下來,直接清洗成干凈的結(jié)構(gòu)化數(shù)據(jù)。
搖身一變成為龍蝦神器后,這個發(fā)布一年多的項目人氣直接大爆發(fā),狂攬2.3萬stars,一口氣沖上了GitHub單日趨勢榜第一名。
![]()
工具爆火之后,原作者也已經(jīng)明確放話,正在把Scrapling做成OpenClaw的Skill,期待值直接拉滿。
![]()
數(shù)據(jù)爬蟲成了AI掛機神器
讓智能體上網(wǎng)抓數(shù)據(jù),最煩的就是遇到那種動不動就跳出來讓你選圖片的真人驗證,稍微不注意就會被關(guān)進小黑屋。
Scrapling自帶的StealthyFetcher隱身獲取器專門就是來搞定這些惡心攔截的。
它能完美模擬最新版瀏覽器的指紋和操作行為,幫OpenClaw開箱即用地繞過這些阻攔。
![]()
除了躲過攔截,還得應(yīng)付網(wǎng)站老板一拍腦袋就搞的改版換皮。
以前那些老舊的爬蟲工具實在太死板了,它們通常死死扣住幾個固定的路徑,只要網(wǎng)頁排版稍微挪動一丁點,原本好好的自動化任務(wù)就會立刻罷工報錯。
這種崩潰會直接導(dǎo)致AI任務(wù)流瞬間癱瘓,甚至本來看一下網(wǎng)頁就知道的信息,還得費勁去研究怎么改代碼。
Scrapling最硬核的地方在于它擁有一套智能的自適應(yīng)算法。
即使網(wǎng)站為了防爬或者是為了換新視覺而徹底打亂了HTML結(jié)構(gòu),它的解析器也能通過相似度比對自動感知數(shù)據(jù)在哪,然后重新定位到正確的關(guān)鍵信息上。
有了這種不需要人工干預(yù)的智能追蹤能力,小龍蝦就能實現(xiàn)真正的24小時“穩(wěn)如老蝦”,再也不用擔(dān)心大半夜因為網(wǎng)站悄悄更新而讓掛機任務(wù)全線斷更了。
輕松上手,還能省錢
既然AI已經(jīng)能像回自己家拿東西一樣,順溜地繞過攔截并搞定網(wǎng)頁改版,那接下來的重點就是怎么更聰明地處理這些信息。
方法很簡單,只要開啟Scrapling內(nèi)置的MCP模式就可以了。
在數(shù)據(jù)喂給大模型之前,它會先精準(zhǔn)提取正文,把網(wǎng)頁里那些又長又臭的廢話、亂七八糟的廣告和沒用的冗余代碼統(tǒng)統(tǒng)剔除掉。
因為喂給AI的內(nèi)容變精簡了,API調(diào)用的Token費用自然也就大幅降了下來,主打一個省錢又省心。
除了能幫咱們省錢,它對掛機環(huán)境的要求也極其親民。
這個框架內(nèi)存占用非常小,哪怕你手頭只有個吃灰多年的舊筆記本,或者是租個入門級服務(wù)器,它都能輕松跑起來。
![]()
而且它還專門設(shè)計了斷點記憶功能,這對于長時間掛機任務(wù)來說簡直是救命稻草。
萬一遇到偶爾斷網(wǎng)或者是突然斷電,爬取進度也會被牢牢保存下來,等網(wǎng)絡(luò)或電源恢復(fù)了,它就能無縫接力繼續(xù)干活,完全不需要手動去重啟任務(wù)。
而且這個插件不僅不挑機器,也不挑人,不必會用Python寫代碼,它直接提供了一套開箱即用的命令行工具。
只要照著教程在黑窗口里敲一行非常簡單的短指令,就能立刻調(diào)用它的全部采集能力。
![]()
再加上作者本人表示正在把插件做成龍蝦的Skill,每個普通用戶都有希望能輕松給自己的OpenClaw武裝上一雙看透全網(wǎng)、精準(zhǔn)抓取數(shù)據(jù)的眼睛了。
項目地址:
https://github.com/D4Vinci/Scrapling
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.