<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      登頂Hugging Face論文熱榜,LLM重寫數(shù)據(jù)準備的游戲規(guī)則

      0
      分享至



      在企業(yè)級系統(tǒng)中,數(shù)據(jù)團隊普遍面臨一個困境:模型迭代飛速,但數(shù)據(jù)準備的「老舊管道」卻愈發(fā)沉重。清洗、對齊、標注…… 這些工作依然深陷于人工規(guī)則與專家經(jīng)驗的泥潭。您的團隊是否也為此困擾?

      • 數(shù)據(jù)格式五花八門,正則表達式越寫越多,卻總有意想不到的「臟數(shù)據(jù)」出現(xiàn)
      • 跨系統(tǒng)表結(jié)構(gòu)不一致,對齊邏輯復雜,人工映射耗時耗力
      • 海量數(shù)據(jù)缺少標簽和語義描述,分析師「看不懂、用不好」

      這背后是數(shù)據(jù)準備這一經(jīng)典難題 —— 它占用了數(shù)據(jù)團隊近 80% 的時間與精力,卻依然是智能化進程中最頑固的瓶頸。傳統(tǒng)方法主要依賴靜態(tài)規(guī)則與領(lǐng)域特定模型,存在三大根本局限:高度依賴人工與專家知識、對任務語義的感知能力有限、在不同任務與數(shù)據(jù)模態(tài)間泛化能力差。

      如今,一份引爆HuggingFace 趨勢榜的聯(lián)合綜述指出,大語言模型(Large Language Models,LLMs)正在從根本上改變這一局面,推動數(shù)據(jù)準備從「規(guī)則驅(qū)動」向「語義驅(qū)動」的范式轉(zhuǎn)變。





      來自上海交通大學、清華大學、微軟研究院、麻省理工學院(MIT)、上海 AI Lab、小紅書、阿里巴巴、港科大(廣州)等機構(gòu)的研究團隊,系統(tǒng)梳理了近年來大語言模型在數(shù)據(jù)準備流程中的角色變化,試圖回答一個業(yè)界關(guān)心的問題:LLM 能否成為下一代數(shù)據(jù)管道的「智能語義中樞」,徹底重構(gòu)數(shù)據(jù)準備的范式?



      • 論文標題:Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs
      • arXiv 論文地址:https://arxiv.org/abs/2601.17058
      • Huggingface 論文主頁:https://huggingface.co/papers/2601.17058
      • GitHub 項目主頁:https://github.com/weAIDB/awesome-data-llm

      從「人工規(guī)則」到「語義驅(qū)動」的數(shù)據(jù)準備范式轉(zhuǎn)移

      傳統(tǒng)的數(shù)據(jù)準備高度依賴人工規(guī)則和任務定制模型:正則表達式、字段校驗邏輯、領(lǐng)域特定的分類器,不僅構(gòu)建和維護成本高昂,且一旦數(shù)據(jù)格式變化或面臨跨域集成,整套體系就顯得異常脆弱。

      研究團隊指出,LLM 的引入正在推動這一流程從「規(guī)則驅(qū)動」向「語義驅(qū)動」轉(zhuǎn)變。模型不再僅僅執(zhí)行預設(shè)邏輯,而是嘗試理解數(shù)據(jù)背后的含義,并據(jù)此完成檢測、修復、對齊和補充等操作。

      在這篇綜述中,作者從應用層面(Application-Ready)的視角出發(fā),構(gòu)建了一個以任務為中心的分類框架,將 LLM 增強的數(shù)據(jù)準備過程拆分為三大核心環(huán)節(jié):

      • 數(shù)據(jù)清洗(Data Cleaning):錯誤檢測、格式標準化、異常修復、缺失值填補等;
      • 數(shù)據(jù)集成(Data Integration):實體匹配、模式匹配、跨源對齊與沖突消解;
      • 數(shù)據(jù)增強(Data Enrichment):列類型識別、語義標注、表級與庫級畫像構(gòu)建。



      圖 1:數(shù)據(jù)準備三大核心任務:數(shù)據(jù)清洗、集成與增強,分別解決數(shù)據(jù)的一致性與質(zhì)量問題、隔離與集成障礙、以及語義與上下文限制

      論文中的整體框架展示了 LLM 在數(shù)據(jù)準備流水線中的多維度角色。研究團隊將現(xiàn)有技術(shù)路徑歸納為三類,這與傳統(tǒng)單一方法形成鮮明對比:

      • 基于 prompt 的方法(M1):通過結(jié)構(gòu)化提示和上下文示例,直接引導模型完成標準化、匹配或標注等任務,強調(diào)靈活性與低開發(fā)成本。
      • 檢索增強與混合方法(M2):結(jié)合檢索增強生成(RAG)、模型調(diào)優(yōu)(如微調(diào))、小型模型或傳統(tǒng)規(guī)則系統(tǒng),在成本、規(guī)模與穩(wěn)定性之間尋求平衡。
      • 智能體編排方法(M3):讓 LLM 作為協(xié)調(diào)中樞,調(diào)用外部工具和子模型,逐步構(gòu)建復雜的數(shù)據(jù)處理工作流,探索自動化與自主決策的邊界。



      圖 2:LLM 增強的數(shù)據(jù)準備技術(shù)全景總覽,涵蓋數(shù)據(jù)清洗、數(shù)據(jù)集成和數(shù)據(jù)增強三大任務及其細分技術(shù)路線

      代表性工作與系統(tǒng):從理論到工程實踐

      在具體方法層面,論文梳理了近年來一批具有鮮明工程導向特征的代表性工作。例如:

      • 在數(shù)據(jù)清洗場景中,CleanAgent 引入了能夠自主規(guī)劃的智能體架構(gòu),通過調(diào)用 Python 庫等外部工具動態(tài)構(gòu)建清洗工作流。
      • 在數(shù)據(jù)集成領(lǐng)域,Jellyfish 探索了「大模型教小模型」的蒸餾范式,利用 GPT-4 的推理軌跡微調(diào)輕量級模型,顯著降低了大規(guī)模匹配的成本。
      • 而在數(shù)據(jù)增強方向,Pneuma 則結(jié)合了 RAG(檢索增強生成) 技術(shù),通過檢索數(shù)據(jù)湖中的相關(guān)表格與文檔,為原始數(shù)據(jù)補充缺失的語義上下文與元數(shù)據(jù)。



      表 1:LLM 增強的數(shù)據(jù)準備方法技術(shù)概覽

      論文總結(jié)的「技術(shù)版圖式」對照表(如上方表 1),將不同方法按照技術(shù)路徑(基于 prompt、RAG、智能體等)與任務環(huán)節(jié)(清洗、集成、增強) 進行交叉定位。其核心價值在于幫助工程團隊進行技術(shù)選型:在不同規(guī)模、成本約束與任務階段下,應優(yōu)先考慮哪類技術(shù)路線。

      從該表中,研究團隊提煉出幾條對工程實踐極具指導意義的觀察:

      • 基于 prompt 的方法適合小規(guī)模、高復雜度任務:例如高價值表格的語義修復、復雜實體歧義消解,但在大規(guī)模場景中成本和一致性難以控制。
      • RAG 與混合系統(tǒng)成為主流工程選擇:通過檢索、規(guī)則系統(tǒng)或輕量模型分擔高頻、低難度任務,讓 LLM 專注于「難例」和核心語義決策,實現(xiàn)更高的整體性價比。
      • 智能體路線仍處于探索階段:多步工具調(diào)用在復雜工作流中展現(xiàn)出潛力,但其穩(wěn)定性、調(diào)試成本和結(jié)果可評估性仍是當前的主要瓶頸。

      常用評估數(shù)據(jù)集與基準

      除了代表性方法和系統(tǒng),論文還整理了當前用于評估 LLM 數(shù)據(jù)準備能力的代表性數(shù)據(jù)集與基準(如下方表 2),為工程團隊和研究者提供了一份「可復現(xiàn)實驗地圖」。



      表 2:數(shù)據(jù)準備代表性數(shù)據(jù)集總覽

      從任務維度看,這些基準大致覆蓋了三類典型場景:

      • 數(shù)據(jù)清洗(Data Cleaning):常用數(shù)據(jù)集包括 Hospital 和 Flights,用于評估模型在格式錯誤修復、值標準化和缺失字段補全等任務中的穩(wěn)定性與準確性。這類數(shù)據(jù)集通常包含人為注入或真實采集的噪聲模式,適合測試模型在結(jié)構(gòu)性錯誤下的魯棒性。
      • 數(shù)據(jù)集成(Data Integration):在實體匹配和跨源對齊任務中,WDC Products 和 Amazon-Google Products 等電商類數(shù)據(jù)集被廣泛使用,用于檢驗模型在名稱歧義、屬性不一致和多對多匹配場景下的語義判別能力。
      • 數(shù)據(jù)增強(Data Enrichment):表語義標注和列類型識別任務中,研究工作常基于 OpenWikiTable、Public BI 等表格語義數(shù)據(jù)集,評估模型生成元數(shù)據(jù)和語義描述的準確性與一致性。

      研究團隊指出,當前多數(shù)基準仍以中小規(guī)模表格和結(jié)構(gòu)化數(shù)據(jù)為主,對于企業(yè)級數(shù)據(jù)湖、日志流和多模態(tài)數(shù)據(jù)場景的覆蓋仍然有限,這也在一定程度上限制了不同方法在真實系統(tǒng)中的橫向?qū)Ρ饶芰Α?/p>

      核心洞見、現(xiàn)存挑戰(zhàn)與工程指南

      在對大量文獻與系統(tǒng)進行深入對比后,研究團隊給出了貫穿全文的核心洞見,并清晰地指出了邁向真實應用必須跨越的鴻溝:

      • 工程可落地性優(yōu)先:在真實系統(tǒng)中,吞吐量、延遲、成本控制和結(jié)果可回溯性,往往比單次任務的絕對準確率更為關(guān)鍵。這意味著追求極致精度的復雜方法,未必是工程上的最優(yōu)解。
      • 混合架構(gòu)是主流方向:短期內(nèi),LLM 更可能作為「語義中樞」嵌入傳統(tǒng)數(shù)據(jù)管道,與規(guī)則系統(tǒng)、檢索引擎和輕量模型形成協(xié)同的混合架構(gòu),而非完全替代現(xiàn)有基礎(chǔ)設(shè)施。
      • 評估體系是當前瓶頸:不同研究采用的數(shù)據(jù)集、指標和任務定義差異較大,缺乏統(tǒng)一、可復現(xiàn)的評估標準,嚴重制約了技術(shù)的橫向比較、迭代與工程選型。

      然而,走向大規(guī)模真實應用,仍面臨明確挑戰(zhàn):推理成本與延遲在大規(guī)模場景下仍顯高昂;穩(wěn)定性與幻覺問題在要求嚴苛的清洗、匹配任務中亟待解決;而統(tǒng)一的評估體系建設(shè)更是任重道遠。

      因此,綜述指出,更現(xiàn)實的路徑并非用大模型完全取代現(xiàn)有設(shè)施,而是將其作為 「語義協(xié)調(diào)者」嵌入關(guān)鍵節(jié)點。

      這份綜述為工程團隊提供了一張詳盡的技術(shù)地圖與選型指南。如果你正在搭建或優(yōu)化企業(yè)級數(shù)據(jù)平臺,它可以幫你判斷:在哪些環(huán)節(jié)引入大模型擔任「智能語義層」能帶來最高性價比,而在哪些部分,經(jīng)過驗證的傳統(tǒng)規(guī)則系統(tǒng)與數(shù)據(jù)庫內(nèi)核仍是更可靠、高效的選擇。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      104歲科學家為安樂死趕往瑞士,沒想到30秒后,親人們哭笑不得

      104歲科學家為安樂死趕往瑞士,沒想到30秒后,親人們哭笑不得

      有書
      2026-01-30 19:11:57
      上海這晚,57歲周濤秒了30歲李雪琴,不愧是央視嚴選的國泰民安臉

      上海這晚,57歲周濤秒了30歲李雪琴,不愧是央視嚴選的國泰民安臉

      大鐵貓娛樂
      2026-02-08 00:10:03
      29座萬億城市人均GDP出爐,南京首破20萬,江蘇成最大贏家

      29座萬億城市人均GDP出爐,南京首破20萬,江蘇成最大贏家

      別人都叫我阿腈
      2026-02-09 12:27:38
      俗語“寡婦三更磨豆腐,光棍半夜洗衣服”,很多人還不知道啥意思

      俗語“寡婦三更磨豆腐,光棍半夜洗衣服”,很多人還不知道啥意思

      談史論天地
      2026-02-06 12:05:06
      比肺癌還兇險,有人一個月就失去了生命,90%的不知道這個病

      比肺癌還兇險,有人一個月就失去了生命,90%的不知道這個病

      呼吸科大夫胡洋
      2026-02-08 16:10:56
      為什么男人普遍關(guān)注政變?

      為什么男人普遍關(guān)注政變?

      難得君
      2026-02-01 09:43:26
      “女色經(jīng)濟”,開始崩塌

      “女色經(jīng)濟”,開始崩塌

      首席品牌評論
      2026-02-08 21:21:21
      75年陳丕顯寫信希望恢復工作,毛主席批示:同意,轉(zhuǎn)交汪東興處理

      75年陳丕顯寫信希望恢復工作,毛主席批示:同意,轉(zhuǎn)交汪東興處理

      南書房
      2026-02-09 13:15:06
      不要小瞧了日本,一旦中日開戰(zhàn),日本要對中國進行“三路打擊”

      不要小瞧了日本,一旦中日開戰(zhàn),日本要對中國進行“三路打擊”

      安安說
      2026-01-21 09:50:42
      明日臘月二十三小年,牢記:1不洗,2不送,吃3樣,忌2事,圖吉利

      明日臘月二十三小年,牢記:1不洗,2不送,吃3樣,忌2事,圖吉利

      小茉莉美食記
      2026-02-09 00:20:05
      反轉(zhuǎn)!曼聯(lián)重啟切爾西水貨收購,今夏或低價撿漏

      反轉(zhuǎn)!曼聯(lián)重啟切爾西水貨收購,今夏或低價撿漏

      奶蓋熊本熊
      2026-02-09 06:38:53
      銀行老員工坦言:存款到這個數(shù),就會被系統(tǒng)重點留意

      銀行老員工坦言:存款到這個數(shù),就會被系統(tǒng)重點留意

      王二哥老搞笑
      2026-02-08 16:29:23
      聊聊絕經(jīng)綜合征 | 身體“退休”信號,不必硬扛

      聊聊絕經(jīng)綜合征 | 身體“退休”信號,不必硬扛

      徐州市婦幼保健院官方賬號
      2026-02-06 19:26:11
      221名女囚流放澳洲,下船時很多懷孕,這批女囚孕育出了一個國家

      221名女囚流放澳洲,下船時很多懷孕,這批女囚孕育出了一個國家

      千秋文化
      2026-01-30 21:45:45
      微博之夜第一排:比C位還靠前、和資方同起同坐的她,到底憑啥?

      微博之夜第一排:比C位還靠前、和資方同起同坐的她,到底憑啥?

      暖心萌阿菇?jīng)?/span>
      2026-02-06 18:20:22
      顧客稱薩莉亞飯食中吃出了一塊金屬異物,“吐出來一看是電池”!涉事門店回應

      顧客稱薩莉亞飯食中吃出了一塊金屬異物,“吐出來一看是電池”!涉事門店回應

      新民晚報
      2026-02-08 20:58:56
      日本綜藝有多變態(tài)?看完下面這些,保證你菊花一緊!

      日本綜藝有多變態(tài)?看完下面這些,保證你菊花一緊!

      日本窗
      2026-02-02 17:28:30
      10.7追責:殺害以色列女兵的哈馬斯被斬首

      10.7追責:殺害以色列女兵的哈馬斯被斬首

      桂系007
      2026-02-05 05:10:02
      尿是黃色!金子也是黃色!德國男子為了提煉黃金,煮了五千升尿液

      尿是黃色!金子也是黃色!德國男子為了提煉黃金,煮了五千升尿液

      扶蘇聊歷史
      2025-12-25 16:18:51
      笑死!給寵物取名字一定要慎重,網(wǎng)友:我喊的時候路人以為我瘋了

      笑死!給寵物取名字一定要慎重,網(wǎng)友:我喊的時候路人以為我瘋了

      另子維愛讀史
      2026-02-04 23:11:29
      2026-02-09 14:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12274文章數(shù) 142564關(guān)注度
      往期回顧 全部

      科技要聞

      熱血漸涼:被耗盡的小米SU7 Ultra

      頭條要聞

      男子在小區(qū)周邊投毒致10只寵物狗死亡 獲刑1年10個月

      頭條要聞

      男子在小區(qū)周邊投毒致10只寵物狗死亡 獲刑1年10個月

      體育要聞

      創(chuàng)中國冬奧最佳戰(zhàn)績!19歲速滑新星含淚向天拉勾

      娛樂要聞

      李亞鵬暫停直播:將投入嫣然醫(yī)院工作

      財經(jīng)要聞

      文玩假拍騙局調(diào)查:3500元瓷瓶估值300萬

      汽車要聞

      長安將搭鈉電池 好比汽車要裝柴油機?

      態(tài)度原創(chuàng)

      游戲
      本地
      藝術(shù)
      數(shù)碼
      軍事航空

      Bin曬腹肌是真情流露!爆料稱純個人行為 不是任務

      本地新聞

      圍觀了北京第一屆黑色羽絨服大賽,我笑瘋了

      藝術(shù)要聞

      布蘭特的冬日,不只是風景,更是心底的一場!溫柔雪

      數(shù)碼要聞

      首款驍龍8E5小平板!新款聯(lián)想拯救者Y700屏幕規(guī)格公布:堅持8.8英寸

      軍事要聞

      美伊最敏感時刻 林肯號航母迎來三位“不速之客”

      無障礙瀏覽 進入關(guān)懷版