<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      表格建模也能Scaling?樹模型的時代要改變了

      0
      分享至



      一張 H100 相當于多少個 Hadoop 實例?

      讓我們先從一個有趣的問題開始:站在 2026 年的當下,一張 H100 GPU 的單卡算力(FP16)大約相當于多少個 Hadoop 實例?

      答案是:約 200 個( 單卡 H100 vs 一臺 96 核 CPU 實例)。

      這個數(shù)字背后隱藏著一個值得深思的現(xiàn)象:過去幾年中,AI 的快速發(fā)展極大推動了算力的指數(shù)級增長。然而在結構化數(shù)據(jù)建模這一領域,行業(yè)主流方法仍然是以樹模型為核心的垂直場景化解決方案。

      這就形成了一個有趣的 "反差":一邊是各大科技公司和大量初創(chuàng)企業(yè)正通過不斷升級的大語言模型推動 AI 生產力的躍遷,另一邊是在金融、醫(yī)療、電商、物流、工業(yè)制造等高價值行業(yè)中,真正承載智能化任務的,仍主要是以 XGBoost、隨機森林為代表的樹模型。這種反差讓我們不得不開始思考:當算力革命發(fā)生時,結構化數(shù)據(jù)建模的 "平衡點" 是否也該被重新定義?

      "苦澀的教訓" 與結構化數(shù)據(jù)的困境

      從更宏觀的角度看,大模型研發(fā)所遵循的核心思想,可以追溯到 Richard Sutton 提出的 “苦澀的教訓”(The Bitter Lesson):在 AI 的長期發(fā)展中,那些能夠隨著計算規(guī)模持續(xù)擴展的通用學習方法,往往最終會超越依賴人類直覺與領域知識精心設計的系統(tǒng)。

      大語言模型的成功正是這一規(guī)律的典型體現(xiàn) —— 通過統(tǒng)一架構與大規(guī)模數(shù)據(jù)訓練,LLM 在 NLP 領域實現(xiàn)了跨任務、跨場景的能力遷移。然而,當企業(yè)在實際業(yè)務中解決監(jiān)督學習問題時,情況卻呈現(xiàn)出明顯反差。即使在嘗試引入深度學習時,也往往需要依賴復雜的數(shù)據(jù)流水線、特定架構設計以及大量領域知識的引入。這相當于用 "手工作坊" 的方式,去應對 "工業(yè)化生產" 的需求。于是出現(xiàn)了一個頗為有趣的現(xiàn)象:一方面,各大科技公司和大量初創(chuàng)企業(yè)正通過不斷擴大的大語言模型推動 AI 生產力的躍遷;另一方面,在金融、醫(yī)療、電商、物流、工業(yè)制造、農業(yè)等高價值行業(yè)的重要社會經(jīng)濟領域中,真正承載智能化場景任務的,仍主要是以 XGBoost、隨機森林為代表的基于樹的表格分類模型或垂域深度學習分類模型,這進一步激發(fā)了我們探索結構化數(shù)據(jù)模型 scaling 上限的興趣。

      回顧歷史,XGBoost 在 2014 年被廣泛視為機器學習領域中算力、算法與數(shù)據(jù)三要素之間的一個 “平衡點”。但十二年后的今天,隨著 GPU 算力的快速迭代并帶來數(shù)量級提升,這一平衡點是否已經(jīng)發(fā)生改變?結構化數(shù)據(jù)建模是否也可能像 NLP 和 CV 一樣,通過新的計算范式實現(xiàn)突破?回到開篇的問題:當單張 H100 與一臺 96 核 CPU 服務器之間已經(jīng)存在約 200 倍的 FP16 算力差距時,一個自然的想法是 —— 是否可以將 GPU 的大規(guī)模并行算力真正引入結構化數(shù)據(jù)建模,并通過預訓練范式重新平衡算力、數(shù)據(jù)與算法這三大核心要素。

      千億級樣本預訓練實踐

      本文將重點介紹浙大 X 螞蟻 AIforData 團隊的探索:基于螞蟻集團海量的異構結構化數(shù)據(jù)以及豐富的下游業(yè)務場景,實現(xiàn)了千卡 GPU 集群下百億級樣本規(guī)模的結構化數(shù)據(jù)預訓練,并系統(tǒng)評估了預訓練模型在下游任務中的表現(xiàn),實驗結果表明:

      1. 在工業(yè)級表格數(shù)據(jù)集上,預訓練模型的性能可以穩(wěn)定且顯著地超越傳統(tǒng)樹模型

      2. 表格數(shù)據(jù)預訓練模型呈現(xiàn)出明顯的 scaling law

      3. 行為序列預訓練模型同樣表現(xiàn)出良好的 scaling law

      工作 1: 表格數(shù)據(jù)預訓練與 Scaling Law

      https://arxiv.org/abs/2602.22777

      KMLP(Kolmogorov-Arnold Network with gated MLP)是面向互聯(lián)網(wǎng)超大規(guī)模表格數(shù)據(jù)的混合深度學習架構(中稿 The Web Conference 2026)。面對工業(yè)場景中數(shù)十億樣本、數(shù)千異構特征的建模挑戰(zhàn),KMLP 創(chuàng)新性地將淺層 KAN 作為前端特征工程構造器,結合 gMLP 主干網(wǎng)絡捕獲高階交互,實現(xiàn)了端到端的自動化特征表示學習。



      在包含 20 億樣本的真實信貸評分數(shù)據(jù)集上,KMLP 展現(xiàn)出顯著的規(guī)模優(yōu)勢:隨著數(shù)據(jù)量級提升,其相對于傳統(tǒng) GBDT 模型的性能優(yōu)勢持續(xù)擴大。這一發(fā)現(xiàn)驗證了 KMLP 作為可擴展深度學習范式的潛力,為大規(guī)模動態(tài)互聯(lián)網(wǎng)表格數(shù)據(jù)建模提供了新路徑。



      KMLP 的核心價值在于解決了傳統(tǒng)方法的雙重瓶頸:一方面克服了 GBDT 在超大規(guī)模數(shù)據(jù)集上分布式計算效率問題,另一方面通過可學習激活函數(shù)擺脫了對人工特征工程的依賴,實現(xiàn)了特征異構性與交互建模的統(tǒng)一。其相對于傳統(tǒng) GBDT 模型的性能優(yōu)勢持續(xù)擴大;解決了 GBDT 分布式計算效率問題和人工特征工程依賴。

      工作 2: 行為序列預訓練與 Scaling Law

      https://arxiv.org/abs/2412.12468

      用戶行為時序數(shù)據(jù),作為刻畫用戶的關鍵結構化數(shù)據(jù)之一,對于用戶理解與建模起著重要作用。在用戶建模時如何利用以及如何利用好更多的用戶行為序列數(shù)據(jù),是一個重要的研究課題。

      FOUND:時序數(shù)據(jù)的語義級應用

      FOUND(Transferable and Forecastable User Targeting Foundation Model)是 AIforData 團隊發(fā)布在 The Web Conference 2025(WebConf 25)中的工作,面向互聯(lián)網(wǎng)平臺中多種來源的序列數(shù)據(jù)和結構化數(shù)據(jù),構建了工業(yè)級、具有預測性的用戶表征框架。

      當前許多用戶理解方法面臨兩大顯著挑戰(zhàn):(i) 跨領域和跨場景的可遷移性及泛化能力較弱 (ii) 在實際應用中的預測能力不足。為了增強跨領域遷移能力,F(xiàn)OUND 框架整合了多場景用戶數(shù)據(jù),并在用戶建模時創(chuàng)新性地通過對比學習預訓練將其與根據(jù)序列語義整理得到的文本進行對齊。為了提高預測性,每個用戶的文本描述基于用戶未來的行為推導得出,而用戶表征則由歷史信息構建而成,使用過去 - 未來語義對齊的方式構造訓練樣本對。

      由該框架產出的用戶表征在真實場景 benchmark 和業(yè)務上均獲得了增益。同時引入自然語言監(jiān)督的方式也使得模型天然支持人群圈選這一用戶理解任務,該預訓練框架支持的圈人能力在下游取得了大量收益,支持超過 50 個業(yè)務場景。



      序列數(shù)據(jù)的 Scaling Law

      在有了上述預訓練框架后,我們思考如何將綜合互聯(lián)網(wǎng)平臺中更多更長的用戶行為序列引入到模型中來。針對多種來源的序列數(shù)據(jù),各自設計編碼器會存在訓練成本過高、表達空間不統(tǒng)一等缺陷,同時如何發(fā)揮更多輸入序列數(shù)據(jù)的最大性能也是一個問題,即需要探索輸入序列本身存在的 Scaling Law 以及如何突破可能存在的 Scaling 瓶頸。

      在實驗探索過程中我們發(fā)現(xiàn),輸入序列長度 / 用戶數(shù)目在數(shù)量級較少時,性能隨著天數(shù) / 用戶數(shù)目(指數(shù))近似線性提升,Scaling 現(xiàn)象明顯;但在輸入序列增長、用戶數(shù)目增加時增長緩慢,出現(xiàn) Scaling 瓶頸。為解決該問題,除了增加參數(shù)這種模型層面的 Scaling,提升輸入用戶數(shù)據(jù)的信息密度,即對用戶信息進行壓縮,不失為一種節(jié)約成本且輕量的方案。在使用 RQ-VAE 方案進行用戶序列數(shù)據(jù)壓縮后,我們觀測到出現(xiàn)數(shù)據(jù)增長瓶頸得到延緩,說明了壓縮帶來突破瓶頸的 Densing Law 現(xiàn)象。

      核心結論:在輸入序列長度 / 用戶數(shù)目在數(shù)量較少時性能隨著天數(shù)指數(shù)的 Scaling 現(xiàn)象明顯,輸入序列長度和用戶數(shù)目增加至較大量級時出現(xiàn) Scaling 瓶頸,而壓縮數(shù)據(jù)可以通過提升信息密度帶來突破瓶頸的 Densing Law 現(xiàn)象。





      基于以上原始和壓縮輸入的 Scaling Law,我們設計了基于統(tǒng)一用戶量化壓縮的用戶理解方案,將用戶的多源序列等數(shù)據(jù)使用設計的 MRQ-VAE 方案壓縮成語義 token ID 提升信息密度,并在此基礎之上 Scaling 得到了更佳性能的用戶模型。產出的通用用戶表征在 80% 以上真實場景 benchmark 中相比之前原始數(shù)據(jù)輸入版本均有提升,并在數(shù)字金融、支付安全、營銷推薦、廣告等業(yè)務中全面應用。

      總結與展望

      回到開篇的問題:當算力已經(jīng)發(fā)生數(shù)量級變化時,結構化數(shù)據(jù)建模的范式是否也該隨之改變?

      螞蟻 x 浙大 AIforData 團隊的探索給出了肯定的答案。Scaling Law 正在從 NLP、CV 延伸到結構化數(shù)據(jù)領域—— 這或許意味著,那個依賴人工特征工程和場景化調參的時代,真的要過去了。

      "當算力天平已經(jīng)傾斜,平衡點也該重新定義。"

      未來,隨著算力的持續(xù)增長和預訓練范式的成熟,我們有理由相信:結構化數(shù)據(jù)建模將迎來屬于自己的 "大模型時刻"。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美媒稱,革命衛(wèi)隊總司令瓦希迪成為美軍最新打擊目標

      美媒稱,革命衛(wèi)隊總司令瓦希迪成為美軍最新打擊目標

      山河路口
      2026-04-24 13:23:02
      DeepSeek-V4:華為昇騰適配、性價比王者、最新底層技術

      DeepSeek-V4:華為昇騰適配、性價比王者、最新底層技術

      AI科技評論
      2026-04-24 14:16:25
      粗糙的萬金油,24歲離開國米,29歲踢意乙,33歲混意丙

      粗糙的萬金油,24歲離開國米,29歲踢意乙,33歲混意丙

      95帕爾馬
      2026-04-25 11:47:59
      黑絲+小高跟鞋+緊身連衣裙,微胖得女生穿起來有一種特別的韻味

      黑絲+小高跟鞋+緊身連衣裙,微胖得女生穿起來有一種特別的韻味

      牛彈琴123456
      2026-04-12 15:19:11
      為何要建?誰將受益?一文讀懂廣深第二高鐵戰(zhàn)略意義

      為何要建?誰將受益?一文讀懂廣深第二高鐵戰(zhàn)略意義

      南方都市報
      2026-04-24 22:37:07
      小玥兒12歲生日冷清!汪小菲馬筱梅毫無表示,往年大排場反差刺眼

      小玥兒12歲生日冷清!汪小菲馬筱梅毫無表示,往年大排場反差刺眼

      人間煙火記事本
      2026-04-25 06:25:08
      噩耗傳來,影響中美的大佬突然逝世,川普派人來華,中方送上大禮

      噩耗傳來,影響中美的大佬突然逝世,川普派人來華,中方送上大禮

      起喜電影
      2026-04-24 18:35:17
      為了擺脫“右派”家屬身份,她果斷離婚并嫁給恩師,令人唏噓!

      為了擺脫“右派”家屬身份,她果斷離婚并嫁給恩師,令人唏噓!

      鶴羽說個事
      2026-04-17 22:54:53
      菲律賓局勢有變,副總統(tǒng)逃往海外,小馬科斯冒險,解放軍開始堵門

      菲律賓局勢有變,副總統(tǒng)逃往海外,小馬科斯冒險,解放軍開始堵門

      夢史
      2026-04-25 11:14:45
      男子30年前被扣押2859克黃金申請退賠,遼寧營口警方:正研究,將盡快答復

      男子30年前被扣押2859克黃金申請退賠,遼寧營口警方:正研究,將盡快答復

      澎湃新聞
      2026-04-24 21:04:32
      惡犬蔣孝先西安事變被捕殺,張學良說是天意,老蔣給仇人4萬大洋

      惡犬蔣孝先西安事變被捕殺,張學良說是天意,老蔣給仇人4萬大洋

      黑句本
      2026-04-19 15:32:03
      王治郅和二婚妻子近照,亮相名人堂,為他生2娃,依舊美麗動人

      王治郅和二婚妻子近照,亮相名人堂,為他生2娃,依舊美麗動人

      大西體育
      2026-04-24 21:59:33
      急得滿頭大汗的印度,終于買到了尿素,但是和他們想的大不一樣!

      急得滿頭大汗的印度,終于買到了尿素,但是和他們想的大不一樣!

      達文西看世界
      2026-04-25 11:40:56
      14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

      14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

      阿訊說天下
      2026-04-18 11:52:55
      喊了36年“董事長”,陳麗華頭七剛過遲重瑞的結局讓所有人都傻眼

      喊了36年“董事長”,陳麗華頭七剛過遲重瑞的結局讓所有人都傻眼

      小娛樂悠悠
      2026-04-16 13:32:37
      賣了80多座萬達廣場,還欠6000億!萬達的債為啥永遠還不完?

      賣了80多座萬達廣場,還欠6000億!萬達的債為啥永遠還不完?

      科學發(fā)掘
      2026-04-17 00:52:53
      CBA官宣常規(guī)賽8大獎候選:胡金秋領銜MVP 徐昕領銜最具進步獎

      CBA官宣常規(guī)賽8大獎候選:胡金秋領銜MVP 徐昕領銜最具進步獎

      醉臥浮生
      2026-04-25 11:39:05
      網(wǎng)紅莫氏雞煲涼透了!從通宵排隊到空無一人,終究逃不過曇花一現(xiàn)

      網(wǎng)紅莫氏雞煲涼透了!從通宵排隊到空無一人,終究逃不過曇花一現(xiàn)

      阿郎娛樂
      2026-04-23 15:28:38
      國乒返程北京:蒯曼艷壓群芳,陳熠短發(fā)太驚艷,孫穎莎走VIP通道

      國乒返程北京:蒯曼艷壓群芳,陳熠短發(fā)太驚艷,孫穎莎走VIP通道

      觀察鑒娛
      2026-04-25 10:45:26
      印度下最后通牒,要求中方必須賣尿素,中國:抱歉,沒有義務

      印度下最后通牒,要求中方必須賣尿素,中國:抱歉,沒有義務

      涵豆說娛
      2026-04-24 12:10:09
      2026-04-25 12:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12852文章數(shù) 142636關注度
      往期回顧 全部

      科技要聞

      Anthropic剛拿亞馬遜250億美元,又拿谷歌400億

      頭條要聞

      房屋燒毀3年居民安置落空:原地塊已被規(guī)劃為商業(yè)用地

      頭條要聞

      房屋燒毀3年居民安置落空:原地塊已被規(guī)劃為商業(yè)用地

      體育要聞

      火箭0-3觸發(fā)百分百出局定律:本季加時賽9戰(zhàn)8敗

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經(jīng)要聞

      別高估英偉達,別低估DeepSeek

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態(tài)度原創(chuàng)

      房產
      教育
      藝術
      時尚
      軍事航空

      房產要聞

      新一輪教育大爆發(fā)來了!海口,開始瘋狂建學校!

      教育要聞

      農村學生迎來“好消息”!教育部新規(guī):取消戶籍限制,9月起執(zhí)行

      藝術要聞

      廈門新地標奠基!美圖立方視覺藝術中心,OPEN設計

      朱珠到底為什么接這部劇?

      軍事要聞

      美防長:戰(zhàn)事不會“沒完沒了”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品国产免费观看一区| 美女大量吞精在线观看456| 亚洲日韩在线中文字幕| 5D肉蒲团之性战奶水欧美| 精品无码午夜福利理论片| 在线看亚洲十八禁网站| 乱女伦露脸对白在线播放| 少妇精品高潮欲妇又嫩中文字幕| 国内自拍欧美亚洲| 国产绿帽在线视频看| 人人凹凸XX凹凸爽凹凸| 亚洲无线国产观看| 欧美一区二区三区久久综合| 91人人操| 亚洲熟妇色xxxxx亚洲| 色77777| 日韩有码av中文字幕| 日韩深夜福利视频在线观看| 男人的天堂av一二区| 乱精品一区字幕二区| 日韩一区在线中文字幕| 日本特黄特黄刺激大片| 阿图什市| 熟女性饥渴一区二区三区| 高跟熟女中文字幕在线亚洲| 九九久久精彩视频| 综合一区二区三区| 精品中文字幕一区在线| 精品久久久久久无码不卡 | 亚洲色图日韩无码| 国产精品亚洲mnbav网站| 亚洲乱码中文字幕手机在线| 欧洲熟妇牲交| 欧美成人精品欧美一级乱黄| 香蕉免费一区二区三区| 建湖县| 制服丝袜中文字幕在线| 久久久婷| 久久综合综合久久综合| 欧美天堂在线| 大地资源网第二页免费观看|