<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      合成數據≠生成模型:一文讀懂合成數據的全新范式

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】最新研究提出合成數據的全新分類框架,突破「生成模型=合成數據」的傳統認知,涵蓋反演、仿真與數據增強等方法,并按應用層次劃分為數據中心AI、模型中心AI、可信AI和具身AI。

      隨著基礎模型規模不斷擴大,真實數據在成本、隱私、質量和可控性上的限制,正逐漸成為 AI 繼續發展的關鍵瓶頸。

      尤其是在醫療等高價值場景中,真實數據本身難以獲取,「依賴數據自然產生」的范式正在失效。

      在這樣的背景下,合成數據正在從「真實數據的補充」,轉變為“主動構造高質量訓練與評估數據的核心機制”。

      基于對300+篇代表性文獻的系統梳理,南洋理工大學、清華大學、四川大學、中山大學的研究人員提出了一個統一的How / Why / Where框架,重新定義了合成數據的方法邊界,并從應用層面給出了更完整的發展路徑。


      論文鏈接:https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where

      論文資源庫:https://github.com/Egg-Hu/Awesome-Synthetic-Data-Generation

      首先,合成數據方法該如何分類?

      很多工作默認認為「合成數據 = 生成模型」,該綜述重新定義了「數據合成」的方法邊界,跳出「合成數據 = 生成模型」的單一視角。也就是說,合成數據并不等同于“用生成模型造數據”,反演、仿真、增強等方式也都應被納入合成數據的范疇。

      下表給出了整體分類框架:


      第二,成數據應用在哪些核心場景?

      不同于以往按具體任務或領域劃分的方式,本文從更高層次出發,將合成數據的應用組織為一條逐步演進的能力路徑。

      在這一框架下,最基礎的是數據中心人工智能(Data-centric AI),其核心目標是解決真實數據稀缺、獲取成本高以及隱私受限等問題,通過合成數據擴展訓練集并提升數據質量,為模型訓練提供穩定的數據基礎。

      在此之上,隨著數據可獲得性的提升,研究重點逐漸轉向模型中心人工智能(Model-centric AI),此時合成數據不僅用于補充數據,還被用于能力注入,例如提升模型的推理、編碼與對齊能力,并構建可控的評測基準。

      進一步地,隨著模型能力的增強,對系統可靠性的需求不斷提高,催生了可信人工智能(Trustworthy AI),在這一階段,合成數據被廣泛用于隱私保護、安全防護、公平性提升以及模型可解釋性分析。

      最后,合成數據的應用從數字空間走向現實世界,對應的是具身智能(Embodied AI),其目標是支持感知、交互與泛化能力,使智能體能夠在復雜物理環境中進行決策與行動。下表給出了整體結構(具體細節可參考原論文):


      進一步地,文章將上述四類應用場景細化到了 30+ 個具體機器學習任務層級,從而構建起從宏觀分類到具體問題的系統化映射。

      如下圖所示,每一類場景都被進一步拆解為多個典型問題:例如,在數據中心人工智能中,涵蓋了零/少樣本學習、聯邦學習、無數據學習、數據蒸餾等任務;在模型中心人工智能中,則進一步細化為模型通用能力提升,以及推理、編碼、指令對齊等特定能力的增強,同時也包括基于合成數據的模型評測任務;

      在可信人工智能中,主要聚焦于隱私保護、模型攻擊、安全防護、長尾學習與可解釋性等任務;而在具身智能中,則進一步延伸到感知、交互以及跨場景泛化等面向真實環境的任務。


      最后,合成數據面臨哪些挑戰與機遇?

      盡管在方法體系與應用落地方面已經取得了顯著進展,但合成數據仍處于快速發展階段,仍然存在一系列關鍵挑戰有待解決。

      • 隨著模型越來越多地依賴自生成數據進行訓練,一個核心風險逐漸顯現:模型坍塌(model collapse)。當模型反復在自身生成的數據上迭代訓練時,可能導致分布逐漸收縮,數據多樣性下降,從而影響模型性能與泛化能力。

      • 在實際應用中,如何在數據效用與隱私保護之間取得平衡,仍然是一個長期存在的問題,即所謂的數據效用與隱私保護的權衡(utility–privacy tradeoff)。過強的隱私約束可能降低數據可用性,而過高的數據保真度又可能帶來潛在的隱私泄露風險。

      • 當合成數據被用于模型評測時,還可能引入新的偏差來源。例如,生成-評測偏差(generation–evaluation bias)指的是模型在由相似生成機制產生的測試數據上表現更優,從而導致評估結果失真,影響對模型真實能力的判斷。

      • 在方法層面,多個前沿方向也仍有待探索。例如,主動式數據合成(active data synthesis)強調根據模型需求動態生成最有價值的數據,以提升數據利用效率;而多模態數據合成(multi-modal data synthesis)則關注如何生成語義一致、跨模態對齊的高質量數據,這對于多模態模型的發展尤為關鍵。

      • 最后,一個基礎但尚未完全解決的問題是:如何系統性評估合成數據的質量。這不僅包括數據的有效性(utility)與多樣性(diversity),還涉及隱私(privacy)與安全性(security)等多個維度,目前仍缺乏統一且標準化的評測體系。

      下圖給出了該綜述的總體整理框架,具體細節可參考原文。


      這篇綜述最值得關注的地方,不只是整理了現有方法,更重要的是它改變了我們理解合成數據的方式: 合成數據不再只是生成模型的一個應用方向,而正在成為連接數據、模型、評測與真實世界交互的新型基礎設施。

      如果說過去AI的競爭核心是「誰擁有更多真實數據」,那么未來很可能會變成「誰能更高效、更安全、更可控地生成高價值數據」。

      參考資料:

      https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      吹響集結號!歐亞53國達成共識,澤連斯基宣布不再將美國視為盟友

      吹響集結號!歐亞53國達成共識,澤連斯基宣布不再將美國視為盟友

      史政先鋒
      2026-04-19 13:45:53
      悲劇!廣東一96年女生開會時心梗猝死,網友稱她為20000月薪太拼

      悲劇!廣東一96年女生開會時心梗猝死,網友稱她為20000月薪太拼

      火山詩話
      2026-04-19 09:35:22
      5月1日起物業行業徹底大變天!新規落地,業主終于不用再忍氣吞聲

      5月1日起物業行業徹底大變天!新規落地,業主終于不用再忍氣吞聲

      另子維愛讀史
      2026-04-19 19:37:43
      靈隱寺砸飯碗!浙江4000寺廟大洗牌,滿街僧人有玄機

      靈隱寺砸飯碗!浙江4000寺廟大洗牌,滿街僧人有玄機

      一口娛樂
      2026-04-20 01:43:39
      哈工大畢業失業四五年被吐槽!網友:農村大學生大多數過得比較差

      哈工大畢業失業四五年被吐槽!網友:農村大學生大多數過得比較差

      火山詩話
      2026-04-19 10:40:38
      沒有不透風的墻!沈騰和林允的瓜未必是假的、站姐關站跑路

      沒有不透風的墻!沈騰和林允的瓜未必是假的、站姐關站跑路

      琴聲飛揚
      2026-01-20 14:25:10
      10倍牛股爆雷 ,虛增營收和利潤 ,涉及商業航天概念,股票將被ST

      10倍牛股爆雷 ,虛增營收和利潤 ,涉及商業航天概念,股票將被ST

      每日經濟新聞
      2026-04-19 20:03:49
      李雨桐泄露薛之謙手機號、身份證號,被北京朝陽警方行政拘留

      李雨桐泄露薛之謙手機號、身份證號,被北京朝陽警方行政拘留

      封面新聞
      2026-04-19 18:38:11
      絕不談判!永久關閉豁免窗口!中國打響光刻機反擊戰

      絕不談判!永久關閉豁免窗口!中國打響光刻機反擊戰

      素衣讀史
      2026-04-19 21:49:57
      中俄關系比傳統“聯盟”更深厚、更可靠

      中俄關系比傳統“聯盟”更深厚、更可靠

      看看新聞Knews
      2026-04-19 08:36:10
      2:1!射門15:9,英超天王山,曼城擊敗阿森納,冠軍懸念又來了

      2:1!射門15:9,英超天王山,曼城擊敗阿森納,冠軍懸念又來了

      小徐講八卦
      2026-04-20 05:46:33
      悲哀!10人小群里剩自己“干凈”,30歲女生稱身體忠于丈夫被孤立

      悲哀!10人小群里剩自己“干凈”,30歲女生稱身體忠于丈夫被孤立

      火山詩話
      2026-04-19 07:13:36
      55歲上海炒股冠軍罕見發聲:如果本金有20W,建議死磕這五條鐵律

      55歲上海炒股冠軍罕見發聲:如果本金有20W,建議死磕這五條鐵律

      股經縱橫談
      2026-04-19 19:03:09
      世錦賽戰報:4-10,賽會第23位冠軍出局,中國2位,16強決出3席了

      世錦賽戰報:4-10,賽會第23位冠軍出局,中國2位,16強決出3席了

      求球不落諦
      2026-04-19 23:35:24
      太缺德!門口突然添兩座墳,開門就能見到,孩子晚上嚇得不敢出門

      太缺德!門口突然添兩座墳,開門就能見到,孩子晚上嚇得不敢出門

      川渝視覺
      2026-04-19 21:31:23
      塔圖姆25+11+7布朗26分,費城雙槍打鐵,綠軍大勝76人刷爆紀錄

      塔圖姆25+11+7布朗26分,費城雙槍打鐵,綠軍大勝76人刷爆紀錄

      釘釘陌上花開
      2026-04-20 05:20:14
      “國營媒體是謊言工廠”,這位總理上臺就宣布關閉

      “國營媒體是謊言工廠”,這位總理上臺就宣布關閉

      法經社
      2026-04-19 12:34:54
      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      混沌錄
      2026-04-19 17:27:06
      “雷軍被堵車里維權”真相來了!小米高管放話:絕不放任

      “雷軍被堵車里維權”真相來了!小米高管放話:絕不放任

      雷科技
      2026-04-19 22:59:40
      這張照片絕對是李宇春最想刪掉的照片!

      這張照片絕對是李宇春最想刪掉的照片!

      可樂談情感
      2026-04-20 03:34:03
      2026-04-20 06:44:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15012文章數 66787關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內娛隔空掀桌第一人

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      手機
      旅游
      健康
      游戲
      教育

      手機要聞

      8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

      旅游要聞

      小浪底庫區南北兩岸游線通航

      干細胞抗衰4大誤區,90%的人都中招

      "二次元GTA"直播爆了:疑似貼臉嘲諷其他二游!

      教育要聞

      中國為什么不禁網絡游戲?

      無障礙瀏覽 進入關懷版