<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      合成數據≠生成模型:一文讀懂合成數據的全新范式

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】最新研究提出合成數據的全新分類框架,突破「生成模型=合成數據」的傳統認知,涵蓋反演、仿真與數據增強等方法,并按應用層次劃分為數據中心AI、模型中心AI、可信AI和具身AI。

      隨著基礎模型規模不斷擴大,真實數據在成本、隱私、質量和可控性上的限制,正逐漸成為 AI 繼續發展的關鍵瓶頸。

      尤其是在醫療等高價值場景中,真實數據本身難以獲取,「依賴數據自然產生」的范式正在失效。

      在這樣的背景下,合成數據正在從「真實數據的補充」,轉變為“主動構造高質量訓練與評估數據的核心機制”。

      基于對300+篇代表性文獻的系統梳理,南洋理工大學、清華大學、四川大學、中山大學的研究人員提出了一個統一的How / Why / Where框架,重新定義了合成數據的方法邊界,并從應用層面給出了更完整的發展路徑。


      論文鏈接:https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where

      論文資源庫:https://github.com/Egg-Hu/Awesome-Synthetic-Data-Generation

      首先,合成數據方法該如何分類?

      很多工作默認認為「合成數據 = 生成模型」,該綜述重新定義了「數據合成」的方法邊界,跳出「合成數據 = 生成模型」的單一視角。也就是說,合成數據并不等同于“用生成模型造數據”,反演、仿真、增強等方式也都應被納入合成數據的范疇。

      下表給出了整體分類框架:


      第二,成數據應用在哪些核心場景?

      不同于以往按具體任務或領域劃分的方式,本文從更高層次出發,將合成數據的應用組織為一條逐步演進的能力路徑。

      在這一框架下,最基礎的是數據中心人工智能(Data-centric AI),其核心目標是解決真實數據稀缺、獲取成本高以及隱私受限等問題,通過合成數據擴展訓練集并提升數據質量,為模型訓練提供穩定的數據基礎。

      在此之上,隨著數據可獲得性的提升,研究重點逐漸轉向模型中心人工智能(Model-centric AI),此時合成數據不僅用于補充數據,還被用于能力注入,例如提升模型的推理、編碼與對齊能力,并構建可控的評測基準。

      進一步地,隨著模型能力的增強,對系統可靠性的需求不斷提高,催生了可信人工智能(Trustworthy AI),在這一階段,合成數據被廣泛用于隱私保護、安全防護、公平性提升以及模型可解釋性分析。

      最后,合成數據的應用從數字空間走向現實世界,對應的是具身智能(Embodied AI),其目標是支持感知、交互與泛化能力,使智能體能夠在復雜物理環境中進行決策與行動。下表給出了整體結構(具體細節可參考原論文):


      進一步地,文章將上述四類應用場景細化到了 30+ 個具體機器學習任務層級,從而構建起從宏觀分類到具體問題的系統化映射。

      如下圖所示,每一類場景都被進一步拆解為多個典型問題:例如,在數據中心人工智能中,涵蓋了零/少樣本學習、聯邦學習、無數據學習、數據蒸餾等任務;在模型中心人工智能中,則進一步細化為模型通用能力提升,以及推理、編碼、指令對齊等特定能力的增強,同時也包括基于合成數據的模型評測任務;

      在可信人工智能中,主要聚焦于隱私保護、模型攻擊、安全防護、長尾學習與可解釋性等任務;而在具身智能中,則進一步延伸到感知、交互以及跨場景泛化等面向真實環境的任務。


      最后,合成數據面臨哪些挑戰與機遇?

      盡管在方法體系與應用落地方面已經取得了顯著進展,但合成數據仍處于快速發展階段,仍然存在一系列關鍵挑戰有待解決。

      • 隨著模型越來越多地依賴自生成數據進行訓練,一個核心風險逐漸顯現:模型坍塌(model collapse)。當模型反復在自身生成的數據上迭代訓練時,可能導致分布逐漸收縮,數據多樣性下降,從而影響模型性能與泛化能力。

      • 在實際應用中,如何在數據效用與隱私保護之間取得平衡,仍然是一個長期存在的問題,即所謂的數據效用與隱私保護的權衡(utility–privacy tradeoff)。過強的隱私約束可能降低數據可用性,而過高的數據保真度又可能帶來潛在的隱私泄露風險。

      • 當合成數據被用于模型評測時,還可能引入新的偏差來源。例如,生成-評測偏差(generation–evaluation bias)指的是模型在由相似生成機制產生的測試數據上表現更優,從而導致評估結果失真,影響對模型真實能力的判斷。

      • 在方法層面,多個前沿方向也仍有待探索。例如,主動式數據合成(active data synthesis)強調根據模型需求動態生成最有價值的數據,以提升數據利用效率;而多模態數據合成(multi-modal data synthesis)則關注如何生成語義一致、跨模態對齊的高質量數據,這對于多模態模型的發展尤為關鍵。

      • 最后,一個基礎但尚未完全解決的問題是:如何系統性評估合成數據的質量。這不僅包括數據的有效性(utility)與多樣性(diversity),還涉及隱私(privacy)與安全性(security)等多個維度,目前仍缺乏統一且標準化的評測體系。

      下圖給出了該綜述的總體整理框架,具體細節可參考原文。


      這篇綜述最值得關注的地方,不只是整理了現有方法,更重要的是它改變了我們理解合成數據的方式: 合成數據不再只是生成模型的一個應用方向,而正在成為連接數據、模型、評測與真實世界交互的新型基礎設施。

      如果說過去AI的競爭核心是「誰擁有更多真實數據」,那么未來很可能會變成「誰能更高效、更安全、更可控地生成高價值數據」。

      參考資料:

      https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      金正恩自己都沒想到,下令出兵俄羅斯后,會給朝鮮帶來這么多驚喜

      金正恩自己都沒想到,下令出兵俄羅斯后,會給朝鮮帶來這么多驚喜

      混沌錄
      2026-04-11 20:56:12
      后衛線告急 以賽亞·喬因個人原因明日G3出戰存疑

      后衛線告急 以賽亞·喬因個人原因明日G3出戰存疑

      北青網-北京青年報
      2026-04-25 09:53:06
      賴清德無法竄訪,蕭美琴向大陸喊話,解放軍罕見有大動作,不簡單

      賴清德無法竄訪,蕭美琴向大陸喊話,解放軍罕見有大動作,不簡單

      DS北風
      2026-04-24 17:48:05
      哇噻,這是我見過有酒窩的女生里,最美的一位

      哇噻,這是我見過有酒窩的女生里,最美的一位

      鄉野小珥
      2026-04-25 08:26:44
      定位明確了!路易王子過完8歲生日,威廉凱特釋放準確信號

      定位明確了!路易王子過完8歲生日,威廉凱特釋放準確信號

      落雪聽梅a
      2026-04-25 09:20:30
      約中年女人出來玩,學會4個“不要臉”神操作,沒有搞不定的女人

      約中年女人出來玩,學會4個“不要臉”神操作,沒有搞不定的女人

      小影的娛樂
      2026-04-11 16:46:06
      美伊,突傳大消息!特朗普,最新動作!美股、黃金、白銀集體震蕩!

      美伊,突傳大消息!特朗普,最新動作!美股、黃金、白銀集體震蕩!

      證券時報e公司
      2026-04-24 22:07:51
      內塔被上百國通緝,中方打破沉默,在安理會動手,明牌清算以色列

      內塔被上百國通緝,中方打破沉默,在安理會動手,明牌清算以色列

      愛意隨風起呀
      2026-04-24 13:30:09
      DeepSeek V4震撼發布!實現全球開源領先

      DeepSeek V4震撼發布!實現全球開源領先

      新智元
      2026-04-24 12:11:03
      國家為什么不會任由房價持續下跌?

      國家為什么不會任由房價持續下跌?

      流蘇晚晴
      2026-04-23 19:53:23
      剛剛,昆明一地突降雞蛋大的冰雹!降溫降雨又要來了,云南局地降溫超8℃

      剛剛,昆明一地突降雞蛋大的冰雹!降溫降雨又要來了,云南局地降溫超8℃

      昆明信息港
      2026-04-24 21:43:04
      施明離世引發李氏家族內斗!九龍塘祖屋涵碧別墅市價曝光 這棟豪宅當年曾是楊思琦分手的導火索

      施明離世引發李氏家族內斗!九龍塘祖屋涵碧別墅市價曝光 這棟豪宅當年曾是楊思琦分手的導火索

      TVB資訊臺
      2026-04-25 00:00:46
      比楚阿梅尼更值!曼聯鎖定 5000 萬妖星,紅魔這次終于不抬價了?

      比楚阿梅尼更值!曼聯鎖定 5000 萬妖星,紅魔這次終于不抬價了?

      瀾歸序
      2026-04-25 06:54:59
      美股還能狂飆多久?納指、標普創新高,英特爾、英偉達又大漲!

      美股還能狂飆多久?納指、標普創新高,英特爾、英偉達又大漲!

      聞號說經濟
      2026-04-25 09:23:07
      美軍:數十年來首次三艘航母部署中東,中使館緊急提醒中國公民盡快撤離 消息人士:美伊預計將舉行第二輪談判

      美軍:數十年來首次三艘航母部署中東,中使館緊急提醒中國公民盡快撤離 消息人士:美伊預計將舉行第二輪談判

      每日經濟新聞
      2026-04-24 23:30:16
      中東戰火還沒結束,“第二個伊朗”浮出水面,中方不許做一件事

      中東戰火還沒結束,“第二個伊朗”浮出水面,中方不許做一件事

      通鑒史智
      2026-04-25 09:16:26
      上海富商花2000萬,讓情人生3個孩子,2019年后得知娃都不是他的

      上海富商花2000萬,讓情人生3個孩子,2019年后得知娃都不是他的

      漢史趣聞
      2026-04-24 18:35:46
      “80后”!211大學組織部長,跨校任副校長

      “80后”!211大學組織部長,跨校任副校長

      雙一流高校
      2026-04-25 00:09:58
      連云港、南通、鹽城,明晚“蘇超”,請注意→

      連云港、南通、鹽城,明晚“蘇超”,請注意→

      江蘇警方
      2026-04-24 12:31:56
      靠“漢芯一號”騙取11億研究經費,后逃到美國的陳進,結局如何?

      靠“漢芯一號”騙取11億研究經費,后逃到美國的陳進,結局如何?

      阿鳧愛吐槽
      2026-04-14 02:01:01
      2026-04-25 10:27:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15058文章數 66800關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4牽手華為,價格依然"屠夫級"

      頭條要聞

      聲稱考慮效仿伊朗在馬六甲收"過路費"后 印尼財長改口

      頭條要聞

      聲稱考慮效仿伊朗在馬六甲收"過路費"后 印尼財長改口

      體育要聞

      上海男籃23連勝+主場全勝 姚明之后最強一季

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經要聞

      別高估英偉達,別低估DeepSeek

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      旅游
      教育
      手機
      親子
      軍事航空

      旅游要聞

      西安周邊最值得去的寶藏小城!游客不多,景點硬核!浪一天0門票

      教育要聞

      不是所有孩子都適合留洋 董路的微博視頻

      手機要聞

      全面回歸OPPO!realme真我商城明日起停止運營

      親子要聞

      家長需要警惕乙流最近有點波動

      軍事要聞

      美防長:戰事不會“沒完沒了”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品久久久| 亚洲一区二区约美女探花| freesexvideos第一次| 亚洲精品中文字幕一二三| 一本色道久久综合亚洲精品按摩| 亚洲亚洲人成无码网WWW| 老熟妇性老熟妇性色| 一本色道久久综合无码人妻 | 四虎国产精品成人| 人与禽交av在线播放| 国产XXXX| 韩日午夜在线资源一区二区| 无码www毛色一区二区| 久久av无码精品人妻糸列| 日本熟妇色| 真实国产乱子伦视频| 天天色成人综合网| 久久先锋男人av资源网站| 婷婷综合缴情亚洲| av毛片亚洲精品观看| 亚洲精品成人a?v| 国产av夜夜欢一区二区三区| 亚洲V色| 成人区人妻精品一熟女| 欧美日韩不卡合集视频| 国产又色又刺激高潮视频| 波多野结衣久久一区二区| 国产亚洲一区二区三区四区 | 蜜臀av中文人妻系列| 亚洲国产欧美在线人成| 国产精品理论片| 亚洲国产精品VA在线看黑人| 天天影视色香欲综合久久| 亚洲毛多水多男女| 成人亚洲国产精品一区不卡| 精品无码国产不卡在线观看| 国产九九在线视频| 中文av无码人妻一区二区三区| 高要市| 日本高清视频网站www| 天天躁夜夜躁狠狠综合2020|