<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      會「進化」的合成數據!無需上傳隱私,也能生成高質量垂域數據

      0
      分享至



      張劍清是一名上海交通大學在讀博士生,獲中國人工智能學會「青托」、吳文俊人工智能榮譽博士及國家獎學金。在代碼大模型、合成數據集進化生成、聯邦學習與推薦系統方向取得系列成果,主要關注其中的垂域自適應、模型融合、模型個性化主題,于JMLR、NeurIPS、ICML、CVPR、KDD、ICCV、AAAI等發表9篇CCF-A一作論文,主導并開源了PFLlib、HtFLlib、EvolveGen等項目,曾在字節跳動、清華AIR、KAUST、騰訊等機構實習交流。

      數據短缺問題隨著大模型的高速發展,日益加劇。已經有不少 Nature 論文指出,預計到 2028 年,公共數據的產生速度將因趕不上大模型訓練的消耗速度而被耗盡。而在某些特殊領域,比如醫療、工業制造等,原本可用數據就非常少,數據短缺的問題更嚴重。

      為了解決這一困境,我們提出了合成數據自主進化框架 PCEvolve:只需提供少量標注樣本,就可在保護隱私同時進化出一整個數據集。PCEvolve 的進化過程類似 DeepMind 提出的 FunSearch 和 AlphaEvolve。



      • 論文標題:PCEvolve: Private Contrastive Evolution for Synthetic Dataset Generation via Few-Shot Private Data and Generative APIs
      • 論文鏈接:https://www.arxiv.org/abs/2506.05407
      • 開源代碼:https://github.com/TsingZ0/PCEvolve
      • 進化生成開源平臺:https://github.com/TsingZ0/EvolveGen

      現有大模型 API 并不能拿來直接合成垂域數據

      垂直領域的中小企業普遍不具備訓練私有大模型的能力,而傾向于使用現成的大模型 API(下文簡稱「大模型」)。人造合成數據是目前解決數據短缺問題所采用的主流方法:讓已有大模型生成數據,再進行篩選、標注、清洗等步驟,得到高質量訓練數據。

      然而,當應用到垂直領域,如醫療、工業制造等領域,大模型雖然能夠根據 prompt 生成對應的數據,但滿足「語義匹配」的數據,并不能直接拿來作為垂直領域數據使用。這是因為:垂直領域的數據還有各種其他特性信息,比如光照、數據采樣設備型號、隱私信息、上下文等。

      舉例來說,皮革在不同環境、材質、磨損程度等方面,都具備太多細節信息,而提供給大模型的 prompt 很難完整描述;即便完整描述,大模型也不能完全生成符合 prompt 的數據,因為大模型本身還無法完全模擬世界。

      如下圖所示,大模型生成的數據,和垂域攝像機拍攝的數據,具有巨大的差距,雖然標簽都是「帶有膠水殘留的皮革」。同樣的,在文本領域,讓現成的大模型生成的 code snippet 數據,也無法與某公司內部開發人員的代碼習慣和代碼規范相匹配。而且,這一垂域數據特征分布差異的問題,在任意模態都存在。



      【圖 1】左邊為大模型生成,右邊為實際采集。在工業制造皮革領域,大模型生成圖片和實際采集圖片的對比

      同時,因為垂域數據可能因為知識產權、隱私保護、行業規范等原因,本地數據不允許上傳給大模型作 context,極大地增加了 prompt 工程的難度、降低了合成數據的質量。比如,公司內部的代碼不能上傳、醫院的病人數據不能上傳、企業的次品樣品數據不能上傳等等。

      PCEvolve:保護隱私的合成數據進化框架

      垂域數據除了不能上傳之外,還具有本身就稀少的特性,導致帶標注的垂域樣本原本就少。這使得其他要求提供大量標注樣本的方法(如 PE 等),不再可用。因為 PE 等方法在垂域情況下,為了保護隱私所加的噪聲過大,使其方法退化為一種隨機方法。而我們的 PCEvolve 在進化過程中設計了一種基于「指數機制」(Exponential Mechanism)的新的隱私保護方法,適配垂域場景的少樣本情況。

      下圖是 PCEvolve 的架構圖,左邊是迭代進化框架:類似達爾文進化論,先讓大模型 API 生成較大數量的候選合成數據(種群),再經過【選擇器】(自然選擇)進行淘汰,最后將不帶隱私信息的優質合成數據返回給大模型進行下一輪進化。右邊則是進化框架的「引擎」【選擇器】的詳細設計:以隱私數據作為參考(verifier)給合成數據打分(reward),最后根據分數優勝劣汰;其中打分過程,因為用到了隱私數據,需要作隱私保護。



      【圖 2】PCEvolve 架構圖

      PCEvolve 選擇器詳細設計

      首先我們先聲明:下面所有的操作都需要考慮隱私保護,我們采用的是差分隱私(Differential Privacy, DP),并通過指數機制來實現 DP,其中指數機制定義為:



















      • 執行指數機制選擇存活樣本因為在我們的精心設計下,使得指數機制得以滿足,DP 得以保證。所以這一步變得簡單:我們只需要執行指數機制定義的概率采樣,即可得到帶有隱私保護的高質量合成數據選擇結果。

      在醫療場景和工業制造場景的實驗結果

      我們主要通過兩種方式驗證 PCEvolve 的效果:a) 合成的數據對于下游模型訓練的增幅,b) 合成數據本身的質量。

      a) 合成的數據對于下游模型訓練的增幅

      我們評估了 PCEvolve 在COVIDx(COVID-19 胸部 X 線圖像)、Came17(乳腺癌轉移的腫瘤組織切片)、KVASIR-f(用于胃腸道異常檢測的內鏡圖像)、MVAD-l(用于異常檢測的皮革表面)上的表現,這里大模型方面我們只需提供 API 即可。



      【表 1】在四個特殊領域數據集上的精度(%)

      b) 合成數據本身的質量

      下圖是我們采樣的皮革表面數據,這三行分別代表正常皮革、有切割缺陷的皮革、有膠水殘留缺陷的皮革。「Initial」表示大模型 API 合成的圖像(進化之前);「Private」表示垂域場景真實采集的隱私皮革表面數據。



      【圖 3】皮革表面圖像數據。

      其他更多實驗詳見論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1954年,尹先炳多次奸污女護士并致其自殺,毛主席大怒:開除黨籍

      1954年,尹先炳多次奸污女護士并致其自殺,毛主席大怒:開除黨籍

      帝哥說史
      2025-12-07 16:54:03
      1955年,毛主席一筆劃掉二野劉鄧之下的3號人物:此人不予授銜!

      1955年,毛主席一筆劃掉二野劉鄧之下的3號人物:此人不予授銜!

      卿昀
      2025-11-24 21:26:43
      曾被中央通報違規聚餐飲酒致人死亡,魏栓師被開除黨籍和公職

      曾被中央通報違規聚餐飲酒致人死亡,魏栓師被開除黨籍和公職

      南方都市報
      2025-12-08 13:50:08
      男子感嘆老婆長得美,結婚10年依舊心動,網友:愛妻者風生水起

      男子感嘆老婆長得美,結婚10年依舊心動,網友:愛妻者風生水起

      梅子的小情緒
      2025-12-08 14:59:38
      雅迪宣布新國標電動車C09上市:前后座設計,標配車筐

      雅迪宣布新國標電動車C09上市:前后座設計,標配車筐

      界面新聞
      2025-12-06 09:28:05
      王楚欽帶走30萬!王曼昱19萬,沒想到孫穎莎一局沒丟,只排第四

      王楚欽帶走30萬!王曼昱19萬,沒想到孫穎莎一局沒丟,只排第四

      曹說體育
      2025-12-08 14:59:37
      國家稅務總局:嚴禁平臺企業向各類“小哥”等人員轉嫁涉稅義務增加其負擔

      國家稅務總局:嚴禁平臺企業向各類“小哥”等人員轉嫁涉稅義務增加其負擔

      每日經濟新聞
      2025-12-08 13:43:44
      跟風被咀嚼過的《芳華》,一場庸眾的鬧劇

      跟風被咀嚼過的《芳華》,一場庸眾的鬧劇

      關爾東
      2025-12-07 12:44:17
      國務院批復同意:這個國家高新區更名(附178家國家高新區全名單)

      國務院批復同意:這個國家高新區更名(附178家國家高新區全名單)

      工信微報
      2025-12-08 17:25:32
      31歲奧運冠軍武大靖回應退役:選拔賽沒選上,現在面臨著轉型

      31歲奧運冠軍武大靖回應退役:選拔賽沒選上,現在面臨著轉型

      黃河新聞網呂梁頻道
      2025-12-08 08:27:36
      朱孝天現身機場,網友對他說哈嘍老師!卻換來朱孝天的不滿和白眼

      朱孝天現身機場,網友對他說哈嘍老師!卻換來朱孝天的不滿和白眼

      樂悠悠娛樂
      2025-12-08 15:21:38
      中日若開戰,絕非“俄烏模式”,一旦開打就是不死不休的滅國戰

      中日若開戰,絕非“俄烏模式”,一旦開打就是不死不休的滅國戰

      南權先生
      2025-11-28 17:10:02
      北京這一夜,57歲周濤當眾“變臉”,卻給流量明星和粉絲上了一課

      北京這一夜,57歲周濤當眾“變臉”,卻給流量明星和粉絲上了一課

      洲洲影視娛評
      2025-12-08 16:57:47
      誰沒有瘋狂過呢,朱珠舊照海外瘋傳,國內形象反差驚人,驚呆了!

      誰沒有瘋狂過呢,朱珠舊照海外瘋傳,國內形象反差驚人,驚呆了!

      情感大頭說說
      2025-12-03 07:52:54
      準備收網?中方發出最后通牒,高市緊急派人訪華,我大使下死命令

      準備收網?中方發出最后通牒,高市緊急派人訪華,我大使下死命令

      艾米手工作品
      2025-12-08 10:18:09
      越媒:越南歸化30歲原巴西籍中衛古斯塔沃,他將改名為杜飛龍

      越媒:越南歸化30歲原巴西籍中衛古斯塔沃,他將改名為杜飛龍

      懂球帝
      2025-12-08 12:32:04
      “沒錢還硬裝!”一家三口吃火鍋花了217,爸爸評論區被淹沒!

      “沒錢還硬裝!”一家三口吃火鍋花了217,爸爸評論區被淹沒!

      阿纂看事
      2025-12-08 09:58:00
      江蘇常州擬新增2座機場

      江蘇常州擬新增2座機場

      魯中晨報
      2025-12-08 16:01:42
      浮力森林,正式破產清算

      浮力森林,正式破產清算

      都市快報橙柿互動
      2025-12-08 16:23:19
      甲流離世的人飆升!哈工大研究:吃奧司他韋,謹記不要碰7樣東西

      甲流離世的人飆升!哈工大研究:吃奧司他韋,謹記不要碰7樣東西

      健康之光
      2025-12-08 17:55:58
      2025-12-08 19:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11873文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      親子
      手機
      教育
      本地
      公開課

      親子要聞

      小滿第一次看到大雪 今年韓國的第一場雪

      手機要聞

      真我GT8系列已支持微信聊天收發實況照片:畫面與聲音可完整傳遞

      教育要聞

      小學必考易錯題,聽說很多大學生都做錯了

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕三区| 另类一区| 国产偷国产偷亚洲清高网站| 日韩在线一区二区三区| 欧美大黑屄| 国产亚洲精品在av| 亚洲精品国产suv| 国产午夜大地久久| 99久久久无码国产精品免费| 欧美777| 亚洲国产成人精品av区按摩| 亚洲av免费| 台湾佬中文娱乐网址| 高清国产精品人妻一区二区| 亚洲乱人伦| 人草逼视频频| 亚欧在线视频| 女人与公狍交酡女免费| 日本三级欧美三级人妇视频黑白配| 放荡的少妇2欧美版| 极品少妇的粉嫩小泬视频| 人妻专区中文字幕| 国产麻豆91网在线看| 天堂中文8资源在线8| 日本欧美一区二区免费视频| 麻豆一区二区三区精品视频 | 色综合日韩| 久热99re在线无码一区| 国产资源视频| 色一情一区二区三区四区| 天天做天天爱夜夜爽毛片| 99国产在线| 成人网亚洲| 临安市| 人人人操| 亚洲综合图片区| 最新精品国偷自产在线| 一区一区三区产品乱码| 一本色道久久综合亚洲精品按摩| 第一福利导航视频| 成人深爱网|