![]()
“國家數據局發布了首批104個高質量數據集典型案例。
想象一下:無人機在云層間穿梭,地震臺網實時匯聚信號,手術機器人通過影像學習精準操作,自動駕駛車輛在虛擬道路中反復訓練——這一切背后,都離不開同一種“能源”:高質量數據。
大模型的發展,催生了高質量數據集的迫切需求。近日,國家數據局發布了首批104個高質量數據集典型案例。這些案例是從全國663個申報案例中精心遴選而出,覆蓋了科學研究、工業制造、農業農村、低空經濟、具身智能、智能駕駛、智慧海洋、生物制造等多個領域和多個省份。申報單位包括央企、國企、科研院所和民營企業等。
在數字經濟與人工智能深度融合的大背景下,國家數據局的這一發布標志著我國數據要素市場化邁入了“深度應用”的新階段。如今,數據已不再是“沉睡資源”,而是直接參與到生產、治理、科研中的核心要素。這也意味著,AI模型的競爭已進入“數據質量”的關鍵階段,誰掌握了高質量、場景化、合規的數據集,誰就將擁有下一代AI應用的“燃料”。
什么是高質量數據集?
數據之于大模型,猶如石油之于汽車。汽車無法直接使用原油,原油必須經過一系列復雜的煉化過程,轉化為汽油后,才能供汽車使用。同理,海量原始數據也需要經過“煉化”,形成高質量數據集,才能真正有效地應用于大模型訓練。
數據集,亦稱資料集、數據集合或資料集合,是由數據構成的集合。簡而言之,數據集是圍繞特定主題,通過系統化采集與結構化處理形成的可計算數據集合,其核心在于將碎片化信息轉化為可復用的生產要素。
高質量數據集,是指經過采集、加工等數據處理流程,可直接用于人工智能模型開發訓練,并能有效提升模型性能的數據集合。
![]()
來源:國家數據局官網
在國內典型案例中,以通信領域數據集為例,中國移動通過整合運營商8類核心數據(如基站信號強度、用戶行為軌跡),并融合政務、互聯網等外部數據,構建起包含650TB多源數據的“九天大模型”訓練集。這類數據集已超越傳統數據庫的存儲功能,成為支撐行業智能化升級的關鍵基礎設施。
截至2025年10月,我國在高質量數據集建設領域已形成從頂層設計到具體實施的多層次政策法規體系。這些政策由國家數據局、國家發展改革委、工信部等多部門聯合推動,旨在夯實人工智能發展的基礎,賦能“人工智能+”行動。
早在2022年12月,中共中央、國務院印發《關于構建數據基礎制度更好發揮數據要素作用的意見》,首次提出數據質量標準化體系建設要求。2023年12月,國家數據局等17部門聯合發布《“數據要素×”三年行動計劃(2024—2026年)》,明確提出打造高質量人工智能大模型訓練數據集。
緊接著,專項政策密集出臺。2025年1月,三部委聯合印發《國家數據基礎設施建設指引》,提出制定高質量數據集全流程標準,明確標注、交付、授權等機制。2025年5月,《數字中國建設2025年行動方案》再次強調:加強交通、醫療、制造等重點領域數據標注,建設行業高質量數據集。
各地數據集工作,有哪些進展?
當前,我國高質量數據集建設已邁入規模化、標準化、場景化、生態化的嶄新階段。從國家級產業基地到地方行業專項工程,從央企到地方科研機構,各類主體正緊密圍繞真實需求,系統性地打造高質量數據“燃料庫”。
國家數據局“百城千集”高質量數據集培育計劃(2025年啟動),該計劃目標是在三年內支持全國100個城市培育不少于1000個高質量數據集,涵蓋智能制造、智慧城市、醫療健康、交通物流、能源環保等重點領域。目前,該計劃已在北京、上海、深圳、南京、成都、武漢、西安、大連、昆明、蘇州等城市率先開展首批試點。
例如,南京作為全國首個國家級數據集產業平臺,該基地由國家數據局與江蘇省政府聯合共建,并已于2025年6月正式揭牌。基地重點聚焦技術研發中心、標準認證中心、產業孵化平臺等核心功能。
在公共數據授權運營框架下,多地將“高質量數據集”作為核心產品形態。例如:
北京市依托“京通”平臺,發布《城市運行高質量數據集目錄》,涵蓋交通流量、空氣質量、市政設施等12類數據集,支持AI企業申請使用。上海市在浦東新區試點“醫療健康高質量數據集”,整合三甲醫院脫敏電子病歷及影像數據,用于輔助診斷模型訓練。
那么,高質量數據集有哪些最新進展,有什么值得關注的趨勢呢?為了搞清楚這個問題,我們從國家數據局發布的104個高質量數據集著手,來進行分析:
從目前國家數據局發布的104個高質量數據集來看,我國高質量數據集呈現出全國統籌、區域特色鮮明的發展態勢。
1、數據量龐大,地域分布廣泛
從總量來看,截至今年6月底,中國已建設高質量數據集超過3.5萬個,總體量超過400PB,相當于中國國家圖書館數字資源總量的約140倍,涵蓋醫療、制造、教育、交通、金融等20余個行業。從地域分布來看,首批104個高質量數據集典型案例覆蓋了全國20多個省份,從東部沿海到西南邊陲(下附圖)。
![]()
2、區域各有特色,地方數據成為新增長點
從已公布的104個高質量數據集典型案例來看,案例分布呈現出全國一盤棋、區域各具特色的數據發展格局。
江蘇、廣東、北京、上海、浙江等省市憑借其經濟發展水平高、數字化程度領先、創新能力強等優勢,在高質量數據集建設方面走在全國前列。
中西部省份同樣表現不俗,且各有特色。
四川的地震監測預報預警多模態聯合數據集、云南動物資源多模態高質量數據集的構建與應用、地球大數據創新青藏高原高質量數據集等項目,均展現了中西部地區在特色領域的優勢,凸顯了“數據+地域資源”的差異化競爭力。
例如,四川省數據局發布的地震監測預報預警多模態聯合數據集;云南省數據局的云南動物資源多模態高質量數據集構建及應用項目。
3、應用場景拓展:前沿領域高質量數據集快速增長,垂直行業深度應用成為主流
從名單來看,高質量數據集正從通用領域向垂直行業深度滲透,醫療、金融、制造、交通、傳媒等行業均在構建具有行業特色的數據集。例如,人民網股份有限公司申報的主流價值語料庫,以及主流醫療領域已形成的從影像診斷到臨床決策支持的全鏈條數據應用體系等。
![]()
高質量數據集的行業領域分布
除傳統領域外,此次數據集還披露了大量新興領域的高質量數據,涵蓋低空經濟、具身智能、自動駕駛等前沿領域。國家數據局明確指出,將加速構建具身智能、自動駕駛、低空經濟、生物制造等重點領域的數據高地,這些領域將成為未來高質量數據集建設的關鍵增長極。
在這些領域也涌現出不少有價值的數據集,例如,中國兵器工業集團有限公司提供的人形機器人具身操作數據集。
整體上看,數據集的行業細分更加垂直,前沿領域的數據庫也在高速增長,跨領域融合應用正日益增多。越來越多的案例,凸顯了不同領域數據融合應用的巨大價值。例如,通過將氣象數據與電力負荷數據相結合,能夠實現更為精準的電力需求預測;而將交通流量數據與商業數據相融合,則可優化城市商業布局等。
典型高質量數據集建設案例分析
基于國家數據局發布的“高質量數據集典型案例名單”或公開報道,以下選取幾個不同領域的典型案例進行詳細分析:
案例一:極端環境下的地球第三極多圈層數據集(中科院青藏高原研究所)
針對青藏高原極高海拔、極寒氣溫和極干旱的環境挑戰,該數據集綜合整合了衛星遙感數據、地面臺站觀測數據以及無人機采集數據,構建形成了規模達600TB的多圈層綜合數據產品。
![]()
數據生產流程
此次案例的創新點之一,在于研發了多圈層智能觀測融合技術。針對“地球第三極”地球系統的獨特特點,將人工智能、數據同化與空天地一體化觀測技術進行深度融合,有效提升了多圈層數據的時空連續性。由此,傳統的點狀觀測方式得以躍升為廣域智能監測,顯著提高了高原極端環境數據的精度和分辨率。
二是構建了“多源觀測+AI智能融合+數據同化”的數據智能生產模式。通過這一模式,生成了高精度、長時序、廣覆蓋的多圈層數據產品,精準對接國家重大需求;同時,引入國際期刊認證的數據出版流程,提升了數據資源的全球可信共享與影響力,增強了我國在氣候變化應對和全球環境治理中的話語權。
該技術能夠為川藏鐵路建設提供沿線地質災害預警,使隧道施工風險降低40%;同時,支撐雅魯藏布江水電開發的生態影響評估,相關數據已被納入聯合國氣候報告。
在國際層面,通過與世界氣象組織(WMO)共建數據接口,服務全球120多個科研機構,顯著提升了我國在第三極研究領域的話語權。
案例二:生命科學的DNA甲基化標準化數據集(中科院北京基因組所)
![]()
面向人群復雜特征的高質量DNA甲基化數據集概覽
該數據集整合了18萬例樣本的甲基化數據,覆蓋近300類人群特征,是全球規模最大的表觀遺傳數據庫之一。
案例三:百度智能駕駛事業群一“Apollo高質量自動駕駛數據集"
![]()
百度智能云自動駕駛高質量數據集
針對自動駕駛技術商業化落地所面臨的數據挑戰,百度智能云在山西數據標注基地建立了具備甲級測繪資質的自動駕駛數據合規環境,打造了物理層面的“可信數據空間”,并建設了涵蓋智能駕艙、道路采集等多元數據產品的綜合體系。在確保數據安全合規的基礎上,形成了規模宏大、場景覆蓋廣泛且安全可靠的高質量數據集。該數據集已成功服務于30余家知名車企及Tier1供應商。
其他高質量數據集的特色案例在此不再一一列舉。實際上,這些試點與案例不僅驗證了數據要素價值化的有效路徑,也為廣大企業提供了可復制、可推廣的建設范式。未來,隨著數據產權制度、流通交易機制以及安全治理體系的進一步完善,高質量數據集將成為推動人工智能與實體經濟深度融合的核心動力。
當前面臨的困境,與未來的方向
盡管建設取得突破,高質量數據集仍處在早期探索階段。最大的問題不在數量,而在流通、標準、技術與信任。
首先,數據未能充分流動。目前公共數據以政務為主,產業端的核心數據仍處封閉狀態,存在“不愿開放、不敢流通”的普遍顧慮。
其次,標準體系割裂。不同領域的數據格式、分類分級與質量評測標準不統一,形成新的“數據孤島”。
第三,技術鏈薄弱。多模態清洗、自動標注、質量評測等環節仍依賴人工,智能化治理工具不足,AI驅動的數據引擎尚未成熟。
最后,合規與安全仍是痛點。數據權屬模糊、可信流通機制欠缺,差分隱私與同態加密等技術尚未規模化落地。
正如中國信息通信研究院副院長魏亮所言,真正的瓶頸在于認知差距與治理能力。政府和企業尚未充分理解不同行業對數據類型的差異化需求,也缺乏面向大模型的系統化治理思維。數據采集、清洗、標注與評測環節成本高昂、缺乏統一準則,導致“高質量”難以被量化與驗證。
本質上,AI競爭已從算法之爭轉向數據治理之爭。未經淬煉的數據,只是原油;經治理的數據,才是智能的燃料。隨著《“數據要素×”三年行動計劃》的深入推進,數據質量的提升將決定中國智能產業的厚度與速度。
可以說,在智能時代,數據不再描述世界,而是在重寫世界。
每一組高質量數據,都是一次對現實的抽象與重構;它們匯聚成模型的認知邊界,也決定了人類理解世界的方式。
算法只是形式,數據才是內容。
未來的智能,不只取決于算力的堆疊,還取決于數據的真實、完整與豐富。當數據被精準地采集、凈化、標注、歸一,人類的知識體系正在被重新編譯。
真正的智能,不在機器之中,而在我們如何構建讓機器理解世界的那份秩序。這104個數據集,只是新的秩序被書寫的序章。
也許,冷靜、龐大、無聲的變革,已在數據深處開始運轉。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.