網易首頁 > 網易號 > 正文申請入駐

政府工作報告，為什么點名“高質量數據集”

2026-03-07 20:04:41　來源: 第一財經資訊

上海舉報

分享至

2026.03.07

本文字數：2529，閱讀時長大約4分鐘

作者 |第一財經彭海斌

人工智能時代，高質量數據受到政策重視。

2026年政府工作報告提到，要打造智能經濟新形態。數據是人工智能的燃料，政府工作報告提及，要深化數據資源開發利用，健全數據要素基礎制度，建設高質量數據集。

“數據質量直接影響模型的表現。”五一視界（06651.HK）首席技術官鮑世強對第一財經記者表示。人工智能從生成式AI（比如文生圖）向物理AI（比如人形機器人）進化，但訓練物理AI所需要的強交互數據，在互聯網世界難以找到。“進入物理AI，數據問題的重要程度、嚴峻程度更大了。”

高質量數據日漸稀缺

政府對于人工智能的期待在提高。

2026年政府工作報告，要求深化拓展“人工智能+”，促進新一代智能終端和智能體加快推廣，推動重點行業領域人工智能商業化規模化應用，培育智能原生新業態新模式。

3月6日，國家發展改革委主任鄭柵潔在十四屆全國人大四次會議經濟主題記者會上說，“十五五”末人工智能相關產業規模將增長到10萬億元以上。

這不是政府工作報告第一次提及人工智能和數據。2025年政府工作報告同樣提到，持續推進“人工智能+”行動，加快完善數據基礎制度，深化數據資源開發利用，促進和規范數據跨境流動。

2026年政府工作報告，進一步點名“建設高質量數據集”。

數據，是人工智能發展不可或缺的燃料。

人工智能的發展，有賴于三個維度的進步：算力、算法和數據。相比數據，芯片所代表的算力和深度學習等代表的算法更廣為人知。實際上，在大語言模型訓練過程中，高質量數據非常重要。

數據也分優劣。比如乾隆所作的1500首詩，沒辦法與杜甫的1500首詩相提并論；《自然》雜志發表的論文質量，遠高過網絡上流傳的小作文。優質的數據，更有可能訓練出優質的大語言大模型。

何況，人工智能從感知AI、生成式AI、智能體AI逐步向物理AI演進。它們對于數據的要求更高了。

在互聯網上，各類文字、圖片、視頻數據相對豐富，它們可以用來訓練生成式AI，大語言模型和視覺模型因此可以產出優質的文字、視頻和圖片。比如，豆包開發的Seedance2.0模型已經可以產生栩栩如生的視頻。

鮑世強認為，在物理AI階段，數據問題變得更加突出和嚴峻了。這些互聯網數據，很難用于物理AI訓練，比如智能駕駛和人形機器人。

智能駕駛的早期階段，低級別的智駕車輛上路需要人工干預，行駛途中收集到的數據用于提高智能駕駛的能力；現在智能駕駛已進入規模化量產應用階段。

“智能駕駛現在面對的核心問題之一，不再只是數據量，而是數據價值密度的問題。我可以獲取大量的數據，但是這里邊真正對訓練、測試有價值的數據比例還在下降。因為，智駕能力比較差的時候，外部數據都有用；隨著智駕能力提升，正常數據沒有太大的作用了。那種危險的工況，或者奇怪場景的數據，更有價值。”鮑世強表示。

具身智能、人形機器人訓練所需高質量數據，比智能駕駛更加復雜和難以獲取。

真實世界里，汽車通常運行在可控的道路環境上；而人形機器人在真實世界運轉的話，必須適應更多樣化的需求，比如爬上一座小山，從洗衣機里取出衣物并折疊好。

“具身智能，我認為目前落地的關鍵瓶頸之一，實際上就是數據。因為具身智能需要強交互環境的數據。互聯網上文本數據、圖像數據、視頻數據，這些都不會跟你產生動作交互，它是一個死的數據，并不能直接使用。”鮑世強表示。

數據，如何能更好

生成式AI快速發展后，幾乎耗盡了公共領域的數據。

這些公域數據，比如科技期刊論文，互聯網小說等，已經被人工智能充分利用。但是私域數據還沒有被充分挖掘，在制藥產業、服裝品牌、醫院等千行百業，隱藏著高質量、高價值的數據。這些垂直領域的行業數據，很多都沒有收集或激活，更沒有被大模型所習得。

大語言模型回答通用問題的能力已經非常強了。它能力的進一步提升，所需要的數據不再只是通用互聯網數據，而是垂直領域的專家知識，比如醫療影像數據和醫生的真知灼見。

除了私域數據，合成數據也被寄予厚望。

大模型公司階躍星辰方面認為，2026年AI數據集有望在合成數據、多模態融合、垂直領域深耕上取得顯著進展，合成數據將成為核心突破方向。

所謂合成數據，是指通過生成模型、仿真、重建擴展等方式，在原始數據上產生的更多的數據。比如《論語》是原始數據，但此后各代大家所撰寫的《論語》注釋，則可被簡略視為合成數據。

理論上，合成數據的規模是沒有上限的，但合成數據的質量是關鍵。合成數據通常難以達到真實數據的質量，因此影響大模型的訓練效果。

2026年開年，OpenClaw等智能體的驚艷表現令世界矚目。2026年智能體滲透率有望實現大的飛躍。這使得智能體場景的數據合成，成為大模型企業的核心競爭力。階躍星辰方面認為，結合具體的智能體應用，從真實場景、真實需求中提取并合成長鏈智能體數據，對模型性能有至關重要的作用。

在物理AI領域，真實交互數據目前仍然是基礎。合成數據通常建立在真實數據基礎之上，用于擴展覆蓋范圍、增強長尾樣本和提升訓練與測試效率。換言之，這是完成1-100的工作；而具身智能現在尚且缺乏0-1階段的數據積累，合成數據也還沒法發揮最大功效。

鮑世強表示，當下具身智能的很多核心工作，就是圍繞獲取0-1階段的交互數據而展開的。比如，不少企業通過員工穿戴配置了傳感器的手套操作，或者遙控操作機器人完成多樣化的動作而采集相關數據。

“遙操真機去采集的方式，數據質量肯定是最高的，但是這個方式主要的問題是成本很高。”鮑世強說，所以現在很多地方都在建創新中心，支持數據集的建設。國家層面也希望通過整個行業的力量去解決基礎數據獲取的問題。

數據的標準化，也有待推進。

“當前數據標準體系仍不完善。不要說具身智能了，即使在智駕領域，不同廠商之間在數據格式、語義定義、標注體系和質量要求上也存在較大差異，導致數據復用和共享成本很高。”鮑世強期待，2026年在數據的標準化方面有一些進展，這也能促進數據的共享。

微信編輯| 雨林

第一財經持續追蹤財經熱點。若您掌握公司動態、行業趨勢、金融事件等有價值的線索，歡迎提供。專用郵箱：bianjibu@yicai.com

（注：我們會對線索進行核實。您的隱私將嚴格保密。）

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數碼

房產 / 家居

政府工作報告，為什么點名“高質量數據集”