當人工智能以驚人的速度重塑世界,你是否想過,支撐它不斷進化的“燃料”從何而來?這個答案就藏在“數據工廠”的新興業態里。它不像傳統工廠那樣生產鋼鐵或汽車,而是專門“生產”高質量的數據集,為AI大模型提供源源不斷的“糧食”。
“數據工廠”是什么?
當前,整個AI行業正面臨一個巨大的瓶頸——高質量數據嚴重短缺。一個名為“數據工廠”的新興事物,正試圖成為這個瓶頸的破局者。它專門“生產”和“加工”數據,就是將散亂、原始的龐大數據資源,轉化為人工智能可以直接吸收、高效利用的“高質量數據集”。
北京交通大學信息管理理論與技術國際研究中心教授張向宏介紹,我們在農業社會效率很低,是因為沒有基礎設施。工業社會效率提高的一個很重要的突破點就是有了基礎設施,有自來水、燃氣的供應。
如今進入數智社會,數據成為核心生產要素,同樣需要類似“水廠”“電廠”這樣的基礎設施來規模化供給,這就是“數據工廠”。
張向宏表示,現在這些大模型其實都遇到了這個問題,原因就是數據就是那些公域數據,私域數據確實開發不出來,數據瓶頸非常突出。
這個瓶頸導致了一個怪圈:一邊是手握海量數據的企業“有數不采、采而不存、存而不加工”;另一邊是渴求數據的大模型公司,不得不重復“自己打井自己喝”,從采集、清洗到標注全部自己來,成本高昂且效率低下。“數據工廠”,正是破局的關鍵。
“數據工廠”建設路徑如何走?
我國的“數據工廠”建設之路該如何走?張向宏指出,“數據工廠”本就有不同的形態,主要分為集中式、半集中式和分布式三種:
- 集中式是統一采集、統一匯聚、統一加工。目前做“數據工廠”的,90%以上采取的都是集中式。
- 半集中式是通用的技術根據不同的應用搭建不同的平臺。
- 分布式是沒有一個工廠的物理的形態,數據“采存算管用”技術就是數據編織技術。
業界認為,從長遠看,能實現“數據可用不可見”的分布式數據工廠是必然趨勢,因為它從根本上解決了數據持有者對安全和控制權的擔憂。但短期內,三種模式將并行發展。
政策出臺助力數據生產與人工智能深度對接
國家層面,國家數據局、工業和信息化部、公安部、證監會2月7日聯合發布《關于培育數據流通服務機構 加快推進數據要素市場化價值化的意見》(以下簡稱《意見》),首次明確我國將培育三類數據流通服務機構。三類數據流通服務機構包括:數據交易所(中心)、數據流通服務平臺企業、數據商。《意見》提出,支持各類數據流通服務機構加強與人工智能企業等合作,依托數據基礎設施提供數據匯聚、治理、模型訓練等服務。
國務院發展研究中心研究員馬源表示,當前人工智能企業普遍面臨數據荒問題,現在數據流通服務機構就有了一個新的核心使命:匯聚、整合跨行業、跨領域的數據資源,促進數據供方和AI企業需求高效匹配。
![]()
展望未來,“數據工廠”不僅為AI“供糧”,它將成為國家數據基礎設施的核心單元。它或許沒有傳統工廠的喧囂,但它“生產”出的數據洪流,必將無聲卻深刻地重塑我們的時代。
(來源:中央廣播電視總臺中國之聲)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.