
(圖片來源:攝圖網(wǎng))
(記者 葉菁)2025年,我國建成高質(zhì)量數(shù)據(jù)集超10萬個(gè),規(guī)模超890PB(拍字節(jié))……《“人工智能+制造”專項(xiàng)行動(dòng)實(shí)施意見》中提出“打造100個(gè)工業(yè)高質(zhì)量數(shù)據(jù)集”。高質(zhì)量數(shù)據(jù)集的熱度可謂持續(xù)高起。
都說巧婦難為無米之炊。和人一樣,AI同樣需要大量的數(shù)據(jù)作為“糧食”,來進(jìn)行模型訓(xùn)練和深度學(xué)習(xí)。可以說,沒有高質(zhì)量數(shù)據(jù),就“養(yǎng)”不出高質(zhì)量的人工智能。這些經(jīng)過加工分類的高質(zhì)量數(shù)據(jù)集,在AI時(shí)代撬動(dòng)的能量不可小覷。作為數(shù)字基礎(chǔ)設(shè)施建設(shè)的主力軍,運(yùn)營商以實(shí)踐探索構(gòu)建起數(shù)據(jù)要素運(yùn)營體系,為產(chǎn)業(yè)高質(zhì)量發(fā)展提供了堅(jiān)實(shí)支撐。
數(shù)據(jù)的規(guī)模、質(zhì)量,定義大模型能力上限
過去十年,AI發(fā)展曾陷入“算力至上”的迷思,而今高質(zhì)量數(shù)據(jù)集的崛起標(biāo)志著認(rèn)知的顛覆。浙江大學(xué)劉淵教授指出,“沒有高質(zhì)量的數(shù)據(jù)就喂不出高質(zhì)量的人工智能。”當(dāng)DeepSeek等模型以數(shù)據(jù)質(zhì)量取勝。業(yè)界終于清醒:數(shù)據(jù)是AI的“精糧”,而非算力的附屬品,是AI時(shí)代的“新基建”。運(yùn)營商憑借網(wǎng)絡(luò)覆蓋與數(shù)據(jù)沉淀優(yōu)勢(shì),構(gòu)建起規(guī)模化高質(zhì)量數(shù)據(jù)集,成為大模型研發(fā)的核心支撐力量。
中國電信以“星海”數(shù)據(jù)智能中臺(tái)為核心,構(gòu)建起涵蓋多領(lǐng)域的高質(zhì)量數(shù)據(jù)資源池,累計(jì)形成9萬億Tokens的高質(zhì)量數(shù)據(jù)集,為大模型研發(fā)提供了堅(jiān)實(shí)的數(shù)據(jù)基座。基于該數(shù)據(jù)集打造的“星辰工業(yè)大模型”,深入制造業(yè)生產(chǎn)一線,通過對(duì)實(shí)時(shí)生產(chǎn)數(shù)據(jù)的精準(zhǔn)分析,實(shí)現(xiàn)設(shè)備故障提前預(yù)警、生產(chǎn)工藝動(dòng)態(tài)優(yōu)化與供應(yīng)鏈智能調(diào)度。
中國移動(dòng)聚焦網(wǎng)元智能、運(yùn)維智能等三大方向,構(gòu)建高質(zhì)量數(shù)據(jù)集,覆蓋44個(gè)行業(yè)領(lǐng)域,全面支撐九天系列大模型研發(fā)。通過“數(shù)據(jù)飛輪”體系,將辦公、營銷等場(chǎng)景的推理數(shù)據(jù)經(jīng)清洗、分類后回流至數(shù)據(jù)集平臺(tái),形成“采集-訓(xùn)練-應(yīng)用-反哺”的閉環(huán),持續(xù)提升模型能力。中國聯(lián)通則深耕通信行業(yè)場(chǎng)景,積累多模態(tài)類型數(shù)據(jù)集,建成網(wǎng)絡(luò)運(yùn)營、客服熱線等自有場(chǎng)景數(shù)據(jù)集,并憑借政務(wù)熱線標(biāo)注實(shí)踐入選行業(yè)優(yōu)秀案例集,為垂直領(lǐng)域大模型研發(fā)提供精準(zhǔn)數(shù)據(jù)支撐。
運(yùn)營商用實(shí)踐表明,高質(zhì)量數(shù)據(jù)集的規(guī)模沉淀與質(zhì)量管控,是突破AI大模型能力上限的核心密碼。
多維協(xié)同發(fā)力,激活數(shù)據(jù)供給動(dòng)能
目前我國高質(zhì)量場(chǎng)景數(shù)據(jù)集產(chǎn)業(yè)還處于探索階段,存在三大挑戰(zhàn):大模型廠商的定制化需求與通用數(shù)據(jù)供需錯(cuò)位,醫(yī)療、金融等高價(jià)值場(chǎng)景數(shù)據(jù)尤其稀缺;缺乏統(tǒng)一的質(zhì)量評(píng)估體系,導(dǎo)致數(shù)據(jù)“含金量”參差不齊;企業(yè)“自采自用”模式盛行,數(shù)據(jù)孤島阻礙價(jià)值釋放,造成流通壁壘。未來的競(jìng)爭(zhēng)不僅是算法之爭(zhēng),更是數(shù)據(jù)生態(tài)之戰(zhàn)——唯有打通數(shù)據(jù)“供得出、流得動(dòng)、用得好”的全鏈條,才能讓AI真正賦能千行百業(yè)。運(yùn)營商立足自身技術(shù)優(yōu)勢(shì),從標(biāo)注技術(shù)創(chuàng)新、產(chǎn)業(yè)生態(tài)構(gòu)建雙維度發(fā)力,激發(fā)數(shù)據(jù)供給積極性,構(gòu)建起可持續(xù)的高質(zhì)量數(shù)據(jù)生產(chǎn)體系。
中國電信對(duì)“星海”大數(shù)據(jù)平臺(tái)進(jìn)行升級(jí),推出全新多模態(tài)數(shù)據(jù)智能標(biāo)注平臺(tái),以技術(shù)創(chuàng)新破解行業(yè)痛點(diǎn)。平臺(tái)集成超50個(gè)自動(dòng)化標(biāo)準(zhǔn)技術(shù)與工具,這些技術(shù)創(chuàng)新不僅提升了標(biāo)注效率,更從源頭保障了數(shù)據(jù)集的標(biāo)準(zhǔn)化與高質(zhì)量,為復(fù)雜場(chǎng)景AI應(yīng)用奠定基礎(chǔ)。
中國移動(dòng)以全鏈路體系構(gòu)建推動(dòng)標(biāo)注產(chǎn)業(yè)升級(jí),自主研發(fā)超200款多模態(tài)數(shù)據(jù)標(biāo)注治理工具,建成覆蓋場(chǎng)地、團(tuán)隊(duì)、平臺(tái)、運(yùn)營的全鏈路標(biāo)注體系。中國聯(lián)通則聚焦生態(tài)共建,服務(wù)3個(gè)國家級(jí)數(shù)據(jù)標(biāo)注基地建設(shè),支持公共數(shù)據(jù)與企業(yè)數(shù)據(jù)的安全標(biāo)注與流通,推動(dòng)形成統(tǒng)一標(biāo)注標(biāo)準(zhǔn)與協(xié)同機(jī)制。
運(yùn)營商通過技術(shù)賦能與生態(tài)共建,推動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)從“人工主導(dǎo)”向“智能協(xié)同”轉(zhuǎn)型,持續(xù)激活高質(zhì)量數(shù)據(jù)供給動(dòng)能。
場(chǎng)景驅(qū)動(dòng)賦能,實(shí)現(xiàn)數(shù)據(jù)供需匹配
高質(zhì)量數(shù)據(jù)建設(shè)既要強(qiáng)化供給端能力,更要聚焦需求側(cè)訴求,破解供需不匹配、需求不清晰、匹配不精準(zhǔn)等核心問題。唯有以場(chǎng)景需求為導(dǎo)向,推動(dòng)數(shù)據(jù)供給與場(chǎng)景應(yīng)用深度融合,才能讓高質(zhì)量數(shù)據(jù)集真正產(chǎn)生價(jià)值。以中國電信為例,其在推進(jìn)數(shù)據(jù)要素化的全過程中,始終堅(jiān)持以場(chǎng)景應(yīng)用為牽引,著力構(gòu)建“場(chǎng)景-數(shù)據(jù)-價(jià)值”的閉環(huán),讓數(shù)據(jù)在精準(zhǔn)的流動(dòng)與碰撞中實(shí)現(xiàn)價(jià)值倍增。
在能源行業(yè),中國電信聯(lián)合國家能源局打造的電力數(shù)據(jù)專區(qū),整合了12個(gè)省份的電網(wǎng)運(yùn)行數(shù)據(jù)、200余家發(fā)電企業(yè)的生產(chǎn)數(shù)據(jù),通過脫敏處理與結(jié)構(gòu)化存儲(chǔ),形成涵蓋負(fù)荷預(yù)測(cè)、故障診斷、節(jié)能優(yōu)化的數(shù)據(jù)集。
在“三農(nóng)”領(lǐng)域,中國電信聯(lián)合潮州市政府、廣東省農(nóng)行、清華產(chǎn)研院開展了潮州單叢茶產(chǎn)業(yè)數(shù)據(jù)要素融資試點(diǎn),解決了茶農(nóng)融資難題,貸款審批時(shí)間從1個(gè)月縮短到1-2天,貸款額度提升50%,利息降低50%,為銀行的盡調(diào)、獲客、風(fēng)控等實(shí)現(xiàn)降本增效。
在智慧城市領(lǐng)域,中國電信利用大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù),打造蘭州市智慧城市運(yùn)營管理平臺(tái)、雄安新區(qū)智慧城市運(yùn)營中心等,實(shí)現(xiàn)對(duì)城市運(yùn)行狀態(tài)的實(shí)時(shí)監(jiān)測(cè)和預(yù)警,為城市管理者提供了更加精準(zhǔn)、高效的決策支持。
在醫(yī)療領(lǐng)域,中國電信開發(fā)了全民健康信息平臺(tái)、縣域醫(yī)共體平臺(tái)、突發(fā)公衛(wèi)應(yīng)急指揮平臺(tái)等多個(gè)解決方案,實(shí)現(xiàn)對(duì)醫(yī)療數(shù)據(jù)的快速處理和分析,為醫(yī)生提供精準(zhǔn)的診斷建議和治療方案,提升醫(yī)療服務(wù)的效率和質(zhì)量。
在工業(yè)領(lǐng)域,自研“翼云采”和“翼云控”系統(tǒng),實(shí)現(xiàn)生產(chǎn)數(shù)據(jù)實(shí)時(shí)采集,推進(jìn)工業(yè)控制系統(tǒng)軟硬解耦、云化部署,提升自主可控能力。
在政務(wù)領(lǐng)域,中國電信支撐廣州12345熱線發(fā)布了政務(wù)熱線大數(shù)據(jù)系列產(chǎn)品,分別是“消費(fèi)創(chuàng)新商機(jī)洞察”和“企業(yè)畫像動(dòng)態(tài)輔助分析”。
從日照供需對(duì)接活動(dòng)的豐碩成果,到《“人工智能+制造”專項(xiàng)行動(dòng)》的落地推進(jìn),高質(zhì)量數(shù)據(jù)集已成為AI新基建的核心支撐。未來,唯有持續(xù)強(qiáng)化高質(zhì)量數(shù)據(jù)集建設(shè),深化供需兩端協(xié)同與場(chǎng)景深度融合,才能筑牢AI新基建堅(jiān)實(shí)底座,為數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展注入持久動(dòng)力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.