<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      政府工作報(bào)告,為什么點(diǎn)名“高質(zhì)量數(shù)據(jù)集” | 海斌訪談

      0
      分享至

      人工智能時(shí)代,高質(zhì)量數(shù)據(jù)受到政策重視。

      2026年政府工作報(bào)告提到,要打造智能經(jīng)濟(jì)新形態(tài)。數(shù)據(jù)是人工智能的燃料,政府工作報(bào)告提及,要深化數(shù)據(jù)資源開(kāi)發(fā)利用,健全數(shù)據(jù)要素基礎(chǔ)制度,建設(shè)高質(zhì)量數(shù)據(jù)集。

      “數(shù)據(jù)質(zhì)量直接影響模型的表現(xiàn)。”五一視界(06651.HK)首席技術(shù)官鮑世強(qiáng)對(duì)第一財(cái)經(jīng)記者表示。人工智能從生成式AI(比如文生圖)向物理AI(比如人形機(jī)器人)進(jìn)化,但訓(xùn)練物理AI所需要的強(qiáng)交互數(shù)據(jù),在互聯(lián)網(wǎng)世界難以找到。“進(jìn)入物理AI,數(shù)據(jù)問(wèn)題的重要程度、嚴(yán)峻程度更大了。”


      高質(zhì)量數(shù)據(jù)日漸稀缺

      政府對(duì)于人工智能的期待在提高。

      2026年政府工作報(bào)告,要求深化拓展“人工智能+”,促進(jìn)新一代智能終端和智能體加快推廣,推動(dòng)重點(diǎn)行業(yè)領(lǐng)域人工智能商業(yè)化規(guī)模化應(yīng)用,培育智能原生新業(yè)態(tài)新模式。

      3月6日,國(guó)家發(fā)展改革委主任鄭柵潔在十四屆全國(guó)人大四次會(huì)議經(jīng)濟(jì)主題記者會(huì)上說(shuō),“十五五”末人工智能相關(guān)產(chǎn)業(yè)規(guī)模將增長(zhǎng)到10萬(wàn)億元以上。

      這不是政府工作報(bào)告第一次提及人工智能和數(shù)據(jù)。2025年政府工作報(bào)告同樣提到,持續(xù)推進(jìn)“人工智能+”行動(dòng),加快完善數(shù)據(jù)基礎(chǔ)制度,深化數(shù)據(jù)資源開(kāi)發(fā)利用,促進(jìn)和規(guī)范數(shù)據(jù)跨境流動(dòng)。

      2026年政府工作報(bào)告,進(jìn)一步點(diǎn)名“建設(shè)高質(zhì)量數(shù)據(jù)集”。

      數(shù)據(jù),是人工智能發(fā)展不可或缺的燃料。

      人工智能的發(fā)展,有賴于三個(gè)維度的進(jìn)步:算力、算法和數(shù)據(jù)。相比數(shù)據(jù),芯片所代表的算力和深度學(xué)習(xí)等代表的算法更廣為人知。實(shí)際上,在大語(yǔ)言模型訓(xùn)練過(guò)程中,高質(zhì)量數(shù)據(jù)非常重要。

      數(shù)據(jù)也分優(yōu)劣。比如乾隆所作的1500首詩(shī),沒(méi)辦法與杜甫的1500首詩(shī)相提并論;《自然》雜志發(fā)表的論文質(zhì)量,遠(yuǎn)高過(guò)網(wǎng)絡(luò)上流傳的小作文。優(yōu)質(zhì)的數(shù)據(jù),更有可能訓(xùn)練出優(yōu)質(zhì)的大語(yǔ)言大模型。

      何況,人工智能從感知AI、生成式AI、智能體AI逐步向物理AI演進(jìn)。它們對(duì)于數(shù)據(jù)的要求更高了。

      在互聯(lián)網(wǎng)上,各類文字、圖片、視頻數(shù)據(jù)相對(duì)豐富,它們可以用來(lái)訓(xùn)練生成式AI,大語(yǔ)言模型和視覺(jué)模型因此可以產(chǎn)出優(yōu)質(zhì)的文字、視頻和圖片。比如,豆包開(kāi)發(fā)的Seedance2.0模型已經(jīng)可以產(chǎn)生栩栩如生的視頻。

      鮑世強(qiáng)認(rèn)為,在物理AI階段,數(shù)據(jù)問(wèn)題變得更加突出和嚴(yán)峻了。這些互聯(lián)網(wǎng)數(shù)據(jù),很難用于物理AI訓(xùn)練,比如智能駕駛和人形機(jī)器人。

      智能駕駛的早期階段,低級(jí)別的智駕車輛上路需要人工干預(yù),行駛途中收集到的數(shù)據(jù)用于提高智能駕駛的能力;現(xiàn)在智能駕駛已進(jìn)入規(guī)模化量產(chǎn)應(yīng)用階段。

      “智能駕駛現(xiàn)在面對(duì)的核心問(wèn)題之一,不再只是數(shù)據(jù)量,而是數(shù)據(jù)價(jià)值密度的問(wèn)題。我可以獲取大量的數(shù)據(jù),但是這里邊真正對(duì)訓(xùn)練、測(cè)試有價(jià)值的數(shù)據(jù)比例還在下降。因?yàn)椋邱{能力比較差的時(shí)候,外部數(shù)據(jù)都有用;隨著智駕能力提升,正常數(shù)據(jù)沒(méi)有太大的作用了。那種危險(xiǎn)的工況,或者奇怪場(chǎng)景的數(shù)據(jù),更有價(jià)值。”鮑世強(qiáng)表示。

      具身智能、人形機(jī)器人訓(xùn)練所需高質(zhì)量數(shù)據(jù),比智能駕駛更加復(fù)雜和難以獲取。

      真實(shí)世界里,汽車通常運(yùn)行在可控的道路環(huán)境上;而人形機(jī)器人在真實(shí)世界運(yùn)轉(zhuǎn)的話,必須適應(yīng)更多樣化的需求,比如爬上一座小山,從洗衣機(jī)里取出衣物并折疊好。

      “具身智能,我認(rèn)為目前落地的關(guān)鍵瓶頸之一,實(shí)際上就是數(shù)據(jù)。因?yàn)榫呱碇悄苄枰獜?qiáng)交互環(huán)境的數(shù)據(jù)。互聯(lián)網(wǎng)上文本數(shù)據(jù)、圖像數(shù)據(jù)、視頻數(shù)據(jù),這些都不會(huì)跟你產(chǎn)生動(dòng)作交互,它是一個(gè)死的數(shù)據(jù),并不能直接使用。”鮑世強(qiáng)表示。


      數(shù)據(jù),如何能更好

      生成式AI快速發(fā)展后,幾乎耗盡了公共領(lǐng)域的數(shù)據(jù)。

      這些公域數(shù)據(jù),比如科技期刊論文,互聯(lián)網(wǎng)小說(shuō)等,已經(jīng)被人工智能充分利用。但是私域數(shù)據(jù)還沒(méi)有被充分挖掘,在制藥產(chǎn)業(yè)、服裝品牌、醫(yī)院等千行百業(yè),隱藏著高質(zhì)量、高價(jià)值的數(shù)據(jù)。這些垂直領(lǐng)域的行業(yè)數(shù)據(jù),很多都沒(méi)有收集或激活,更沒(méi)有被大模型所習(xí)得。

      大語(yǔ)言模型回答通用問(wèn)題的能力已經(jīng)非常強(qiáng)了。它能力的進(jìn)一步提升,所需要的數(shù)據(jù)不再只是通用互聯(lián)網(wǎng)數(shù)據(jù),而是垂直領(lǐng)域的專家知識(shí),比如醫(yī)療影像數(shù)據(jù)和醫(yī)生的真知灼見(jiàn)。

      除了私域數(shù)據(jù),合成數(shù)據(jù)也被寄予厚望。

      大模型公司階躍星辰方面認(rèn)為,2026年AI數(shù)據(jù)集有望在合成數(shù)據(jù)、多模態(tài)融合、垂直領(lǐng)域深耕上取得顯著進(jìn)展,合成數(shù)據(jù)將成為核心突破方向。

      所謂合成數(shù)據(jù),是指通過(guò)生成模型、仿真、重建擴(kuò)展等方式,在原始數(shù)據(jù)上產(chǎn)生的更多的數(shù)據(jù)。比如《論語(yǔ)》是原始數(shù)據(jù),但此后各代大家所撰寫的《論語(yǔ)》注釋,則可被簡(jiǎn)略視為合成數(shù)據(jù)。

      理論上,合成數(shù)據(jù)的規(guī)模是沒(méi)有上限的,但合成數(shù)據(jù)的質(zhì)量是關(guān)鍵。合成數(shù)據(jù)通常難以達(dá)到真實(shí)數(shù)據(jù)的質(zhì)量,因此影響大模型的訓(xùn)練效果。

      2026年開(kāi)年,OpenClaw等智能體的驚艷表現(xiàn)令世界矚目。2026年智能體滲透率有望實(shí)現(xiàn)大的飛躍。這使得智能體場(chǎng)景的數(shù)據(jù)合成,成為大模型企業(yè)的核心競(jìng)爭(zhēng)力。階躍星辰方面認(rèn)為,結(jié)合具體的智能體應(yīng)用,從真實(shí)場(chǎng)景、真實(shí)需求中提取并合成長(zhǎng)鏈智能體數(shù)據(jù),對(duì)模型性能有至關(guān)重要的作用。

      在物理AI領(lǐng)域,真實(shí)交互數(shù)據(jù)目前仍然是基礎(chǔ)。合成數(shù)據(jù)通常建立在真實(shí)數(shù)據(jù)基礎(chǔ)之上,用于擴(kuò)展覆蓋范圍、增強(qiáng)長(zhǎng)尾樣本和提升訓(xùn)練與測(cè)試效率。換言之,這是完成1-100的工作;而具身智能現(xiàn)在尚且缺乏0-1階段的數(shù)據(jù)積累,合成數(shù)據(jù)也還沒(méi)法發(fā)揮最大功效。

      鮑世強(qiáng)表示,當(dāng)下具身智能的很多核心工作,就是圍繞獲取0-1階段的交互數(shù)據(jù)而展開(kāi)的。比如,不少企業(yè)通過(guò)員工穿戴配置了傳感器的手套操作,或者遙控操作機(jī)器人完成多樣化的動(dòng)作而采集相關(guān)數(shù)據(jù)。

      “遙操真機(jī)去采集的方式,數(shù)據(jù)質(zhì)量肯定是最高的,但是這個(gè)方式主要的問(wèn)題是成本很高。”鮑世強(qiáng)說(shuō),所以現(xiàn)在很多地方都在建創(chuàng)新中心,支持?jǐn)?shù)據(jù)集的建設(shè)。國(guó)家層面也希望通過(guò)整個(gè)行業(yè)的力量去解決基礎(chǔ)數(shù)據(jù)獲取的問(wèn)題。

      數(shù)據(jù)的標(biāo)準(zhǔn)化,也有待推進(jìn)。

      “當(dāng)前數(shù)據(jù)標(biāo)準(zhǔn)體系仍不完善。不要說(shuō)具身智能了,即使在智駕領(lǐng)域,不同廠商之間在數(shù)據(jù)格式、語(yǔ)義定義、標(biāo)注體系和質(zhì)量要求上也存在較大差異,導(dǎo)致數(shù)據(jù)復(fù)用和共享成本很高。”鮑世強(qiáng)期待,2026年在數(shù)據(jù)的標(biāo)準(zhǔn)化方面有一些進(jìn)展,這也能促進(jìn)數(shù)據(jù)的共享。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      第一財(cái)經(jīng)資訊 incentive-icons
      第一財(cái)經(jīng)資訊
      第一財(cái)經(jīng)官方賬號(hào)
      246137文章數(shù) 621684關(guān)注度
      往期回顧 全部

      專題推薦

      洞天福地 花海畢節(jié) 山水饋贈(zèng)里的“詩(shī)與遠(yuǎn)方

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版