當前,隨著企業AI轉型的深入,Data for AI已成為關鍵剛需。據IDC預測,據IDC預測,到2029年非結構化數據在企業數據中占比將超過80%,且仍將高速增長。如何從海量的文本、圖像、音視頻等多模態數據中高效挖掘價值,已成為企業智能化轉型的核心挑戰。
近日,火山引擎與NVIDIA在聯合舉辦的“2025火山引擎Data+AI行業領航者智創沙龍”在廣西成功召開。會上,火山引擎深入剖析了AI時代的數據處理挑戰,并展示了以Data Agent和多模態數據湖為核心的“Data+AI”解決方案,旨在為企業智能化轉型提供全新動力。
Data Agent:告別價值陷阱,尋找AI落地務實路徑
企業在AI投入翻倍的同時,往往面臨業務價值難以衡量的困境。火山引擎Data Agent項目負責人海書山指出,企業易陷入“追求100%準確”、“迷信大模型全知全能”和“技術Demo=業務價值”三大“隱形陷阱”。
他強調,Data Agent的務實路徑是“80%準確+快速迭代”,并推動企業數據應用從BI(確定性保障)、ChatBI(效率提升)向Data Agent(洞察創造)演進。火山引擎Data Agent構建了從L1(響應式執行)到L4(自主式決策)的能力階梯,其核心價值公式在于融合“模型能力、工程可靠性與領域知識密度”。
海書山分享了Data Agent在多個場景的實踐:在快消品行業,智能歸因Agent幫助營銷團隊解決了跨渠道數據割裂、人工整合效率低下的痛點;在家電行業,智能營銷Agent通過構建“需求預判-智能引導-精準轉化”鏈路,解決了導購能力參差-齊、線索轉化率低的問題。
多模態數據湖:構筑AI時代的數據新基建
Agent的規模化落地,離不開強大的數據底座。火山引擎數智產品總監王彥輝指出,Agent時代的數據平臺面臨非結構化數據存儲、多模態數據處理、統一管理以及AI處理效率低下等多重挑戰。
為此,火山引擎推出了以LAS Processing Agent為核心的多模態數據湖解決方案,旨在構建處理與推理一體化的AI時代數據新基建。該方案在關鍵技術上實現了全面革新:
· 湖存儲:引入新一代多模存儲格式Lance,原生支持多模態數據,提供高性能隨機訪問和零成本加列能力,解決AI場景下大字段和高頻打標難題。
· 湖處理:采用Daft、Ray等新一代多模態處理引擎,原生支持CPU與GPU異構計算,火山引擎還與Daft創始團隊Eventual.Inc攜手共建Daft中文社區。
· 湖管理:擁抱開源Apache Gravitino,構建開放的AI MetaLake;并推出“AI算子廣場”,提供超200種預訓練算子,覆蓋文檔解析、圖像OCR、音視頻處理等,實現全鏈路自動化。
實踐成果:GPU利用率提至96%,加速AI創新落地
火山引擎的多模態數據湖架構已在多個前沿行業得到驗證。王彥輝分享,某智駕公司將其PB級數據架構升級至火山引擎新方案后,其單機8*A100 GPU的利用率從原先的60%大幅提升至96%,訓練任務交付時間縮短了40%。此外,該方案還幫助國內某頭部大模型公司將其訓練數據從WebDataset遷移至Lance,徹底解決了數據檢索時的讀放大和Shuffle瓶頸問題。
展望未來,火山引擎表示將持續深耕Daft、Ray、Lance等新技術社區,強化多模態數據管理,深化處理與推理一體化,邁向全面的Agent驅動。火山引擎與NVIDIA在Data+AI領域的持續合作,將共同加速高性能AI計算在各行業的規模化落地,幫助企業在智能化浪潮中找到最務實的增長路徑。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.