哈嘍,大家好,今天小墨這篇評論,主要來分析下一代Lakehouse為何必走AI優先路,SQL時代要落幕了,數據分析圈正在經歷一場顛覆性變革。
過去三十年,SQL主導的結構化數據處理模式撐起了行業發展,隨著大模型技術爆發,這一格局正在被打破。
查詢方式從精準SQL轉向自然語言對話,傳統Lakehouse早已難以適配。下一代Lakehouse,必須把AI放在核心位置,這不是選擇而是必然。
![]()
現在很多企業都面臨數據處理的兩難困境。大數據團隊守著Hive、傳統Lakehouse等平臺,用Parquet、ORC格式處理訂單、交易等結構化數據,運轉得還算順暢。
![]()
這種割裂讓業務推進舉步維艱。比如直播電商場景中,業務方需要把商品點擊率、成交轉化率等結構化數據,和主播語音講解、用戶彈幕評論等非結構化數據關聯分析,判斷推薦是否精準。傳統架構下,得先從數據庫查結構化數據,再調用外部AI模型處理非結構化數據,跨系統調用延遲高、性能差,根本滿足不了實時分析需求。
![]()
![]()
同時,其構建CPU/GPU異構計算架構,智能調度資源處理不同負載。結構化的云服務營收統計由CPU負責,非結構化的客戶語音分析、合同條款提取等AI推理任務由GPU承接。
![]()
![]()
![]()
首先是統一多模態存儲,這是基礎。需要引入Lance等適配AI的存儲引擎,打破結構化與非結構化數據的存儲壁壘,讓Lakehouse成為AI資產的統一底座,避免數據散落和冗余。
其次是In-Database AI,實現寫入即處理、查詢即分析。數據寫入時,系統自動完成解析、分塊、向量化轉換,無需人工介入;查詢時,用戶不用導出數據到外部模型,直接在SQL中調用AI函數就能完成分析,比如過濾無意義評論、識別用戶情感傾向。
最后是原生向量檢索,把向量能力從外掛下沉到內核。結合關鍵詞匹配與語義檢索,滿足合同關鍵條款搜索、以圖搜圖等高精度需求,同時內嵌知識圖譜能力,挖掘數據間的隱藏關系。
![]()
從SQL到自然語言,數據分析的范式變革已不可逆轉,AI優先不是下一代Lakehouse的加分項,而是必備項。只有全面擁抱AI,打破數據壁壘、強化核心能力,才能適配多模態時代的需求,釋放數據的真正價值。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.