網易首頁 > 網易號 > 正文申請入駐

AI時代，為什么要做好數據治理？

2026-02-12 15:00:45　來源: DoNews網站

北京舉報

分享至

撰文 | 李信馬
題圖 | AI生圖

在 AI 時代，數據已然成為關鍵生產要素，企業想充分發揮 AI 的潛力，數據治理是繞不開的核心環節。

不久前，亞馬遜云科技在北京召開的媒體溝通會上，圍繞著如何助力企業數智化轉型升級，亞馬遜云科技成長型企業及新興業務總經理倪殿令進行了分享，尤其是有關數據治理，已經成為企業數智化轉型升級的關鍵支撐，數據引擎和治理也是亞馬遜云科技在AI時代的核心優勢之一。

他用了一個餐館的比喻，餐館有后廚，后廚每天要去采購食材，農場把菜運回來后，需要把這些食材進行處理。亞馬遜云科技的AmazonEMR服務，原理就像把倉庫里所有的菜洗干凈、按歸類放好，切成適合炒菜的原材料。

“向量”就像采購回來的菜，把它洗凈、切片，如果要炒土豆絲，就切成土豆絲；如果是炒番茄，就洗干凈切成番茄塊。

這些處理好的食材存放在冰箱里，是按照類別存放的，冰箱就是支持向量存儲的，我們稱之為向量數據庫，如AmazonAurora、AmazonRDS 和AmazonOpenSearch。

深度學習的應用，就像客人點菜——一個查詢（Query）來了。廚師把冰箱門打開，把菜品拿出來，再炒制后送出去，這就是AI應用查詢的邏輯。

“所以大家理解，最重要的不是前端的模型，也不是前端AI的App來查詢，最重要的是底層的數據處理能力，以及向量數據如何存儲、DBMS數據如何歸類存儲的能力。在生成式AI應用中，這部分的影響力超過90%。一家企業能否用好生成式AI，其使用的開源模型或微調（fine-tuning）模型的‘幻覺’程度，取決于企業數據量的大小和數據的質量。”倪殿令說道。

下面的這張圖講的是AI應用企業領域數據實施模式，可以進一步看到，數據為企業帶來的競爭優勢。

先看右邊，最底層是大模型，然后掛上RAG（Retrieval-Augmented Generation）增強檢索。有時候外掛的效率很低，需要做微調。還是用比喻的方法來解釋，一個人從小幼兒園到大學，就像是模型訓練的過程，需要很長的時間去訓練思維模式。

畢業后到企業工作，企業進行上崗培訓，讓你了解行業知識，這就是微調（Fine-tuning）。

剛上崗的時候，老板給你指定一位老師，他在試用期6個月的時間里用最快的方式把他腦子里的精華告訴你，要怎么做事，這就是蒸餾——在特定的小范圍找到正確答案最快的方式。

再看左邊，將開源的非結構化數據變成結構化數據，再經過Amazon EMR的數據治理，變成向量存儲，再用于調用，跟大模型結合。但對絕大多數企業來說，模型用的是開源或者買的，這終究是“別人的”，數據才是關乎企業能否用好深度學習真正重要的東西。

倪殿令和客戶交流時，對企業的管理者提出，可以通過“黃金三角”——場景、數據、人才——擁抱生成式AI。

首先，場景方面，企業需要找到既能創造價值，又適合用生成式AI解決的具體業務場景，比如智能客服、知識庫構建、文生圖或文生文等，但針對業務的場景需清晰界定輸入、輸出及預期效果。

其次，數據方面，為模型選擇和模型適配的正確的工具，以及建設良好的數據基礎。“把底層的數據處理，包括結構化的數據基礎夯實好，然后再通過跟大模型之間的調用關系把它動起來用好。”

最后，在整個數據治理的過程當中，要有相應的人才，比如數據工程師、算法工程師，有人做模型適配，有人做調優。

不難看出，數據治理被置于企業數智化轉型升級核心支柱的位置，當然，強調選擇“正確的工具”，多少也有云廠商“王婆賣瓜，自賣自夸”的原因在。不過在IDC發布的《IDC MarketScape:中國面向生成式AI的數據基礎設施2025年廠商評估》報告中，亞馬遜云科技位居領導者類別，也佐證了亞馬遜云科技在數據治理方面的實力。

在AI時代，數據治理發揮著至關重要的作用，為生成式AI應用提供了堅實的數據基礎，確保其準確性、穩定性與可迭代性。隨著企業落地AI應用的需求日益增長，可以預見，數據治理領域的技術創新也將不斷出現，助力產業界通過AI創造更多的價值。

注：文中圖片來自現場拍攝（有修正）及AI制作

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.