![]()
撰文 | 李信馬
題圖 | AI生圖
在 AI 時代,數據已然成為關鍵生產要素 , 企業想充分發揮 AI 的潛力,數據治理是繞不開的核心環節。
不久前,亞馬遜云科技在北京召開的媒體溝通會上,圍繞著如何助力企業數智化轉型升級,亞馬遜云科技成長型企業及新興業務總經理倪殿令進行了分享,尤其是有關數據治理,已經成為企業數智化轉型升級的關鍵支撐,數據引擎和治理也是亞馬遜云科技在AI時代的核心優勢之一。
![]()
他用了一個餐館的比喻,餐館有后廚,后廚每天要去采購食材,農場把菜運回來后,需要把這些食材進行處理。亞馬遜云科技的AmazonEMR服務,原理就像把倉庫里所有的菜洗干凈、按歸類放好,切成適合炒菜的原材料。
“向量”就像采購回來的菜,把它洗凈、切片,如果要炒土豆絲,就切成土豆絲;如果是炒番茄,就洗干凈切成番茄塊。
![]()
這些處理好的食材存放在冰箱里,是按照類別存放的,冰箱就是支持向量存儲的,我們稱之為向量數據庫,如AmazonAurora、AmazonRDS 和AmazonOpenSearch。
![]()
深度學習的應用,就像客人點菜——一個查詢(Query)來了。廚師把冰箱門打開,把菜品拿出來,再炒制后送出去,這就是AI應用查詢的邏輯。
![]()
“所以大家理解,最重要的不是前端的模型,也不是前端AI的App來查詢,最重要的是底層的數據處理能力,以及向量數據如何存儲、DBMS數據如何歸類存儲的能力。在生成式AI應用中,這部分的影響力超過90%。一家企業能否用好生成式AI,其使用的開源模型或微調(fine-tuning)模型的‘幻覺’程度,取決于企業數據量的大小和數據的質量。”倪殿令說道。
下面的這張圖講的是AI應用企業領域數據實施模式,可以進一步看到,數據為企業帶來的競爭優勢。
![]()
先看右邊,最底層是大模型,然后掛上RAG(Retrieval-Augmented Generation)增強檢索。有時候外掛的效率很低,需要做微調。還是用比喻的方法來解釋,一個人從小幼兒園到大學,就像是模型訓練的過程,需要很長的時間去訓練思維模式。
![]()
畢業后到企業工作,企業進行上崗培訓,讓你了解行業知識,這就是微調(Fine-tuning)。
![]()
剛上崗的時候,老板給你指定一位老師,他在試用期6個月的時間里用最快的方式把他腦子里的精華告訴你,要怎么做事,這就是蒸餾——在特定的小范圍找到正確答案最快的方式。
![]()
再看左邊,將開源的非結構化數據變成結構化數據,再經過Amazon EMR的數據治理,變成向量存儲,再用于調用,跟大模型結合。但對絕大多數企業來說,模型用的是開源或者買的,這終究是“別人的”,數據才是關乎企業能否用好深度學習真正重要的東西。
倪殿令和客戶交流時,對企業的管理者提出,可以通過“黃金三角”——場景、數據、人才——擁抱生成式AI。
首先,場景方面,企業需要找到既能創造價值,又適合用生成式AI解決的具體業務場景,比如智能客服、知識庫構建、文生圖或文生文等,但針對業務的場景需清晰界定輸入、輸出及預期效果。
其次,數據方面,為模型選擇和模型適配的正確的工具,以及建設良好的數據基礎。“把底層的數據處理,包括結構化的數據基礎夯實好,然后再通過跟大模型之間的調用關系把它動起來用好。”
最后,在整個數據治理的過程當中,要有相應的人才,比如數據工程師、算法工程師,有人做模型適配,有人做調優。
不難看出,數據治理被置于企業數智化轉型升級核心支柱的位置,當然,強調選擇“正確的工具”,多少也有云廠商“王婆賣瓜,自賣自夸”的原因在。不過在IDC發布的《IDC MarketScape:中國面向生成式AI的數據基礎設施2025年廠商評估》報告中,亞馬遜云科技位居領導者類別,也佐證了亞馬遜云科技在數據治理方面的實力。
在AI時代,數據治理發揮著至關重要的作用,為生成式AI應用提供了堅實的數據基礎,確保其準確性、穩定性與可迭代性。隨著企業落地AI應用的需求日益增長,可以預見,數據治理領域的技術創新也將不斷出現,助力產業界通過AI創造更多的價值。
注:文中圖片來自現場拍攝(有修正)及AI制作
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.