網易首頁 > 網易號 > 正文申請入駐

Zilliz出海業務負責人喬丹：向量數據庫破研發瓶頸，AI賦能范本轉移｜2025極新AIGC峰會演講實錄

2026-01-07 08:04:57　來源: 極新

北京舉報

分享至

2025年12月26日，【想象·2025極新AIGC峰會】在上海浦東浦軟大廈成功召開。Zilliz出海業務負責人喬丹先生在會上做了題為《向量數據庫對研發范本轉移的影響》的演講，從非結構化數據特點、大模型幻覺解決到向量技術應用場景，深入解析了向量數據庫如何重構AI研發的底層邏輯。

Zilliz出海業務負責人喬丹

喬丹重點提到以下幾點：

“AI業務中，非結構化數據向量化，是目前最為常見且成熟的數據處理手段之一。”

“幻覺有多種表現形式，如在日常生活中我們能直觀感知到的，就是AI產出了錯誤的答案。”

“萬物皆可向量化，”

以下為喬丹演講原文，經極新整理，希望能給大家帶來收獲。

01數據治理挑戰

“非結構化數據其實都是可以通過向量來進行表征的”

首先我們如果要給它一個簡單的定義，除了傳統標量形式（比如一個字段一串字符）之外，視頻、音頻、圖片這類數據，我們定義為非結構化數據，而這些非結構化數據其實都可以通過向量來進行表征。

我們試想，每天接收的各種信息中，除了文字數據，很多都是通過視頻、音頻等形式獲取的。其實非結構化數據在我們生活中的占比遠比各位想象的要高，這張餅狀圖可以很好地揭示了我們日常信息收集中的信息占比，非結構化數據顯然處在相對主導的位置。當然在計算機領域，或者在數據治理領域，非結構化數據的應用其實還處于方興未艾的早期狀態。

我們的使命就是專注于解決非結構化數據相關的問題。這里我們做一個簡單的數學理解，結合最早的解析幾何知識，我們可以把生活中很多事物標定為二維、三維乃至無數維坐標系中的一個點。

現在以三維為例，比如有兩個單詞，“面包” 和“bread”。“面包”可在向量空間中用一組特征向量（如xyz123）表征，而在傳統關鍵詞搜索中，很難直接將“面包”與“bread”匹配——傳統搜索僅能匹配“面”“包”這類字面重合的關鍵詞，無法感知二者的語義關聯。但如果把它們映射到幾何框架中，“面包”是 123，“bread”是124，在向量空間中，我們可以計算它們之間的相對幾何關系和距離，進而得到二者的相關性。

這就是為什么我們可以用一種簡單的幾何方法，將以前無法匹配和關聯的非結構化數據關聯起來。當然這只是一個簡單例證，如果我們能把這些維度進行百倍、千倍甚至萬倍的拓展，一串幾何字符所能囊括的信息會遠超我們的想象。

02模型可靠性危機

“幻覺有多種表現形式，在日常生活中我們能直觀感知到的，就是它產出了錯誤的答案”

某知名廠商的大模型，之前的能力可以通過一個問題來驗證：單詞school books有幾個o？這是個很簡單的問題，但之前一些版本的大模型給出的回答是有兩個，這顯然和人眼觀察的實際情況不符，正確答案應該是有4個o。

這種情況不只是國內存在，海外也一樣。還會自作聰明地補充了這些字母分別出現在哪些位置，但它給出的位置也是錯誤的佐證。

不過如果追加提問進行糾正，模型有時候是能夠反省的。在糾正之下，模型會再進行一次計算，最終得出正確的答案。

這種現象叫什么？有個很專業的名詞，叫Hallucination，也就是幻覺。這其實是個非常哲學化的概念，當我們把大模型當作一個交流對象時，它給出的那些并非是基于事實的回答，而是幻覺。

幻覺可以有很多種表現形式，但在日常生活中我們能直觀感知到的，就是它產出了錯誤的答案。這些其實都是很小的問題，但試想如果使用者是一名學者，正在進行嚴謹的學術研究，2023年我們用舊版本模型做了一次簡單測試，沒有任何上下文，直接提問：上海市 GDP 排名前三的是哪個區？模型給出的答案是浦東新區、武漢新區、楊浦區。先不管浦東新區和楊浦區是不是前三，我們能確定的是，武漢新區根本不屬于上海，這顯然也是出現了幻覺。

但此時我們該如何克服這種現象？其實這就涉及到技術領域老生常談的方法“檢索增強生成”，也就是我們俗稱的 RAG。簡而言之，我們會在操作中針對性彌補這一弊端，方法很簡單：在提出問題的同時，人為插入一個知識庫，為大模型提供對應數據（比如上海下屬各區的實際 GDP 數據），隨之而來大模型給出的回答就是正確的。這就是一個非常簡單的RAG雛形，能幫助大家在使用大模型處理文檔或生活中的問題時，既利用它的優勢，又避免它對真實信息的干擾。

但同時，有些場景下并不會這么順利，因為我們可能沒有現成的知識庫，這時候該怎么做？答案也很簡單：需要在給大模型的提示詞（prompt）中加上“如果沒有答案就不要瞎編”的要求。當大模型接收到這個信息后，比如面對“上海市 GDP 排名第三的區是哪個”這類問題，若現有知識庫信息無法判斷，它就會如實回應，還會給出一些相關性解釋，總而言之，它最終不會給出誤導性的結論式表達，避免對實際生活中的操作產生重大偏差影響。

如果不想糾結復雜的 IT 概念，可以簡單理解：當我們把這類優化措施封裝在后臺，以及封裝在用戶端或業務端的各個交互環節時，就產生了各種各樣的 RAG 演化和變種，這也是我們現在強調的 AI 在終端或業務端創新的重要方面。

03技術應用瓶頸

“萬物皆可向量化”

2022 年的時候，還有很多人把大量的經濟成本以及團隊精力投入到發掘創意上面，但顯然模型的增長能力對我們而言是比較有挑戰性的。而 RAG 能讓我們以一種相對輕度、便捷的方式，解決很多切實的業務問題。

那么在這個環境中，向量數據庫起到什么作用？可以理解為，在與大模型的溝通當中，所有語言內容的底層其實都不是一串規則化的標量，而是語義化的向量，語義即向量。所以當你要大規模地為大模型插入知識庫時，其底層依托的其實就是向量數據庫。

由此我們可以產生一個應用場景遷移的思考：向量數據庫會在哪些方面起到作用？橫向上，在搜索、推薦系統、大模型、風控等場景都能發揮作用，橫軸可以無限延伸；縱向上則對應非結構化數據類型，這類數據其實都可以被向量化。兩者交叉會產生無數的應用場景賦能。

這些能力其實都是日常可以用到的。比如大家在A電商平臺進行購物，你覺得某樣東西特別貴，去 B 電商平臺拍張照搜索，會發現同款商品價格比其他地方便宜90%。這是怎么實現的？其實就是把兩張圖片的向量特征提取出來，再進行比對，計算它們在坐標系里的某種算法下的最合適的近鄰關系，我們就找到了最具性價比的商品。

這是商業場景的應用，剛才也提到了分子藥研發，我們可以把分子結構進行向量化。我們服務的客戶里也有材料類型的企業，甚至在自動駕駛領域，隨著越來越多的多模態方案出現，相關技術如何辨別不同數據之間的差異，都可以借助向量數據庫來實現。

更多干貨分享敬請注我們的公眾號與視頻號~超多精彩對話內容等待您的解鎖！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.