大語言模型在文本生成和推理上的表現(xiàn)有目共睹,但對于從非結構化文本構建可靠知識圖譜這件事,依然是個老大難。這個問題的根源在于:語言模型的運作機制與結構化知識提取的需求之間存在本質性的錯位。
![]()
本文會介紹自動化知識圖譜生成的核心難題:生成式模型為什么搞不定結構化提取,判別式方案能提供什么樣的替代選擇,生產(chǎn)級知識圖譜的質量標準又是什么。
語言模型在知識圖譜提取上栽跟頭的原因
即使是當前最頂尖的模型,在結構化提取上也會翻車。這事兒不只是幻覺問題,而是語言模型生成文本的方式和知識圖譜的需求之間存在根本性沖突。
生成式模型構建知識圖譜時會有一連串的麻煩:實體消歧首當其沖,同一個實體換個說法出現(xiàn),模型就可能認不出來,遺漏共指關系直接導致圖譜碎片化;組合實體也很麻煩"墨西哥城"這種術語涉及嵌套概念(城市和國家),需要層級化表示;規(guī)模一大幻覺問題就壓不住了,概率生成會編造出看著挺像那么回事但純屬虛構的實體和關系,在需要分段處理的長文本里這個問題尤其突出;還有上下文依賴,很多實體之間的關聯(lián)只有看到完整文檔才說得通,但把整個文檔丟進去又會放大幻覺率。
吧i如說法律文檔分析中,單個段落里模型把"甲方"識別成一個實體,轉頭又把"前述當事人"當成另一個實體——它們分明是同一個組織。這種段落級別的碎片化讓生成的圖譜噪聲滿滿,導致后處理的工作量相當可觀。
有人嘗試切小文本塊來壓制幻覺,但是會出現(xiàn)關系丟失和實體重復。段落級別就已經(jīng)有問題了——重要的實體關聯(lián)可能跨越多個句子,激進地切到句子級別會把這些依賴關系徹底打碎。推理成本還會上去因為模型得跑好幾遍才能處理完同樣的內容。
上下文丟失隨著窗口縮小而加劇。段落級別已經(jīng)有麻煩,句子級別只會更糟
生成式架構的這些局限性引出一個問題:有沒有更適合結構化提取的模型類型?
判別式模型 vs 生成式模型
判別式語言模型——基于掩碼語言建模訓練的雙向注意力模型——在知識圖譜提取上提供了一條不同的路徑。
優(yōu)勢從何而來?判別式模型天生擅長 Token 和序列分類。命名實體識別可以直接建模為輸入序列上的 Token 級分類任務,生成步驟壓根不需要。
命名實體檢測作為 Token 分類處理,根本不走生成流程
架構上的契合讓判別式模型不僅在結構化提取上更準,效率也足夠支撐邊緣部署——一個 BERT 模型在普通硬件上就能跑,DeepSeek 可不行。
但是判別式模型需要在領域數(shù)據(jù)上做針對性微調,效果比生成式模型的用法強;生成式模型靠 Prompt 和少樣本示例就能適應新任務,不用額外訓練。
不管選那種方法成功的提取都得從扎實的基礎開始。學術上管這個叫"斷言知識圖譜"(asserted knowledge graphs),它代表源文本的基準真值。需要迭代優(yōu)化的時候,這個基礎的價值就體現(xiàn)出來了。
斷言知識圖譜:可驗證的基礎
斷言知識圖譜只表示源文本里明確說了的東西——不做推理,不引入外部知識,有什么記什么。源就是文本本身,這個圖譜就是該文檔的可驗證基準。
構建斷言知識圖譜涉及三個核心任務:實體識別負責找出人名、組織、日期、領域術語等關鍵片段并歸類;關系提取要發(fā)現(xiàn)實體之間明確表達的連接;共指消解則是把指向同一實體的不同說法歸并到一個節(jié)點上。
這些任務恰好落在判別式模型擅長的 Token 和序列分類范疇內,所以基于 BERT 的專用系統(tǒng)通常會分開處理它們。
但這種順暢的流水線方法有個要命的問題:
這些任務通常串行執(zhí)行:先提取實體,再檢測關系,最后做共指消解。多階段流水線的問題在于每一步都會積累誤差。
實體識別 90% 準確率,關系提取 90% 準確率,乘起來只剩 81%,誤差傳播是現(xiàn)代方法轉向端到端模型的直接原因
單個語言模型一次性生成完整圖譜結構,可以規(guī)避鏈式專用模型的復合失敗。哪怕每個專用組件在各自的子任務上表現(xiàn)更好,端到端方案的整體效果往往更優(yōu)。
斷言知識圖譜是可驗證的基線。下游任務需要額外信息,比如隱式關系、外部知識庫連接、領域特定增強的時候,擴展是在可信基礎上進行,不用質疑整個圖譜的有效性。
生產(chǎn)系統(tǒng)里這一點至關重要。可解釋性和調試都依賴于一個前提:知道哪些信息直接來自源文本,哪些來自推理或增強。
不過,光有這個可驗證基礎對很多實際應用來說還不夠,還需要增強策略。
斷言知識圖譜的增強
斷言知識圖譜本身往往撐不起實際應用。從法律文檔提取基準真相之后,反復碰到三個根本性限制:圖譜里經(jīng)常有孤立的實體簇,沒有連接路徑,遍歷性很差;真實文檔假設了一堆沒明說的共享上下文,這部分隱式知識缺失嚴重;實體需要規(guī)范化到更廣的知識庫才能做下游集成,外部對齊需求繞不開。
這些缺口需要有針對性的增強策略來補。

下游任務經(jīng)常能從一些易于自動生成的直觀關系中獲益,比如說"是一個"、"位于"、"屬于"之類的詞語。
層級關系的價值是非常大的,添加分類學連接可以把實體組織成本體論結構,比如建立 [雇傭合同, 是一個, 法律合同] 或 [甲方, 是一個, 公司],扁平的實體列表就變成了可導航的層級。
生成式語言模型在受限于預定義關系詞匯表時可以勝任這種增強。放開限制的話幻覺風險會上升,而且模型容易退化成通用常識里那套標準層級關系丟失領域特異性。
基于規(guī)則的增強
邏輯規(guī)則是另一條路,從已有模式推斷新事實,利用簡單規(guī)則比如"如果實體 A 雇傭實體 B那么實體 A 是一個組織"可以把領域知識顯式編碼進去。
多跳規(guī)則能支撐更復雜的推理:"案件 A 違反了第 5 條,第 5 條屬于法規(guī) R,那么案件 A 也違反了法規(guī) R。"鏈式推理可以大幅提升圖譜連通性揭示隱式關系。

但是代價是基于規(guī)則的增強需要領域專家來定義有效的推理模式
規(guī)則不會泛化到專家編碼之外的地方,但也不會編造出無效關系。正確性壓倒一切的場景里這份可靠性非常靠譜的。
鏈接預測與知識庫對齊
另外一種思路是在現(xiàn)有實體集里識別缺失關系,不加新節(jié)點就能提升圖譜連通性。實現(xiàn)方式是在領域特定知識庫上訓練鏈接預測模型。
模型在 [實體 A — 關系 — 實體 B] 三元組上訓練,學會判斷任意兩個實體之間是否存在關系,存在的話是什么類型
生成式語言模型也能通過 Prompt 預測缺失關系,不過幻覺風險更高,需要嚴格界定有效關系子集。

保留源上下文
還有一種增強方式是保留原始源結構。
創(chuàng)建代表文本片段的節(jié)點,句子、段落或整篇文檔。實現(xiàn)方式有兩種:把這些節(jié)點連接到相關實體上以提升整體連通性,或者構建嵌套層級,讓高層文本節(jié)點包含從其內容中提取的子圖
這種增強不會引入事實錯誤,因為表示的是源里實際存在的東西不是推斷出來的新知識。
實體在多個上下文里出現(xiàn)時,來源節(jié)點能揭示單個實體連接里看不到的使用模式和語義關系。任何實體或關系都可以追溯到精確的源位置,不僅知道提取了什么還知道它來自哪里、出現(xiàn)在什么語境下。
更簡單的實現(xiàn)可以在圖譜構建期間直接在實體和關系節(jié)點上存源元數(shù)據(jù)(文檔 ID、句子位置),省掉額外結構節(jié)點的開銷。選擇用元數(shù)據(jù)還是顯式節(jié)點,取決于下游任務是否需要把文本片段本身當作可查詢的圖譜實體來處理。
主題聚類提升連通性
孤立組件對圖譜遍歷和全局查詢始終是個問題,基于主題的聚類通過創(chuàng)建橋接節(jié)點來連接相關實體。
直接的做法是用預定義類別:在領域特定主題上訓練分類模型(法律文檔的話就是"勞動法"、"知識產(chǎn)權"、"合同糾紛"之類),然后創(chuàng)建主題節(jié)點,把每個類別下文檔里的所有實體連起來。
這種方法可解釋性好,對分類體系穩(wěn)定的領域很適用
GraphRAG 這類更復雜的方案用層級社區(qū)檢測算法在多個粒度上自動發(fā)現(xiàn)實體簇,計算開銷會大一些。
![]()
用預定義分類還是自動發(fā)現(xiàn),需要看領域是有成熟類別體系還是更適合新興模式檢測。
增強策略的選擇
這里有一個最簡單和直接的方案:用同一個生成式模型從基準真相圖譜和原始文本中推斷隱式實體和關系。
這種增強策略限定在預定義關系類型范圍內,產(chǎn)生的知識圖譜有效捕獲了下游 GNN 分類任務所需的語義結構。
最優(yōu)增強策略完全取決于下游應用。需要跨孤立組件做復雜推理的任務,聚類技術提供必要的連通性
分類或以實體為中心的任務,選擇性推斷隱式知識可能就夠了。正確性優(yōu)先于覆蓋率的高風險領域,基于規(guī)則的方法保證可靠性。
增強前:
"甲方"(實體)
"雇傭合同"(實體)
添加分類學關系后:
"甲方" → [是一個] → "公司" → [是一個] → "法律實體"
"雇傭合同" → [是一個] → "法律合同" → [是一個] → "文檔"
反復試下來會發(fā)現(xiàn),最有效的方案往往不是直覺上那個:從斷言基礎開始,迭代增強,直到圖譜能服務于預期目的。
總結
知識圖譜提取的核心矛盾在于:語言模型擅長生成流暢文本,卻不擅長輸出結構化、一致、可驗證的知識表示。理解這一點,才能做出正確的技術選型。
判別式模型在精度和效率上占優(yōu),但需要領域微調;生成式模型靈活性強,卻要承擔幻覺和碎片化的代價。兩者并非非此即彼,關鍵是明確下游任務的需求。
斷言知識圖譜作為可驗證基礎的價值不可替代。在此之上疊加增強策略——分類學擴展、規(guī)則推理、鏈接預測、源上下文保留、主題聚類——根據(jù)應用場景組合使用,才能構建出真正可用的生產(chǎn)級知識圖譜。
https://avoid.overfit.cn/post/767c139e559b44d0b467a925d5384841
作者:Fabio Yá?ez Romero
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.