<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      知識圖譜設計原理揭秘:可驗證性與斷言圖譜的關系

      0
      分享至

      大語言模型在文本生成和推理上的表現(xiàn)有目共睹,但對于從非結構化文本構建可靠知識圖譜這件事,依然是個老大難。這個問題的根源在于:語言模型的運作機制與結構化知識提取的需求之間存在本質性的錯位。



      本文會介紹自動化知識圖譜生成的核心難題:生成式模型為什么搞不定結構化提取,判別式方案能提供什么樣的替代選擇,生產(chǎn)級知識圖譜的質量標準又是什么。

      語言模型在知識圖譜提取上栽跟頭的原因

      即使是當前最頂尖的模型,在結構化提取上也會翻車。這事兒不只是幻覺問題,而是語言模型生成文本的方式和知識圖譜的需求之間存在根本性沖突。

      生成式模型構建知識圖譜時會有一連串的麻煩:實體消歧首當其沖,同一個實體換個說法出現(xiàn),模型就可能認不出來,遺漏共指關系直接導致圖譜碎片化;組合實體也很麻煩"墨西哥城"這種術語涉及嵌套概念(城市和國家),需要層級化表示;規(guī)模一大幻覺問題就壓不住了,概率生成會編造出看著挺像那么回事但純屬虛構的實體和關系,在需要分段處理的長文本里這個問題尤其突出;還有上下文依賴,很多實體之間的關聯(lián)只有看到完整文檔才說得通,但把整個文檔丟進去又會放大幻覺率。

      吧i如說法律文檔分析中,單個段落里模型把"甲方"識別成一個實體,轉頭又把"前述當事人"當成另一個實體——它們分明是同一個組織。這種段落級別的碎片化讓生成的圖譜噪聲滿滿,導致后處理的工作量相當可觀。

      有人嘗試切小文本塊來壓制幻覺,但是會出現(xiàn)關系丟失和實體重復。段落級別就已經(jīng)有問題了——重要的實體關聯(lián)可能跨越多個句子,激進地切到句子級別會把這些依賴關系徹底打碎。推理成本還會上去因為模型得跑好幾遍才能處理完同樣的內容。

      上下文丟失隨著窗口縮小而加劇。段落級別已經(jīng)有麻煩,句子級別只會更糟

      生成式架構的這些局限性引出一個問題:有沒有更適合結構化提取的模型類型?

      判別式模型 vs 生成式模型

      判別式語言模型——基于掩碼語言建模訓練的雙向注意力模型——在知識圖譜提取上提供了一條不同的路徑。

      優(yōu)勢從何而來?判別式模型天生擅長 Token 和序列分類。命名實體識別可以直接建模為輸入序列上的 Token 級分類任務,生成步驟壓根不需要。

      命名實體檢測作為 Token 分類處理,根本不走生成流程

      架構上的契合讓判別式模型不僅在結構化提取上更準,效率也足夠支撐邊緣部署——一個 BERT 模型在普通硬件上就能跑,DeepSeek 可不行。

      但是判別式模型需要在領域數(shù)據(jù)上做針對性微調,效果比生成式模型的用法強;生成式模型靠 Prompt 和少樣本示例就能適應新任務,不用額外訓練。

      不管選那種方法成功的提取都得從扎實的基礎開始。學術上管這個叫"斷言知識圖譜"(asserted knowledge graphs),它代表源文本的基準真值。需要迭代優(yōu)化的時候,這個基礎的價值就體現(xiàn)出來了。

      斷言知識圖譜:可驗證的基礎

      斷言知識圖譜只表示源文本里明確說了的東西——不做推理,不引入外部知識,有什么記什么。源就是文本本身,這個圖譜就是該文檔的可驗證基準。

      構建斷言知識圖譜涉及三個核心任務:實體識別負責找出人名、組織、日期、領域術語等關鍵片段并歸類;關系提取要發(fā)現(xiàn)實體之間明確表達的連接;共指消解則是把指向同一實體的不同說法歸并到一個節(jié)點上。

      這些任務恰好落在判別式模型擅長的 Token 和序列分類范疇內,所以基于 BERT 的專用系統(tǒng)通常會分開處理它們。

      但這種順暢的流水線方法有個要命的問題:

      這些任務通常串行執(zhí)行:先提取實體,再檢測關系,最后做共指消解。多階段流水線的問題在于每一步都會積累誤差。

      實體識別 90% 準確率,關系提取 90% 準確率,乘起來只剩 81%,誤差傳播是現(xiàn)代方法轉向端到端模型的直接原因

      單個語言模型一次性生成完整圖譜結構,可以規(guī)避鏈式專用模型的復合失敗。哪怕每個專用組件在各自的子任務上表現(xiàn)更好,端到端方案的整體效果往往更優(yōu)。

      斷言知識圖譜是可驗證的基線。下游任務需要額外信息,比如隱式關系、外部知識庫連接、領域特定增強的時候,擴展是在可信基礎上進行,不用質疑整個圖譜的有效性。

      生產(chǎn)系統(tǒng)里這一點至關重要。可解釋性和調試都依賴于一個前提:知道哪些信息直接來自源文本,哪些來自推理或增強。

      不過,光有這個可驗證基礎對很多實際應用來說還不夠,還需要增強策略。

      斷言知識圖譜的增強

      斷言知識圖譜本身往往撐不起實際應用。從法律文檔提取基準真相之后,反復碰到三個根本性限制:圖譜里經(jīng)常有孤立的實體簇,沒有連接路徑,遍歷性很差;真實文檔假設了一堆沒明說的共享上下文,這部分隱式知識缺失嚴重;實體需要規(guī)范化到更廣的知識庫才能做下游集成,外部對齊需求繞不開。

      這些缺口需要有針對性的增強策略來補。



      下游任務經(jīng)常能從一些易于自動生成的直觀關系中獲益,比如說"是一個"、"位于"、"屬于"之類的詞語。

      層級關系的價值是非常大的,添加分類學連接可以把實體組織成本體論結構,比如建立 [雇傭合同, 是一個, 法律合同] 或 [甲方, 是一個, 公司],扁平的實體列表就變成了可導航的層級。

      生成式語言模型在受限于預定義關系詞匯表時可以勝任這種增強。放開限制的話幻覺風險會上升,而且模型容易退化成通用常識里那套標準層級關系丟失領域特異性。

      基于規(guī)則的增強

      邏輯規(guī)則是另一條路,從已有模式推斷新事實,利用簡單規(guī)則比如"如果實體 A 雇傭實體 B那么實體 A 是一個組織"可以把領域知識顯式編碼進去。

      多跳規(guī)則能支撐更復雜的推理:"案件 A 違反了第 5 條,第 5 條屬于法規(guī) R,那么案件 A 也違反了法規(guī) R。"鏈式推理可以大幅提升圖譜連通性揭示隱式關系。



      但是代價是基于規(guī)則的增強需要領域專家來定義有效的推理模式

      規(guī)則不會泛化到專家編碼之外的地方,但也不會編造出無效關系。正確性壓倒一切的場景里這份可靠性非常靠譜的。

      鏈接預測與知識庫對齊

      另外一種思路是在現(xiàn)有實體集里識別缺失關系,不加新節(jié)點就能提升圖譜連通性。實現(xiàn)方式是在領域特定知識庫上訓練鏈接預測模型。

      模型在 [實體 A — 關系 — 實體 B] 三元組上訓練,學會判斷任意兩個實體之間是否存在關系,存在的話是什么類型

      生成式語言模型也能通過 Prompt 預測缺失關系,不過幻覺風險更高,需要嚴格界定有效關系子集。



      保留源上下文

      還有一種增強方式是保留原始源結構。

      創(chuàng)建代表文本片段的節(jié)點,句子、段落或整篇文檔。實現(xiàn)方式有兩種:把這些節(jié)點連接到相關實體上以提升整體連通性,或者構建嵌套層級,讓高層文本節(jié)點包含從其內容中提取的子圖

      這種增強不會引入事實錯誤,因為表示的是源里實際存在的東西不是推斷出來的新知識。

      實體在多個上下文里出現(xiàn)時,來源節(jié)點能揭示單個實體連接里看不到的使用模式和語義關系。任何實體或關系都可以追溯到精確的源位置,不僅知道提取了什么還知道它來自哪里、出現(xiàn)在什么語境下。

      更簡單的實現(xiàn)可以在圖譜構建期間直接在實體和關系節(jié)點上存源元數(shù)據(jù)(文檔 ID、句子位置),省掉額外結構節(jié)點的開銷。選擇用元數(shù)據(jù)還是顯式節(jié)點,取決于下游任務是否需要把文本片段本身當作可查詢的圖譜實體來處理。

      主題聚類提升連通性

      孤立組件對圖譜遍歷和全局查詢始終是個問題,基于主題的聚類通過創(chuàng)建橋接節(jié)點來連接相關實體。

      直接的做法是用預定義類別:在領域特定主題上訓練分類模型(法律文檔的話就是"勞動法"、"知識產(chǎn)權"、"合同糾紛"之類),然后創(chuàng)建主題節(jié)點,把每個類別下文檔里的所有實體連起來。

      這種方法可解釋性好,對分類體系穩(wěn)定的領域很適用

      GraphRAG 這類更復雜的方案用層級社區(qū)檢測算法在多個粒度上自動發(fā)現(xiàn)實體簇,計算開銷會大一些。



      用預定義分類還是自動發(fā)現(xiàn),需要看領域是有成熟類別體系還是更適合新興模式檢測。

      增強策略的選擇

      這里有一個最簡單和直接的方案:用同一個生成式模型從基準真相圖譜和原始文本中推斷隱式實體和關系。

      這種增強策略限定在預定義關系類型范圍內,產(chǎn)生的知識圖譜有效捕獲了下游 GNN 分類任務所需的語義結構。

      最優(yōu)增強策略完全取決于下游應用。需要跨孤立組件做復雜推理的任務,聚類技術提供必要的連通性

      分類或以實體為中心的任務,選擇性推斷隱式知識可能就夠了。正確性優(yōu)先于覆蓋率的高風險領域,基于規(guī)則的方法保證可靠性。

      增強前:

      "甲方"(實體)

      "雇傭合同"(實體)

      添加分類學關系后:

      "甲方" → [是一個] → "公司" → [是一個] → "法律實體"

      "雇傭合同" → [是一個] → "法律合同" → [是一個] → "文檔"

      反復試下來會發(fā)現(xiàn),最有效的方案往往不是直覺上那個:從斷言基礎開始,迭代增強,直到圖譜能服務于預期目的。

      總結

      知識圖譜提取的核心矛盾在于:語言模型擅長生成流暢文本,卻不擅長輸出結構化、一致、可驗證的知識表示。理解這一點,才能做出正確的技術選型。

      判別式模型在精度和效率上占優(yōu),但需要領域微調;生成式模型靈活性強,卻要承擔幻覺和碎片化的代價。兩者并非非此即彼,關鍵是明確下游任務的需求。

      斷言知識圖譜作為可驗證基礎的價值不可替代。在此之上疊加增強策略——分類學擴展、規(guī)則推理、鏈接預測、源上下文保留、主題聚類——根據(jù)應用場景組合使用,才能構建出真正可用的生產(chǎn)級知識圖譜。

      https://avoid.overfit.cn/post/767c139e559b44d0b467a925d5384841

      作者:Fabio Yá?ez Romero

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      何政軍與妻子在上海外灘東方明珠塔前的一張留影,妻子也是上海人

      何政軍與妻子在上海外灘東方明珠塔前的一張留影,妻子也是上海人

      手工制作阿殲
      2026-03-07 10:58:04
      女流直播突然孩子哭鬧,被迫過去“墊一口”,網(wǎng)友:不行下播吧

      女流直播突然孩子哭鬧,被迫過去“墊一口”,網(wǎng)友:不行下播吧

      相思賦予誰a
      2026-03-05 16:09:12
      CBA制度調整:外援同時注冊限3人,或4節(jié)6人次,本土基本工資下調

      CBA制度調整:外援同時注冊限3人,或4節(jié)6人次,本土基本工資下調

      籃球資訊達人
      2026-03-07 12:50:16
      深圳又一批老板“倒下”了:他們不是輸給市場,是輸給了你以為?

      深圳又一批老板“倒下”了:他們不是輸給市場,是輸給了你以為?

      牛鍋巴小釩
      2026-03-07 11:35:00
      文旅部部長:7名外國游客到上海旅游,買了40箱中國貨;“成為中國人”成了網(wǎng)絡熱詞,老外愛上喝開水吃火鍋等中式生活

      文旅部部長:7名外國游客到上海旅游,買了40箱中國貨;“成為中國人”成了網(wǎng)絡熱詞,老外愛上喝開水吃火鍋等中式生活

      新民晚報
      2026-03-07 15:00:52
      德牧被棄服務區(qū),因體型大屢次被毆打,它到底做錯了什么?

      德牧被棄服務區(qū),因體型大屢次被毆打,它到底做錯了什么?

      Magic寵物社
      2026-03-05 19:50:03
      一碗“剝皮藍莓”,讓寶媽努力被全網(wǎng)嘲笑:不僅學歷低,認知更低

      一碗“剝皮藍莓”,讓寶媽努力被全網(wǎng)嘲笑:不僅學歷低,認知更低

      妍妍教育日記
      2026-03-05 19:58:32
      陶虹這腿無法直視了,徐導這么能賺錢為啥不保養(yǎng)一下

      陶虹這腿無法直視了,徐導這么能賺錢為啥不保養(yǎng)一下

      愛下廚的阿釃
      2026-03-06 20:11:39
      意外!姜至鵬紅牌屬于誤判?權威結論來了,生日夜染紅引發(fā)熱議

      意外!姜至鵬紅牌屬于誤判?權威結論來了,生日夜染紅引發(fā)熱議

      羅掌柜體育
      2026-03-07 06:00:06
      漲幅超過黃金的羽毛球,貴不動了

      漲幅超過黃金的羽毛球,貴不動了

      有意思報告
      2026-03-06 14:34:11
      河南小伙在非洲16年,當?shù)匾环蚨嗥拗疲腥酥挥猛妫藪赍X養(yǎng)家

      河南小伙在非洲16年,當?shù)匾环蚨嗥拗疲腥酥挥猛妫藪赍X養(yǎng)家

      網(wǎng)絡易不易
      2026-02-08 11:32:05
      美防長坦言若中美開戰(zhàn),10艘航母對陣中國,20分鐘全軍覆沒?

      美防長坦言若中美開戰(zhàn),10艘航母對陣中國,20分鐘全軍覆沒?

      愿你余生安好嘴角帶笑
      2026-03-07 01:16:04
      鵝廠門口爆滿了!騰訊工程師在總部樓下免費安裝OpenClaw

      鵝廠門口爆滿了!騰訊工程師在總部樓下免費安裝OpenClaw

      快科技
      2026-03-06 15:16:08
      越來越多孩子“腦腐”了,玩手機排第二,排第一竟然是……

      越來越多孩子“腦腐”了,玩手機排第二,排第一竟然是……

      新東方家庭教育
      2026-03-03 14:49:40
      知名品牌用"你的老婆推薦過"當水印,江蘇一男子誤會下單后,妻子才得知,“這顯然是誘導下單”,客服:是宣傳文案

      知名品牌用"你的老婆推薦過"當水印,江蘇一男子誤會下單后,妻子才得知,“這顯然是誘導下單”,客服:是宣傳文案

      大象新聞
      2026-03-06 16:47:05
      全國政協(xié)委員楊建德 : 建議將春節(jié)連續(xù)9天假期固定下來,順應民生期盼、保障休假權益、激發(fā)內需活力、疏解春運壓力

      全國政協(xié)委員楊建德 : 建議將春節(jié)連續(xù)9天假期固定下來,順應民生期盼、保障休假權益、激發(fā)內需活力、疏解春運壓力

      每日經(jīng)濟新聞
      2026-03-07 16:12:40
      第22波打擊!特朗普計劃失敗,布林肯出山,伊朗最大內奸被捕!

      第22波打擊!特朗普計劃失敗,布林肯出山,伊朗最大內奸被捕!

      甜檸聊史
      2026-03-07 16:34:16
      德云社弟子人氣大洗牌!4人上桌,3人邊緣,2人換桌,岳云鵬退場

      德云社弟子人氣大洗牌!4人上桌,3人邊緣,2人換桌,岳云鵬退場

      洲洲影視娛評
      2026-03-07 13:20:10
      吳京懵了、張藝謀樂了,17天了《鏢人》還能被《驚蟄無聲》反超

      吳京懵了、張藝謀樂了,17天了《鏢人》還能被《驚蟄無聲》反超

      娛樂故事
      2026-03-05 17:10:51
      遭姜至鵬肘擊!蓉城外援重傷:嘴唇縫15針+牙齒脫位,下輪或缺戰(zhàn)

      遭姜至鵬肘擊!蓉城外援重傷:嘴唇縫15針+牙齒脫位,下輪或缺戰(zhàn)

      我愛英超
      2026-03-07 09:53:17
      2026-03-07 17:11:00
      deephub incentive-icons
      deephub
      CV NLP和數(shù)據(jù)挖掘知識
      1940文章數(shù) 1456關注度
      往期回顧 全部

      教育要聞

      現(xiàn)在學校已經(jīng)不發(fā)教輔了,讓家長自愿去書店購買!

      頭條要聞

      伊朗總統(tǒng):絕不可能無條件投降 向鄰國表示歉意

      頭條要聞

      伊朗總統(tǒng):絕不可能無條件投降 向鄰國表示歉意

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經(jīng)要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      科技要聞

      OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

      汽車要聞

      逃離ICU,上汽通用“止血”企穩(wěn)

      態(tài)度原創(chuàng)

      數(shù)碼
      家居
      時尚
      旅游
      本地

      數(shù)碼要聞

      AI存儲需求進一步增長,三星NAND閃存被曝Q2將繼續(xù)漲價

      家居要聞

      暖棕撞色 輕法奶油風

      這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡單舒適

      旅游要聞

      警報聲中的歸途:一個義烏老板娘的中東“驚魂”之旅

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      無障礙瀏覽 進入關懷版