——讀《LGM: Enhancing Large Language Models with Conceptual Meta-Relations and Iterative Retrieval》
推薦論文:LGM: Enhancing Large Language Models with Conceptual Meta-Relations and Iterative Retrieval
論文在arxiv中的文章編號為2511.03214
代碼已經在Github上開源,可以在上面搜索language-graph-model
團隊:Philisense(作者:雷文昌、鄒萍、王玥、孫峰、趙磊)
在這篇蘭州理工大學碩士雷文昌主導的LGM論文把“大模型怎么讀懂世界”這件事,拉回到一個非常東方的出發點——道家哲學中那句耳熟能詳的話:
“道生一,一生二,二生三,三生萬物。”
在他的設計下,復雜的文本世界被抽象成“概念 + 元關系”的網絡:
從“道生萬物”的哲學觀,走向“關系生知識”的工程方案,讓大模型不再只是在長文里“背”,而是沿著概念結構去“懂”。
一、為什么傳統 RAG 碰到多跳推理就“失靈”?
RAG(檢索增強生成)已經成了大模型落地的標配:
切文檔、做向量、相似度檢索,再把一堆文本塞給大模型,讓它在“增強上下文”里作答。
但當場景變復雜時,幾個典型問題會集中爆發:
?多跳推理難:
問題往往跨越多個段落、多個文檔,僅靠“相似度”很難一次撞中所有關鍵證據;
?概念層級復雜:
同一個概念有上位詞、別名、組成結構,傳統 RAG 并不真正理解它們,只是在做“詞面匹配”;
?超長文本昂貴:
企業知識庫動輒幾十萬字,單次上下文窗口無論多長都不夠“粗暴塞”。
結果是:
?要么漏證據:回答看似正確,實則缺關鍵鏈條;
?要么費算力:無限拉長上下文,成本與時延都難以接受。
LGM 的切入點很直接:
與其繼續堆上下文,不如先承認“知識本身是結構化的”,把結構提取出來再讓大模型用。
二、從道家哲學到“三類元關系”:道生萬物,關系生知識
道家講“道生一,一生二,二生三,三生萬物”,
LGM 則用三類元關系,構造出萬千知識之間的“骨架”。
1. 繼承:從“一生二”到“種屬關系”
繼承關系(Inheritance)描述的是“誰是誰的一種”:
?“蘋果是水果的一種”;
?“Llama 是大語言模型的一種”;
?“SUV 是汽車的一種”。
在概念層級上,可以把“水果”的屬性(比如“富含維生素”)往下繼承到“蘋果”,
讓模型明白:即便某個文本沒寫“蘋果富含維生素”,只要提到了“蘋果是水果”,也有足夠的間接證據。
2. 組成:從“二生三”到“部分–整體”
組成關系(Composition)描述的是“誰由誰組成”:
?“計算機由 CPU、內存、硬盤組成”;
?“企業組織由不同部門構成”;
?“產品由多個功能模塊組成”。
復雜對象的能力與約束,可以拆解到組成部分上,再合并回來。
這讓系統在追溯問題根因時,可以從整體一路追到局部。
3. 別名:從“三生萬物”到“名稱的多樣性”
別名關系(Alias)處理“同物異名”:
?“DNA / 脫氧核糖核酸”;
?“kg / 千克”;
?產品內部代號 vs 市場名稱。
別名系統解決的是一個很現實的問題:
用戶和文檔很少用同一種叫法。
如果不能把這些名字統一成一個“概念節點”,檢索就永遠在“詞語表面”打轉。
三、兩張圖:SRG + CRG,把自然語言“翻譯”成語言圖
LGM 把文本世界翻譯成一張“語言圖”(Language Graph),由兩部分構成:語法關系圖 SRG和 概念關系圖 CRG。
![]()
圖1:從人類認知到語言圖的整體視角
1. SRG:語法關系圖,保證“原句可追溯”
SRG(Syntactic Relation Graph)負責保留文本的“語言形態”:
?節點:章節、段落、句子、詞元;
?邊:依存關系、段落隸屬、指代關系等;
?特點:
–對代詞做了指代消解(把“它/他/他們”換回具體實體);
–對句子做了詞形還原(便于不同形態統一檢索)。
SRG 的作用,是讓系統在任何推理路徑最后,都能回到一條人類可讀的原句證據,支撐可解釋性。
2. CRG:概念關系圖,承載“元關系結構”
CRG(Concept Relation Graph)則是 LGM 的“概念骨架”:
?節點:詞形還原后的概念,如 apples → apple;
?邊:繼承 / 組成 / 別名三類元關系;
?所有概念最終匯聚到一個抽象的根節點 “Thing”。
![]()
圖2:語法關系圖(SRG)與概念關系圖(CRG)
SRG 管“說了什么”,CRG 管“誰跟誰是什么關系”。
兩張圖疊加,既能在概念層面擴展,又能在句子層面取證。
四、兩大階段:從“學習語言圖”到“概念迭代檢索”
LGM 的運行可以拆成兩大階段:
1.Learning 階段:從文檔中自動構建 SRG 和 CRG;
2.概念迭代檢索階段:圍繞用戶問題,在圖上展開檢索與推理。
![]()
圖3:LGM 的整體工作流
4.1 Learning:把長文檔“轉譯”為語言圖
在 Learning 階段,系統會對文檔做一條完整的處理流水線:
1.NLP 預處理
–分句、分詞、依存句法分析、指代消解、詞形還原;
–結果寫入 SRG,既保存原始語義,又方便后續檢索。
2.元關系抽取
–利用大模型和 Prompt 模板,從句子中抽取三類元關系:
?“A 是 B 的一種” → 繼承;
?“A 由 B 和 C 組成” → 組成;
?“A 又稱為 B” → 別名。
3.Reflection 反思機制(過濾錯誤關系)
–首先移除直接陳述該關系的句子;
–僅憑“間接證據”,讓大模型判斷關系是否成立;
–無效的關系被丟棄,“不確定”的暫時保留,等待更多證據。
這一套設計,讓語言圖既能充分吸收知識,又不過度依賴單次抽取的“第一印象”。
4.2 概念迭代檢索:從問題出發,在圖上“走幾步”
真正回答問題時,LGM 采用的是概念迭代檢索(Concept Iterative Retrieval):
![]()
圖4:概念迭代檢索流程
整體思路可以簡化為幾步:
1.從問題中抽取概念
–抓出問題里的關鍵名詞、實體,作為起始概念。
2.沿 CRG 擴展概念閉包
–通過繼承、組成、別名關系找到相關的父類、子類、組成部分和別名;
–得到一個圍繞問題的“概念閉包”。
3.在 SRG 中檢索證據句
–查找所有包含這些概念的句子,并記錄所在文檔和上下文位置。
4.分塊并行抽取支持句
–把證據句切成若干塊,每塊和問題一起交給大模型;
–標記出“支持該問題答案”的關鍵句子。
5.合并與壓縮
–將支持句合并,如果過長則用大模型壓縮、摘要、去冗余。
6.ROUGE 截斷(當長度仍超限)
–用 ROUGE 相似度選出與問題最相關的證據子集,控制在上下文預算內。
7.生成答案,如有缺口再“補一輪概念”
–讓大模型在當前證據上生成答案;
–如仍缺關鍵概念,就把這些概念送回 CRG 繼續擴展,再來一輪迭代檢索。
這樣一來,無論知識庫有多大,真正進入上下文的永遠是一小撮“高度相關的概念 + 原句證據”。
五、實驗結果:在多跳問答上全面壓過多種 RAG 方案
論文選取了兩個經典多跳問答數據集進行評測:
?HotpotQA:英文維基多跳問答;
?Musique:由多個單跳問題組合而成的復雜多跳數據集。
并在兩種基礎大模型上,對比了多種主流 RAG 方案(GraphRAG、LightRAG、FastRAG、Dify 等)。
5.1 F1 分數對比:LGM 穩居第一梯隊
核心結果如下表(Table 3):
![]()
可以看到:
?在 HotpotQA和 Musique上,LGM 的平均 F1 都排在首位;
?相比 GraphRAG 這類圖 + RAG 方案,LGM 通過更精細的元關系建模 + 概念迭代檢索取得了更穩的表現。
5.2 對上下文窗口“不敏感”:真正走出了“長上下文依賴”
論文還分析了當最大輸入上限從 120k 逐漸壓到 30k 時,LGM 性能的變化:
F1 和 Recall 曲線整體非常平滑,沒有出現傳統 RAG 那種“窗口一縮,性能猛跌”的情況。
![]()
圖5:不同上下文窗口大小對 LGM 性能的影響
這說明:
LGM 的效果主要來自語言圖結構和概念級檢索,而不是依賴超長上下文的“粗暴兜底”。
六、典型應用場景:從企業檢索到合規審計
從工程與產品視角看,LGM 天然適合這些場景:
1. 企業知識問答與內部檢索
?別名、縮寫、歷史名字統一收斂到概念節點;
?組織架構、系統模塊以組成關系串聯;
?回答可以附上原句證據,便于內部核查與對外回復。
2. 客服與工單定位
?用戶問題往往要跨文檔、多版本追溯;
?概念級檢索可以串聯起“問題 → 模塊 → 配置 → 變更記錄”;
?多跳追根溯源遠比關鍵詞檢索穩定可靠。
3. 合規與審計
?涉及角色、權限、流程、條款等高度結構化概念;
?可以用概念圖梳理條款之間的關系與約束;
?自動回答時附上條款原句,為審計與追責提供依據。
七、結語:從“道生萬物”到“關系生推理”
如果只看工程實現,LGM 是一套“語言圖 + 概念檢索 + 迭代推理”的系統;
但如果把視野拉高,會發現這篇工作背后有一條很清晰的思想線索:
?世界是結構化的:
不只是文本集合,更是概念與關系構成的網絡;
?語言可以成圖:
通過元關系,我們可以把“萬物”拉回到“道”式的抽象結構上;
?檢索也可以成“悟”:
不再只比相似度,而是沿著概念關系“走幾步”,找到真正的證據。
在這條路上,LGM 給當下的大模型應用提供了一個頗具東方氣質的答案:
用關系重構知識,用概念組織檢索,讓模型從“會背文檔”走向“會懂世界”。
而這背后,既有大模型時代的工程思維,也有道家“以一貫萬”的哲學影子。
從“道生一,一生二,二生三,三生萬物”,到“語言成圖,圖生推理”,
這是一次從古老哲思通向前沿 AI 的有趣回響。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.