網易首頁 > 網易號 > 正文申請入駐

針對大數據審計的多源異構數據質量建設

2026-04-13 16:08:20　來源: 中國內部審計協會

北京舉報

分享至

一、引言

近年來，黨中央、國務院高度重視審計信息化與數據治理能力建設。《“十四五”國家審計工作發展規劃》提出堅持科技強審，充分運用現代信息技術開展審計，提高審計質量和效率；《數字中國建設整體布局規劃》則將數據治理提升至國家治理現代化的核心議程。

當前，審計數據呈現來源多元異構、體量達百億級且持續快速增長、跨域跨模態語義深度關聯三重特征。多源異構數據存在相應的質量問題，已成為制約智能化轉型的關鍵瓶頸，而傳統人工清洗方法已難以滿足效率與準確性方面的要求。新一代信息技術的快速演進，正深度重塑審計數據生態。本文聚焦審計實踐中日益突出的“數據質量痛點”問題，針對審計數據在源頭、結構、語義等維度的復雜性，提出一套具備智能解析與治理能力的統一質量建設體系。該體系主要涵蓋以下方面：（1）建立審計數據的多模態統一解析框架，提升結構化轉換能力并確保語義一致性；（2）構建字段標準化機制與指標口徑庫，從而解決數據冗余、字段歧義等問題；（3）實現數據質量的動態評估與閉環治理，為審計智能分析與風險感知提供高質量數據支撐。通過該體系，可有效突破傳統模式下存在的數據融合難、標準缺失、結構不統一等問題，推動審計工作向數據驅動與智能協同方向深度發展。

二、審計數據的特點與難點

當前審計數據呈現出以下典型特征：（1）數據來源多元、模態高度異構：審計對象已從傳統結構化數據拓展至非結構化與半結構化數據，如合同文本、PDF標書、圖像票據與日志記錄，在部分審計項目中非結構化數據占比甚至超過60%。（2）數據體量爆發式增長：多數省級審計平臺已管理百億級記錄，涵蓋財政、社保、金融等多個業務領域，年均增長率超過35%。（3）語義關聯性要求提升：如自然資源資產審計需融合國土、環保、林業等多個部門的結構化與空間數據，對語義對齊與跨模態關聯提出更高要求。

多源異構數據存在的質量問題會對審計產生一定影響。表1總結了多源異構數據的特征及其對審計質量的影響。

審計實踐中，多源異構多模態所導致的數據質量問題已成為制約智能化轉型的重要瓶頸，主要表現在以下三個方面：（1）字段歧義與單位混亂問題：由于審計數據來源多樣，缺乏統一的指標定義與格式規范，不同部門或系統對同一指標的命名口徑存在差異（如“項目資金”“項目支出”“資金撥付金額”均指代相似概念），金額單位混雜（如元、萬元、億元并存），導致數據比對困難、計算錯誤頻發，嚴重影響分析的準確性與可比性。（2）結構化與非結構化數據存在割裂現象：審計過程中，大量文本、圖像、表格等非結構化信息（如合同掃描件、銀行回單、會議紀要）未能與結構化業務數據（如財務系統記錄、付款流水）實現有效關聯，導致證據鏈條不完整、審計判斷缺乏有力支撐。（3）數據更新滯后與可追溯性弱：部分數據采集存在時效性不足的問題，如社保、醫保等系統存在數據上報滯后的現象，導致審計人員在分析時無法獲取最新信息，線索斷點頻繁出現。此外，部分數據缺乏版本管理機制，難以還原其生成和變更路徑，對可追溯分析與責任認定的深入展開形成了限制。

為此，圍繞“多模態審計數據的清洗融合與統一表達”這一核心主線，本文主要從以下三個層級展開研究：（1）設計多模態數據質量增強機制。結合OCR（光學字符識別）與NLP（自然語言處理）技術，對掃描件、PDF標書、圖像票據等非結構化數據進行結構化轉換，通過訓練專用Audit-NER（審計領域命名實體識別）模型，提高對合同金額、付款條件、項目名稱等核心要素的識別準確率。（2）構建審計字段標準化與語義解析框架。構建審計數據標準詞典與語義映射規則集，通過詞嵌入模型與規則引擎相結合的方式，自動識別并歸一同義字段，解決字段歧義與口徑不統一問題。（3）建立融合審計知識圖譜的質量推理引擎。以審計業務流程與監管邏輯為基礎，構建包含指標關系、時間序列、行為模式等維度的知識圖譜，結合圖神經網絡與語義規則挖掘技術，實現不同模態數據間的語義對齊、實體關聯與信息補全。

三、大數據審計數據質量的治理框架構建

（一）治理框架的核心目標

本治理框架旨在應對審計領域多源異構數據融合的深層挑戰，實現從“數據可用”到“知識可用”的跨越式提升。為達成此愿景，本文設定兩大目標：一是構建面向審計業務的統一知識庫。將審計工作中的多源異構數據（財務系統、合同文本、票據掃描件等）匯聚融合，通過自動化語義解析技術構建統一知識庫。該知識庫不僅是數據的簡單聚合，而是將原始、孤立的數據轉化為結構化、語義化的知識網絡，為大語言模型（LLM）提供可信的知識基礎，成為推動審計智能化的核心戰略資產。二是設計并實現統一的多模態數據解析框架。為了保障統一知識庫的高質量構建，需依賴強大的解析引擎作為數據輸入機制。因此，本文提出以圖像、文本、表格等多模態數據為對象，構建統一的語義解析與融合框架，確保原始數據能夠被高效處理為結構規范、字段統一、語義明確的“審計就緒數據”，從源頭保障知識建構的數據質量。

（二）技術實施路線：審計數據統一解析與知識庫構建

為實現上述目標，本文設計了一套集數據輸入、預處理、解析、融合和輸出于一體的綜合技術實施路徑，整體流程如圖1所示。

1.輸入與預處理模塊。輸入與預處理模塊是整個框架的起點，旨在統一接入并標準化處理不同來源和格式的審計數據。該框架支持處理結構化數據（如數據庫和電子表格中的財務數據）和非結構化數據（如PDF、DOC、TXT格式的法規文件、合同文本及掃描件形式的圖像票據）。對于非結構化數據，通過OCR技術提取圖像和掃描件中的文本，利用NLP技術進行清洗、去噪、格式化處理，并進行初步語義分塊；對于結構化數據，直接進行字段提取和清洗，為后續知識圖譜構建做好準備。

2.解析與融合模塊。解析與融合模塊是整個框架的核心，負責將預處理后的數據轉化為高質量的知識并構建統一知識庫，包含兩個相互協同的核心組成部分。

一是面向大語言模型的文本知識庫構建，主要處理法規、合同文本、研究報告等非結構化文檔。通過語義分塊技術，利用NLP依據語義完整性將長文檔切分為主題內聚的文本片段，確保每個片段包含完整概念或論點。比如，將審計報告切分為“公司財務狀況分析”“關聯交易風險評估”和“審計意見”等獨立片段。技術上可計算句子間余弦相似度確定分塊邊界，或使用BERT（雙向編碼器表示Transformer）等預訓練模型將文檔嵌入向量空間，隨后通過聚類算法切分。同時，為每個文本片段自動生成精煉的摘要作為核心索引，幫助LLM快速理解片段主旨，并提升檢索效率。

二是面向邏輯關聯的知識圖譜構建，這是知識庫的結構化核心，主要整合審計核心結構化數據及從非結構化數據源中提取的關鍵實體信息。依托NLP信息抽取和OCR識別能力，從發票掃描件等數據源中精準提取交易主體、時間戳、金額、關聯方等核心審計要素，采用“實體—關系—實體”三元組模型進行邏輯關聯，構建審計領域知識圖譜。最后通過建立知識圖譜節點與相關文本片段之間的雙向索引關聯，將文本知識庫與知識圖譜有機融合，形成統一的審計知識庫，使其既具備結構化圖譜的邏輯關聯能力，又擁有非結構化文本的豐富語義表達。

3.輸出模塊。經過解析、建庫和融合后的知識，在最終輸出模塊以三種主要形式服務于不同的審計應用場景。一是將解析后的數據以結構化、標準化的格式（如JSON、CSV）輸出，供其他系統或數據分析工具使用；二是將構建好的知識圖譜和文本知識庫存儲于圖數據庫（如Neo4j）和向量數據庫（如Pinecone、Milvus）中，實現知識的持久化存儲；三是提供可視化界面，通過圖譜展示復雜實體間的關系，幫助審計人員直觀地理解數據并進行交互式探索。通過這一整套流程，本框架將多源異構的審計數據轉化為可信、高質量的知識資產，為大語言模型在審計領域的深度應用奠定堅實基礎。

（三）知識嵌入表示

為了實現高效的知識檢索與應用，所有知識需轉化為向量形式。對于文本知識庫中的摘要索引和語義分塊，使用預訓練語言模型（如BERT、SimCSE等）將其編碼成高維向量，這些模型能夠捕捉文本的深層語義，使得意思相近的文本在向量空間中的距離更近。對于知識圖譜中的實體和關系，則采用知識圖譜嵌入模型（如TransE、RotatE等）學習實體和關系的向量表示，通過向量運算反映圖譜中的邏輯關系。面對圖像、表格等不同模態的數據，可采用多模態預訓練模型（如CLIP、OFA等）將不同模態的信息映射到同一向量空間，實現跨模態的統一檢索。通過向量相似度查找，可實現語義級檢索，即用戶輸入問題后，系統通過計算問題向量與知識庫中所有知識片段向量的相似度，快速召回最相關的知識，而非簡單的關鍵詞匹配，極大提升了LLM在問答、推理和內容歸納方面的能力。

四、應用場景探討

為驗證所構建的“大數據審計數據質量治理框架”的實用性與可行性，本文選取審計工作中高頻、典型的業務場景（發票稽核與費用報銷）作為應用示例，系統展示該治理框架如何實現對傳統審計流程的數字化重構與智能化升級。

在傳統報銷稽核流程中，審計人員需人工比對發票本體、報銷系統數據、財務報銷制度文檔三類信息源，存在以下四大痛點：核驗效率低，需人工逐項比對關鍵信息；合規判斷具有主觀性，審核標準不統一、執行彈性較大；真偽識別與重復檢測能力薄弱，缺乏自動校驗機制；審計覆蓋率受限，人工稽核采用抽樣方式，難以實現全量覆蓋。

本文提出的治理框架通過多模態解析與統一知識庫協同，打通數據源壁壘，實現稽核流程的自動化與智能化。第一步是多模態數據接入與信息提取。系統同步接收發票掃描件與報銷系統錄入字段，調用OCR模型識別發票圖像文本，通過版面分析與命名實體識別，提取發票代碼、號碼、日期、金額、銷售方名稱等字段，將提取結果與報銷系統數據進行字段級匹配，對金額不符等情況自動標記“需復核”。第二步是知識庫驅動的多維合規性檢測。系統將結構化信息輸入審計知識庫，進行規則驅動的多維合規判斷。具體包括：抬頭一致性校驗，將OCR提取的銷售方名稱與“風險供應商庫”進行匹配，并與報銷人信息交叉驗證；時效合規性校驗，根據“報銷有效期”規則判斷開票日期是否合規；報銷金額限額判斷，依據報銷要求規則判斷發票金額是否超限并觸發相應規則；附件完整性校驗，核查報銷單是否已附加必要憑證；重復報銷檢測，通過發票代碼+號碼在歷史報銷庫中進行秒級查重。第三步是稽核結論生成與證據鏈固化。系統基于合規性檢測結果自動輸出稽核結論，并給出處理意見，同時生成證據包，該證據包包含原始發票圖像、OCR提取字段、報銷單信息、命中制度條款及知識庫比對記錄，實現審計全流程可溯源。

該框架在發票稽核場景下展現出核心價值：審核效率大幅提升，平均處理時間縮短至秒級，95%以上合規報銷實現自動通審；審計覆蓋率提升至100%，實現從抽樣到全量稽核的跨越；內控得以標準化執行，規章制度以知識規則形式嚴格落實；風險識別精度提升，支持異常模式自動識別與風險趨勢追蹤；數據資產得以積累，稽核過程結構化數據沉淀為可持續優化的審計知識基礎。通過對該典型業務場景開展實證分析，本文所提出的智能治理框架有效支撐了審計流程的自動化升級與智能化轉型。

五、結語

本文以數據質量治理為切入點，圍繞解析與知識協同構建提出了一套系統化解決方案，不僅在方法體系上具有一定的創新價值，也在實務層面展現出較強的適配力和可推廣性。未來研究可進一步拓展：增強審計規則的學習與演化能力，引入深度強化學習等技術自動構建規則庫；探索跨系統、跨部門的異構審計數據融合機制；加強治理平臺與大語言模型的深度融合，提升審計問題識別的語義理解能力與自動問答能力。

文章摘自《中國內部審計》雜志2025年第11期

作者：吳偉忠鐘震宇王振忠許仔陽

單位：廣東電網有限責任公司審計中心南京審計大學

編輯：孫哲

目前190000+人已關注我們，您還等什么？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數碼

房產 / 家居

針對大數據審計的多源異構數據質量建設