![]()
這項由Equall公司的Pierre Colombo、Malik Boudiaf等研究團隊共同完成的研究,發表于2025年12月21日的arXiv預印本平臺(論文編號:arXiv:2512.18658v1),探討了如何用人工智能技術徹底改變風險投資中最繁重的法律工作之一——股權表核查。對于想要深入了解技術細節的讀者,可以通過論文編號arXiv:2512.18658v1查詢完整的原始論文。
每當一家初創公司準備融資時,就像準備一場重要的婚禮一樣,需要進行大量的準備工作。其中最讓律師頭疼的,就是所謂的"股權表核查"(capitalization tie-out)。這個過程就像是要把一個巨大的拼圖重新拼好,確保每一塊都在正確的位置上。
股權表核查到底是什么呢?簡單來說,就是要確認公司的每一份股票、期權、認股權證都有對應的法律文件支撐。就像你在銀行里存錢,銀行需要確認你的每一筆存款都有相應的憑證一樣。在公司融資之前,律師必須翻遍成千上萬頁的法律文件,逐一驗證股權表上記錄的每一個條目。
這個過程有多復雜呢?研究團隊發現,從種子輪到B輪融資,公司的法律文件會從大約2000頁增加到6700多頁,涉及的證券數量從184個飆升到1292個。這就像是從整理一個小書架變成整理整個圖書館一樣。更令人頭疼的是,這些文件之間存在復雜的關聯關系,一份股權授予可能需要追溯到最初的股權計劃、董事會決議、簽署的期權協議,以及后續的各種修訂文件。
傳統的核查方式完全依賴人工,律師需要一頁頁地翻閱文件,交叉對比不同的記錄。這個過程不僅耗時費力,還容易出錯。研究顯示,從種子輪到B輪,人工核查的時間從5小時激增到近27小時,而且錯誤率隨著復雜度的增加而上升。這就像是要一個人記住一個巨大迷宮中每條路徑的詳細信息,隨著迷宮越來越大,出錯的可能性也越來越高。
雖然大語言模型在法律推理基準測試中表現出色,但面對股權表核查這種實際工作時卻顯得力不從心。研究團隊發現了三個關鍵問題。首先是多文檔推理的挑戰,就像要同時閱讀幾十本書并找出它們之間的聯系一樣困難。其次是嚴格的證據追溯要求,每個結論都必須能夠追溯到具體的源文件,不能有任何模糊地帶。最后是一致性要求,同樣的文檔處理兩次必須得出完全相同的結果,這對于具有隨機性的AI模型來說是個巨大挑戰。
現有的AI方法主要采用"懶惰構建"的策略,也就是在需要驗證某個信息時才去搜索相關文檔。這種方法就像是每次做菜都要重新去超市買菜一樣效率低下。當需要驗證一個期權授予的生效日期時,AI代理會生成搜索查詢,從文檔庫中檢索相關片段,然后進行推理和提取。但這種方法在處理"缺失文檔"類型的異常時表現糟糕,因為要證明某個文檔不存在需要搜遍整個文檔庫,這對于基于檢索的方法來說幾乎是不可能完成的任務。
針對這些挑戰,研究團隊提出了一種名為"Equall"的創新解決方案,采用"急切構建"的策略。這種方法就像是提前把所有食材分類整理好,需要時可以立即取用。Equall的工作分為三個階段,形成了一個層次化的世界模型。
第一階段是基礎提取,就像是把雜亂的文檔庫整理成分門別類的檔案柜。系統首先將文檔按照功能分類,比如股票購買協議、可轉換證券、雇傭合同等,然后提取出基礎元素,包括利益相關者信息、證券類別、具體數值(日期、股份數量、價格等),每個信息都明確標記其來源文檔。
第二階段是事件建模,這是Equall的核心創新。系統將這些基礎事實組織成一個連貫的、按時間排序的公司法律歷史表示。研究團隊定義了高級"概念節點"來表示業務事件,包括發行、轉讓、修訂、轉換、行權和公司行為(如股票分割)等。這就像是把零散的歷史片段編織成一個完整的故事線。比如,一個修訂事件節點會鏈接到修訂文件、具體更改的條款,以及最重要的是,指向它所修改的先前發行或協議事件的關系邊。
第三階段是目標化的神經符號驗證。這個階段結合了AI的靈活性和邏輯的確定性。"神經"部分是指用于構建事件圖的強大的大語言模型驅動的提取和事件合成,處理法律文本的模糊性。"符號"部分則是應用確定性邏輯來聚合這些事件,得出最終的虛擬股權表狀態。
舉個具體例子,當需要驗證某個股東當前的股份數量時,這不再是模糊的檢索任務,而是結構化查詢:遍歷事件圖中該股東的所有發行事件,減去后續的轉出事件,加上轉入事件,并應用相關公司行為事件(如分割)的調整。這個過程就像是在銀行系統中查詢賬戶余額一樣準確和可靠。
為了驗證這種方法的有效性,研究團隊在四個匿名的真實數據庫上進行了測試,涵蓋了從種子輪到B輪的不同融資階段。他們將異常情況分為三類:條款差異(虛擬視圖和參考視圖存在但不同)、缺失文檔(參考股權表上的項目缺乏充分的支持證據)、以及股權表缺失(文檔中識別的有效證券或股東在參考股權表中缺失)。
實驗結果令人印象深刻。在精確度、召回率和F1分數的綜合評估中,Equall達到了平均85%的F1分數,顯著超越了傳統的代理方法(29%)和改進的代理方法(42%)。更重要的是,傳統代理方法在處理"缺失文檔"和"股權表缺失"類型的異常時表現糟糕,而Equall在所有類型的異常檢測中都保持了穩定的高性能。
效率提升同樣顯著。傳統的代理方法就像是每次檢查都要重新開始復雜的推理過程,每次檢查需要45秒。而Equall雖然需要15分鐘的前期建模時間,但每次檢查只需要2秒,這帶來了22倍的速度提升。當需要進行數百次檢查時,這種差異變得極為明顯:100次檢查,傳統方法需要77分鐘,而Equall只需18分鐘;500次檢查時,差距進一步拉大到377分鐘對32分鐘。
在現實世界的應用中,這種效率提升轉化為了實際的時間節省。傳統的人工核查從種子輪的5小時增長到B輪的近27小時,而使用Equall輔助的工作流程只需要從64分鐘增長到300分鐘。這意味著在最復雜的B輪融資中,Equall能夠節省約81.5%的時間,而且隨著復雜度的增加,這種優勢變得更加明顯。
研究還揭示了一個有趣的現象:隨著公司發展階段的提高,異常的性質也在發生變化。在種子輪階段,問題主要是informal omissions(非正式遺漏),比如商業意圖沒有轉化為正式證據。到了B輪階段,問題轉向了complex inconsistencies(復雜不一致),需要對多年來復雜的歷史交易進行"追溯"以發現相關文檔之間的不一致。這種變化說明了為什么傳統的基于檢索的方法會隨著復雜度的增加而失效。
Equall的成功不僅僅在于解決了股權表核查這一具體問題,更重要的是它展示了一種可復制的架構模式。這種事件圖表示法是通用的,可以應用于其他需要處理復雜歷史記錄和關系的法律任務。因為這些事件原語(發行、轉讓、修訂等)在不同法律領域中重復出現,這種架構具有內在的可泛化性。
當前的研究還有很大的發展空間。研究團隊指出,股權表核查問題具備了部署真正自主系統所需的三個基本要素:密集的可驗證獎勵信號(不像主觀法律任務,核查提供客觀的真實標準)、可擴展的訓練環境(異常分類法使得能夠通過向驗證的"干凈"數據庫注入已知錯誤模式來算法生成大量合成課程),以及最關鍵的是強大的世界模型。
展望未來,研究團隊認為將這種基礎世界模型與基于強化學習的訓練相結合,將能夠實現下一代代理,以超人的可靠性處理復雜的多步驟譜系任務,從根本上改變資本化盡職調查和類似法律風險分析工作的實踐。
這項研究的意義遠遠超出了法律科技本身。它展示了如何將看似不可能自動化的復雜知識工作分解為可管理的組件,通過合理的架構設計實現人工智能的實際應用。對于風險投資行業來說,這意味著更快的交易速度、更低的成本和更高的準確性。對于律師來說,這并不意味著工作的消失,而是將重復性的驗證工作自動化,讓他們能夠專注于更具戰略性和創造性的法律工作。
最重要的是,這項研究證明了在正確的架構設計下,人工智能確實可以在高風險、高精度要求的專業領域發揮實際作用。它不是簡單地用AI替代人工,而是通過智能的工具設計,讓復雜的工作變得更加高效和可靠。這種思路對于其他需要處理大量結構化信息和復雜規則的行業,都具有重要的借鑒意義。
Q&A
Q1:Equall的股權表核查技術能完全替代律師的工作嗎?
A:不能完全替代,但會大大改變工作方式。Equall主要自動化重復性的驗證工作,將人工核查時間從最多27小時縮短到5小時左右,讓律師可以專注于更具戰略性和創造性的法律分析工作。
Q2:為什么傳統的AI方法在股權表核查上效果不好?
A:主要有三個原因:需要同時分析幾十個文檔找聯系、每個結論都必須追溯到具體源文件、同樣處理必須得出相同結果。傳統AI采用"需要時才搜索"的方式,就像每次做菜都要重新去超市買菜,效率很低且容易出錯。
Q3:Equall技術的核心創新點是什么?
A:核心是"急切構建"策略,提前將所有法律文件整理成結構化的事件圖,記錄公司歷史上每個重要事件(發行、轉讓、修訂等)及其關聯。驗證時只需要在這個圖上進行簡單查詢,就像在整理好的檔案柜中找文件一樣快速準確。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.