![]()
由中國科學院大學的董浩宇、華南理工大學的張鵬坤等多位研究者組成的國際團隊,在2025年12月發表了一項名為《FINCH: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows》的重要研究成果。這項研究首次構建了一套專門測試AI在真實財務會計工作中表現的評測體系,結果令人震驚:就連最強大的AI系統也只能完成不到40%的工作任務。
想了解這項研究的讀者可以通過論文編號arXiv:2512.13168v1查詢完整內容。
**一、從理想走向現實:AI遭遇的"職場大考"**
在科技公司的宣傳片里,AI助手總是能夠輕松處理各種辦公任務,仿佛只要敲敲鍵盤說幾句話,復雜的財務報表就能自動生成。然而,當研究團隊真正讓這些AI"上崗"處理真實的財務工作時,現實卻給了所有人一記響亮的耳光。
這場測試的主角是目前市面上最強大的AI系統,包括OpenAI的GPT-5.1、Anthropic的Claude Sonnet 4.5、Google的Gemini 3 Pro等。這些平時在各種基準測試中表現優異的AI明星,在面對真實財務工作時卻顯得力不從心。即便是表現最好的GPT-5.1 Pro,在花費了整整48小時的"加班時間"后,也只能成功完成38.4%的工作流程,而Claude Sonnet 4.5的成功率更是只有25%。
這個結果讓很多人感到意外。畢竟,在實驗室環境下,這些AI在各種標準化測試中的表現都相當出色。那么,真實的職場工作到底有什么特別之處,能讓這些"超級大腦"頻頻敗下陣來?
答案就隱藏在研究團隊精心構建的FINCH評測體系中。FINCH這個名字本身就很有趣,它不僅是"Finance"的縮寫,也是一種小鳥的名字,象征著這套評測系統雖然看似小巧,卻擁有敏銳的洞察力,能夠精準捕捉到AI在真實工作環境中的各種問題。
**二、深入企業內部:從安然公司的"數字遺產"中尋找真相**
要理解FINCH的獨特之處,我們需要先了解研究團隊是如何構建這套評測體系的。與以往那些基于人工合成數據的測試不同,FINCH的數據來源完全來自真實的企業環境,其中最重要的素材來自安然公司(Enron)。
安然公司雖然因為財務丑聞而臭名昭著,但從研究角度來看,它卻留下了一份珍貴的"數字遺產"——大約15000個真實的電子表格文件和50萬封企業郵件。這些材料完整保留了一家大型企業日常財務運作的全貌,包括各種復雜的跨部門協作、版本迭代、數據校驗等真實工作場景。
研究團隊如同考古學家一般,從這些海量的企業數據中精心挖掘出172個完整的工作流程。這些流程涵蓋了企業財務工作的方方面面:從簡單的數據錄入到復雜的金融建模,從日常的報表制作到重要的風險評估。每一個工作流程都包含384個具體任務,涉及1710個電子表格,總計超過2700萬個數據單元格。
這個數據規模聽起來可能很抽象,我們可以這樣理解:如果把這些電子表格打印出來堆疊起來,大概相當于一棟20層樓的高度。而這還不包括那些配套的PDF文檔、圖表和其他輔助材料。
更重要的是,這些工作流程并不是孤立存在的。就像真實的企業工作一樣,它們相互交織、層層依賴。一個看似簡單的數據更新可能會影響到十幾個不同的報表,而一個計算錯誤可能會在整個財務體系中產生連鎖反應。這種復雜性正是傳統基準測試所無法捕捉的。
**三、三條路徑構建真實場景:郵件、版本歷史與專業文檔**
為了確保測試的真實性和全面性,研究團隊采用了三種不同的方法來構建工作流程,每種方法都像是從不同角度觀察同一個復雜的鉆石。
第一種方法是從企業郵件中提取工作流程。研究團隊開發了一套智能分析系統,能夠識別那些明確提到業務目標的協作郵件,比如"更新RAC排名"或"修訂2002年分配方案"等。這些郵件往往包含了完整的工作指令和相關附件,為研究團隊提供了真實工作場景的第一手資料。
不過,郵件分析也分為兩種情況。在"強關聯"情況下,郵件中包含了完整的輸入文件和最終結果,這樣的郵件為研究提供了完美的工作流程樣本。但更多時候遇到的是"部分關聯"的情況,郵件中可能只提到了工作目標,而缺少必要的文件。這時,研究團隊就需要像偵探一樣,從其他渠道尋找缺失的拼圖。
第二種方法是分析電子表格的版本歷史。在企業環境中,重要的財務文檔往往會經歷多次修訂,每次修訂都反映了特定的業務需求或問題解決過程。研究團隊開發了專門的算法來識別這些版本變化,并推斷出變化背后的業務邏輯。這種方法特別有價值,因為它捕捉到了那些可能從未在郵件中明確表述的隱性工作流程。
第三種方法是利用高質量的專業文檔。研究團隊從投資公司、證券機構、世界銀行、加拿大和英國政府等組織收集了大量專業財務文檔,然后將這些完成品逆向分解為工作流程。這就像是根據一道精美的菜肴來推斷烹飪過程一樣,需要深厚的專業知識和豐富的經驗。
整個構建過程耗費了700多個小時的專家標注時間,每個工作流程都經過了嚴格的質量控制。為了確保準確性,研究團隊甚至使用了AI作為"第二評判員",讓GPT-5.1 Pro和Claude Sonnet 4.5來檢查標注結果的一致性。
**四、多維度挑戰:復雜性、混亂度與多模態的三重考驗**
FINCH之所以能讓最強大的AI系統敗下陣來,關鍵在于它準確還原了真實財務工作的三個核心特征:任務的復合性、數據的混亂性和信息的多模態性。
首先是任務復合性的挑戰。與實驗室中那些設計精巧的單一任務不同,FINCH中78.5%的工作流程都涉及多個相互關聯的任務。這就像是要求一個廚師不僅要會炒菜,還要同時負責采購、備菜、調味、擺盤和清潔,而且這些環節必須無縫銜接,任何一個環節出錯都可能影響最終結果。
實驗結果清楚地顯示了這種復合性對AI的影響。當工作流程只包含一到兩個任務時,GPT-5.1 Pro的成功率還能達到44.3%,但當任務數量超過兩個時,成功率就急劇下降到23.5%。這種現象被研究人員稱為"誤差累積效應",就像多米諾骨牌一樣,前面的小錯誤會在后續步驟中被不斷放大。
其次是數據混亂性帶來的困擾。在學術研究中,數據通常都經過精心整理,格式統一、結構清晰。但在真實的企業環境中,數據往往是混亂的、不一致的,充滿了各種例外情況和特殊格式。
在FINCH的測試中,單個工作流程平均涉及8個不同的電子表格,有些復雜的流程甚至會涉及多達91個表格。這些表格往往采用不同的格式和布局,有的使用合并單元格,有的包含多級標題,還有的穿插著各種圖表和注釋。最復雜的工作簿包含多達370萬個數據單元格和數十萬個公式,形成了一個龐大而復雜的依賴網絡。
第三個挑戰來自信息的多模態性。現代財務工作不僅僅涉及數字和文本,還包括各種圖表、圖像和PDF文檔。在FINCH的測試中,約10.5%的工作流程需要處理多種不同格式的文檔,7.6%的流程明確要求AI理解PDF或圖像中的信息。
這種多模態的要求對AI來說特別困難。舉個例子,AI可能需要從一份PDF格式的財務報告中提取特定數據,然后將這些數據整合到Excel表格中,同時還要保持原有的格式和布局。這不僅需要理解不同格式文檔的內容,還要理解它們之間的邏輯關系。
**五、AI敗北的深層原因:五大致命弱點的剖析**
通過對失敗案例的詳細分析,研究團隊發現了AI在處理真實財務工作時存在的五大關鍵問題,這些問題就像是AI身上的"阿基里斯之踵",在簡單測試中可能不會暴露,但在復雜的真實場景中卻成為致命弱點。
第一個問題是任務理解偏差。企業財務工作往往依賴大量的隱含知識和上下文信息,而這些信息通常不會在明確的指令中體現。就像一個經驗豐富的會計師能夠根據業務背景理解某個數據調整的真實意圖,但AI卻經常按照字面意思執行指令,導致結果偏離實際需求。在研究中,10%的失敗案例都源于這種理解偏差。
第二個問題是數據檢索錯誤。在復雜的多表格環境中,準確找到所需的數據就像在圖書館中尋找特定的書籍一樣困難。AI經常會選擇錯誤的數據范圍,或者從錯誤的表格中提取信息。這類錯誤占到了失敗案例的25%,而且往往具有連鎖反應,一個小的檢索錯誤可能導致整個分析鏈條的崩塌。
第三個問題是公式推理能力不足。財務工作中的公式往往蘊含著復雜的業務邏輯,比如稅務計算、折舊攤銷或風險調整等。AI雖然能夠執行現有公式,但在需要理解公式背后的業務邏輯或創建新公式時就顯得力不從心。35%的失敗案例都與公式推理有關,這也是失敗率最高的單一原因。
第四個問題是代碼生成質量低下。許多復雜的財務任務需要通過編程來完成,但AI生成的代碼經常存在語法錯誤或邏輯問題。更重要的是,這些代碼往往無法正確處理電子表格的復雜布局和格式要求。25%的失敗案例都源于代碼問題,這反映了AI在將抽象指令轉化為具體實現時的局限性。
第五個問題是數據渲染和格式處理能力欠缺。財務工作不僅要求數據準確,還要求展示美觀、格式規范。AI往往能夠生成正確的數據,但在圖表制作、報表格式或布局設計方面表現不佳。雖然這類問題只占失敗案例的5%,但在實際工作中卻可能嚴重影響工作效果。
**六、不同AI系統的表現差異:各有所長但都有短板**
在FINCH的測試中,不同AI系統展現出了各自的特點和局限性。GPT-5.1 Pro采用了更加細致的工作策略,會將復雜任務分解為多個小步驟,每一步都進行驗證和檢查。這種方法雖然耗時更長(平均每個工作流程需要16.8分鐘),但確實提高了成功率。
相比之下,Claude Sonnet 4.5更傾向于使用更直接的解決方案,步驟更少但每一步的跨度更大。有趣的是,在涉及數據可視化的任務中,Claude生成的圖表往往比GPT更加美觀和準確,這可能反映了不同系統在不同能力方面的專長。
通過API接口調用的模型表現相對較差,這主要是因為它們只能進行單次調用,無法像網頁版AI那樣進行多輪交互和錯誤修正。不過,研究團隊通過改進數據編碼格式和優化提示策略,顯著縮小了API模型與網頁版AI的性能差距。
在具體任務類型上,所有AI系統都在數據錄入、結構調整和翻譯任務上表現較差。特別是翻譯任務,這令很多人感到意外。原來,財務表格的翻譯不僅涉及語言轉換,還需要保持復雜的格式布局和數據關系,這比普通文本翻譯要困難得多。
**七、人機評判的一致性:自動化評測的可靠性驗證**
為了確保評測結果的可靠性,研究團隊同時采用了人工評判和AI自動評判兩套標準。有趣的是,AI作為"裁判員"的表現相當不錯。在GPT-5.1 Pro的測試中,AI裁判與人工專家的判斷一致性達到82.1%,在Claude Sonnet 4.5的測試中更是達到90.2%。
這種高一致性的背后有其深層原因。研究團隊設計了一套多模態評判框架,AI裁判不僅能夠分析文本和數據,還能夠"觀察"表格的截圖,識別格式、圖表和布局等視覺元素。在某些情況下,AI裁判甚至比人工專家更加敏銳,能夠發現一些人眼容易忽略的細微錯誤,比如公式被意外替換為靜態數值等問題。
不過,AI裁判也有其局限性。它有時會過于嚴格地按照字面意思執行評判標準,忽略了一些合理的變通做法。而且在處理一些需要深層業務理解的復雜情況時,AI裁判的準確性還有待提高。
**八、真實企業環境的"惡劣條件":為什么AI會失敗得如此徹底**
FINCH測試結果之所以如此"殘酷",根本原因在于真實企業環境的復雜性遠遠超出了人們的想象。這種復雜性體現在多個相互交織的層面上。
首先是規模上的挑戰。真實的財務工作往往涉及龐大的數據體系,幾十個相互關聯的工作簿、數百個工作表、成千上萬的數據單元格構成了一個復雜的信息網絡。在這樣的環境中,即使是很小的定位錯誤也可能導致嚴重后果。
其次是語義上的困擾。財務領域充滿了相似但不同的概念,比如"收入"和"營業收入"、"利潤"和"凈利潤"等。這些概念在不同語境下可能有細微差別,對于缺乏領域知識的AI來說很容易混淆。
第三是結構上的不規則性。與教科書中的標準表格不同,真實的財務文檔往往采用各種非標準的布局和格式。合并單元格、多級標題、嵌套表格等復雜結構對AI的理解能力構成了嚴峻挑戰。
第四是邏輯上的隱含性。許多財務操作背后蘊含著復雜的業務邏輯和歷史慣例,這些信息往往不會在表面數據中明確體現。比如某個定價公式可能看起來是簡單的數學計算,但實際上反映了55天的付款周期安排。
最后是多模態信息的整合難度。現代財務工作需要同時處理表格、文檔、圖表和圖像等多種格式的信息,而且這些信息往往相互引用、相互依賴。對AI來說,理解單一格式的信息已經不容易,要準確整合多種格式的信息更是難上加難。
正是這些因素的疊加效應,導致了即便是最強大的AI系統也在FINCH測試中敗下陣來。這并不意味著AI技術不夠先進,而是說明了真實世界的復雜性確實超出了當前技術的處理能力。
**九、展望未來:AI與人類協作的新可能**
盡管FINCH的測試結果顯示AI在處理復雜財務工作時還有很大局限性,但這項研究的價值恰恰在于為未來的改進指明了方向。
研究結果表明,當前AI的主要問題不在于基礎能力不足,而在于缺乏處理復雜、混亂、多模態信息的綜合能力。這意味著未來的AI發展重點應該放在提高系統的魯棒性和適應性上,而不是單純追求在標準化測試中的高分。
同時,研究也揭示了人機協作的巨大潛力。雖然AI難以獨立完成復雜的財務工作流程,但在特定子任務上仍然表現出色。未來的財務工作可能會發展成為一種新的協作模式:AI負責處理大量的數據計算和格式轉換工作,而人類專家則專注于業務邏輯理解、質量控制和決策制定。
此外,FINCH的構建方法本身也具有重要價值。通過從真實企業數據中提取工作流程,研究團隊開創了一種新的基準測試構建思路。這種方法不僅能夠更準確地評估AI系統的實際應用能力,也為其他領域的AI評測提供了有益借鑒。
說到底,FINCH不僅僅是一套測試工具,更像是一面鏡子,讓我們更清楚地看到了AI技術的現狀和前景。它告訴我們,雖然AI在很多方面已經表現出色,但要真正融入復雜的人類工作環境,還有很長的路要走。這不是AI的失敗,而是我們對AI能力邊界有了更準確的認識,為未來的技術發展提供了更明確的目標和方向。
Q&A
Q1:FINCH評測體系與傳統AI測試有什么不同?
A:FINCH使用的是來自安然公司等真實企業的工作數據,包含15000個電子表格和50萬封郵件,構建了172個真實的財務工作流程。與傳統測試使用人工合成的簡單數據不同,FINCH的測試環境完全還原了企業工作的復雜性、混亂性和多任務協作特點。
Q2:為什么最強大的AI模型在FINCH測試中表現這么差?
A:主要因為真實財務工作具有五大挑戰:任務理解需要隱含的業務知識、在復雜多表格環境中數據檢索困難、公式推理需要理解業務邏輯、代碼生成要處理復雜格式、多模態信息整合難度大。這些問題在簡單測試中不會暴露,但在真實場景中會累積放大。
Q3:FINCH測試結果對企業使用AI有什么啟示?
A:結果表明AI目前還無法獨立完成復雜的企業財務工作,成功率只有25-38%。但這不意味著AI無用,而是需要重新定位AI的角色,讓AI處理數據計算和格式轉換等標準化工作,人類專家負責業務邏輯理解和質量控制,形成更合理的人機協作模式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.