網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

釘釘發(fā)布DeepResearch多智能體框架，已在真實(shí)企業(yè)部署

2025-11-12 13:06:22　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

在數(shù)字經(jīng)濟(jì)浪潮中，企業(yè)對(duì)于高效、精準(zhǔn)的信息獲取與決策支持的需求日益迫切。從前沿科學(xué)探索到行業(yè)趨勢(shì)分析，再到企業(yè)級(jí)決策支持，一個(gè)能夠從海量異構(gòu)數(shù)據(jù)源中提取關(guān)鍵知識(shí)、執(zhí)行多步驟推理并生成結(jié)構(gòu)化或多模態(tài)輸出的「深度研究系統(tǒng)」正變得不可或缺。

然而，現(xiàn)有的研究系統(tǒng)，盡管各自在特定領(lǐng)域有所建樹(shù)，卻普遍面臨著難以適應(yīng)真實(shí)世界企業(yè)環(huán)境的挑戰(zhàn)：

靜態(tài)架構(gòu)與缺乏適應(yīng)性：多數(shù)系統(tǒng)依賴靜態(tài)提示或固定腳本，缺乏從真實(shí)世界反饋中學(xué)習(xí)和優(yōu)化的機(jī)制，難以適應(yīng)不斷變化的業(yè)務(wù)需求和數(shù)據(jù)分布。

私有數(shù)據(jù)集成與動(dòng)態(tài)優(yōu)化不足：現(xiàn)有的研究型智能體，如 OpenAI 的 GPT 代理，在集成公共信息源方面表現(xiàn)出色，但往往難以安全、高效地整合企業(yè)私有數(shù)據(jù)，也缺乏動(dòng)態(tài)優(yōu)化能力。

缺乏自動(dòng)化評(píng)估與持續(xù)優(yōu)化：像 Anthropic 的 Claude Research Workbench 雖然強(qiáng)調(diào)安全性與人機(jī)協(xié)作，但缺少自動(dòng)評(píng)估和連續(xù)優(yōu)化機(jī)制，難以在部署環(huán)境中實(shí)現(xiàn)持續(xù)改進(jìn)。

長(zhǎng)短期記憶與動(dòng)態(tài)演進(jìn)機(jī)制缺失：多數(shù)系統(tǒng)缺乏有效的長(zhǎng)短期記憶能力，無(wú)法積累和重用歷史經(jīng)驗(yàn)，導(dǎo)致智能體在處理復(fù)雜、長(zhǎng)期任務(wù)時(shí)效率低下且無(wú)法持續(xù)進(jìn)步。

表格結(jié)構(gòu)化推理與文本合成的脫節(jié)：企業(yè)數(shù)據(jù)中包含大量半結(jié)構(gòu)化或復(fù)雜表格，但現(xiàn)有系統(tǒng)往往難以將表格的精確符號(hào)推理與非結(jié)構(gòu)化文本的生成合成有效結(jié)合。

缺乏評(píng)估驅(qū)動(dòng)的閉環(huán)迭代：許多系統(tǒng)缺少一個(gè)評(píng)估驅(qū)動(dòng)的閉環(huán)優(yōu)化流程，無(wú)法系統(tǒng)性地識(shí)別低性能案例、進(jìn)行有針對(duì)性的改進(jìn)并防止性能退化。

為了填補(bǔ)這些空白，阿里巴巴釘釘（Dingtalk）團(tuán)隊(duì)提出了Dingtalk-DeepResearch，一個(gè)為復(fù)雜、演進(jìn)的企業(yè)任務(wù)設(shè)計(jì)的統(tǒng)一多智能體智能框架，旨在整合深度研究生成、異構(gòu)表格推理和多模態(tài)報(bào)告合成，從而提供一個(gè)適應(yīng)性強(qiáng)、可部署、企業(yè)級(jí)的解決方案。

論文標(biāo)題：Dingtalk DeepResearch: A Unified Multi Agent Framework for Adaptive Intelligence in Enterprise Environments
論文地址：https://arxiv.org/abs/2510.24760

Dingtalk-DeepResearch 在國(guó)際權(quán)威深度研究評(píng)測(cè) DeepResearch Bench 中取得48.49高分（全球第二、國(guó)內(nèi)第一），顯著超越包括 OpenAI、Claude 在內(nèi)的主流系統(tǒng)；并在 ResearcherBench 達(dá)到0.7032平均覆蓋率（全球第三、國(guó)內(nèi)第一）。

更關(guān)鍵的是，該框架已穩(wěn)定部署于制造業(yè)、供應(yīng)鏈等真實(shí)企業(yè)場(chǎng)景，能夠在復(fù)雜異構(gòu)表格、多階段推理與多模態(tài)生成任務(wù)中保持行業(yè)領(lǐng)先的準(zhǔn)確性和穩(wěn)健性，實(shí)現(xiàn)了國(guó)際頂級(jí)基準(zhǔn)與實(shí)際生產(chǎn)落地的雙重突破。

總體架構(gòu)：

構(gòu)建企業(yè)智能的大腦

Dingtalk-DeepResearch 框架采用分層設(shè)計(jì)，旨在為企業(yè)提供一個(gè)全面而靈活的智能中樞：

Dingtalk-DeepResearch Agent Studio：這一層提供了專(zhuān)業(yè)的智能體，專(zhuān)門(mén)用于深度研究、表格數(shù)據(jù)處理和數(shù)據(jù)分析。同時(shí)，它也支持可定制的個(gè)人智能體，以滿足不同用戶的特定需求。這體現(xiàn)了框架的 flexibility 和個(gè)性化能力。

Dingtalk-DeepResearch Core：這一層作為框架的「大腦」，它集成了上下文壓縮、推理與規(guī)劃、長(zhǎng)短期記憶和人機(jī)協(xié)作控制等關(guān)鍵功能。該核心還包括一個(gè)自演進(jìn)引擎 (DingAutoEvaluator)和一套豐富的集成工具，支持代碼執(zhí)行、網(wǎng)絡(luò)搜索、文件與表格檢索及多模態(tài)處理。值得注意的是，它能與釘釘生態(tài)系統(tǒng)連接，并在用戶授權(quán)下安全訪問(wèn)個(gè)人工作文檔。所有這些能力均由經(jīng)過(guò) CPT、SFT 和 RL 訓(xùn)練的 LLM 驅(qū)動(dòng)。

Dingtalk-DeepResearch Data Layer：這一層是一個(gè)統(tǒng)一的數(shù)據(jù)骨干。它整合了知識(shí)圖譜、數(shù)據(jù)庫(kù)、緩存以及包括對(duì)話、音視頻、圖、文本和表格在內(nèi)的多模態(tài)數(shù)據(jù)集。該層匯集了業(yè)務(wù)、行業(yè)、個(gè)人及合成數(shù)據(jù)，為智能體檢索和關(guān)聯(lián)多樣化的企業(yè)及行業(yè)數(shù)據(jù)提供了基礎(chǔ)。

詳細(xì)方法：

自適應(yīng)智能的核心機(jī)制

Dingtalk-DeepResearch 的創(chuàng)新之處在于其獨(dú)特的方法論，尤其是在文檔生成、在線學(xué)習(xí)和表格推理方面。

大規(guī)模多階段文檔強(qiáng)化學(xué)習(xí)：構(gòu)建文檔生成專(zhuān)家

為了賦予 Dingtalk-DeepResearch 強(qiáng)大的文檔生成能力，該框架設(shè)計(jì)了一個(gè)多階段訓(xùn)練管道，結(jié)合了大規(guī)模獎(jiǎng)勵(lì)建模、結(jié)構(gòu)化查詢格式的監(jiān)督微調(diào)以及在靜態(tài)和實(shí)時(shí)內(nèi)容流上的強(qiáng)化學(xué)習(xí)，并通過(guò)真實(shí)用戶數(shù)據(jù)進(jìn)行在線偏好優(yōu)化。

階段 1：獎(jiǎng)勵(lì)模型（Doc-RM）訓(xùn)練

此階段的目標(biāo)是訓(xùn)練一個(gè)文檔專(zhuān)屬的獎(jiǎng)勵(lì)模型（Doc-RM）。團(tuán)隊(duì)使用了約 80 萬(wàn)個(gè)人工標(biāo)注的正負(fù)樣本對(duì) ，這些樣本根據(jù)事實(shí)準(zhǔn)確性、語(yǔ)義覆蓋、邏輯結(jié)構(gòu)和呈現(xiàn)清晰度進(jìn)行評(píng)估。該模型將作為后續(xù)強(qiáng)化學(xué)習(xí)階段的評(píng)分骨干。

階段 2：結(jié)構(gòu)化查詢格式的冷啟動(dòng)監(jiān)督微調(diào) (SFT)

為使模型掌握特定的輸出格式，團(tuán)隊(duì)使用了 3,200 個(gè)精選樣本進(jìn)行 SFT 。這些樣本涵蓋四大類(lèi)格式：視覺(jué)呈現(xiàn)生成（如 Markdown 格式的 PPT）、結(jié)構(gòu)化數(shù)據(jù)解釋?zhuān)ㄈ绫砀窠馕觯?、綜合多章節(jié)敘述和領(lǐng)域特定模板。此階段會(huì)獎(jiǎng)勵(lì)兼具內(nèi)容準(zhǔn)確性、邏輯結(jié)構(gòu)和美觀文本格式的輸出，為后續(xù) RL 調(diào)優(yōu)奠定基礎(chǔ) 。

階段 3：靜態(tài)文檔集合上的強(qiáng)化學(xué)習(xí) (RL)

利用訓(xùn)練好的 Doc-RM 作為獎(jiǎng)勵(lì)函數(shù) ，智能體在大型離線文檔庫(kù)上進(jìn)行強(qiáng)化學(xué)習(xí)。它通過(guò)檢索靜態(tài)文檔、合成答案，并根據(jù)覆蓋范圍、事實(shí)正確性和連貫性獲得獎(jiǎng)勵(lì) ，從而在受控環(huán)境中建立穩(wěn)定的合成能力基線。

階段 4：實(shí)時(shí)文檔獲取上的強(qiáng)化學(xué)習(xí) (RL)

為處理時(shí)效性信息，RL 被擴(kuò)展到實(shí)時(shí)內(nèi)容檢索。團(tuán)隊(duì)設(shè)計(jì)了 10,000 個(gè)時(shí)間敏感查詢，覆蓋了需要避免「事后偏見(jiàn)」的場(chǎng)景（如財(cái)務(wù)預(yù)測(cè)）和需要最新信息的「過(guò)時(shí)信息」場(chǎng)景（如突發(fā)新聞）。系統(tǒng)通過(guò)實(shí)時(shí)搜索獲取最新文檔，并由 Doc-RM 結(jié)合定制的獎(jiǎng)懲結(jié)構(gòu)（強(qiáng)調(diào)時(shí)間正確性）進(jìn)行評(píng)分。

階段 5：基于 Copilot 的真實(shí)用戶交互在線直接偏好優(yōu)化 (DPO)

在實(shí)際部署中，系統(tǒng)作為用戶 Copilot 運(yùn)行。通過(guò)收集模型的原始輸出和用戶的編輯版本，系統(tǒng)會(huì)提取高影響力的差異，并將其構(gòu)造成在線 DPO 數(shù)據(jù)集，從而持續(xù)向用戶的特定偏好進(jìn)行微調(diào) 。

通過(guò)這一多階段方法，Dingtalk-DeepResearch 不僅獲得了強(qiáng)大的文檔生成能力，還實(shí)現(xiàn)了對(duì)不斷變化的真實(shí)世界信息需求的自適應(yīng)響應(yīng)。

熵引導(dǎo)記憶檢索自適應(yīng)在線學(xué)習(xí)：無(wú)需微調(diào) LLM 的持續(xù)演進(jìn)

Dingtalk-DeepResearch 的一個(gè)顯著特點(diǎn)是其熵引導(dǎo)、記憶感知的在線學(xué)習(xí)機(jī)制。該機(jī)制允許智能體在不微調(diào)底層 LLM 參數(shù)的情況下，持續(xù)適應(yīng)不斷演變的任務(wù)。系統(tǒng)并非依賴靜態(tài)提示，而是從一個(gè)外部的 episodic memory bank 中動(dòng)態(tài)選擇和重用先前的案例，平衡了對(duì)高價(jià)值經(jīng)驗(yàn)的利用和對(duì)多樣化歷史情境的探索。

智能體會(huì)根據(jù)當(dāng)前任務(wù)狀態(tài)計(jì)算存儲(chǔ)案例的概率分布，該分布受其估計(jì)的 Q 值和溫度參數(shù)的調(diào)節(jié) 。這鼓勵(lì)了對(duì)替代案例的探索，減輕了對(duì)早期經(jīng)驗(yàn)的過(guò)擬合。同時(shí)，記憶感知組件通過(guò)學(xué)習(xí)到的語(yǔ)義相似性來(lái)確保上下文相關(guān)性，從而準(zhǔn)確地重新應(yīng)用多步驟推理模式和工具調(diào)用序列。

該機(jī)制被集成到規(guī)劃器-執(zhí)行器循環(huán)中，每次執(zhí)行都會(huì)更新案例庫(kù)，在線重新訓(xùn)練檢索策略，并逐步提高推理性能。此外，該系統(tǒng)將這種記憶驅(qū)動(dòng)的范式擴(kuò)展到個(gè)性化層面，通過(guò)構(gòu)建用戶畫(huà)像、文檔交互歷史和先前工作流的長(zhǎng)期結(jié)構(gòu)化記憶，智能體能夠更深入地理解用戶的工作風(fēng)格和需求，從而提供日益相關(guān)和高效的輔助。

結(jié)構(gòu)感知異構(gòu)表格解析、檢索與推理：企業(yè)級(jí)數(shù)據(jù)處理的利器

在企業(yè)環(huán)境中，表格數(shù)據(jù)往往與文本敘述混合，形式多樣且結(jié)構(gòu)復(fù)雜。Dingtalk-DeepResearch 的表格問(wèn)答模塊通過(guò)結(jié)合布局感知表格建模和異構(gòu)檢索-執(zhí)行，實(shí)現(xiàn)了精確且可解釋的推理。

數(shù)據(jù)攝入 (Data Ingestion)

系統(tǒng)在攝入半結(jié)構(gòu)化表格時(shí)會(huì)保留其原始布局，而非扁平化為純文本。表格被解析為捕獲了標(biāo)題、合并單元格和嵌套關(guān)系的層次化表示。同時(shí)，表格也以標(biāo)準(zhǔn)化模式存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中，其 Markdown 渲染版本則加入文本知識(shí)庫(kù)。這種雙存儲(chǔ)方法保持了結(jié)構(gòu)完整性，并同時(shí)支持符號(hào)查詢和向量檢索。

結(jié)構(gòu)化解析 (Structural Parsing)

系統(tǒng)應(yīng)用多模態(tài)檢測(cè)器來(lái)區(qū)分標(biāo)題和內(nèi)容單元格，推斷列類(lèi)型（如離散、連續(xù)），并分析布局以識(shí)別嵌入的子表。這些豐富的模式注解為精確推理奠定了基礎(chǔ) 。

語(yǔ)義理解 (Semantic Understanding)

系統(tǒng)會(huì)將用戶問(wèn)題分解為感知文本和表格上下文的特定模態(tài)子查詢。查詢?cè)~匯通過(guò)嵌入相似性和類(lèi)型感知標(biāo)記與數(shù)據(jù)庫(kù)模式及文本實(shí)體對(duì)齊。這種分解能確保表格相關(guān)子查詢被直接用于符號(hào)執(zhí)行，而文本子查詢則交由文檔檢索器處理。

表格推理 (Tabular Reasoning)

對(duì)于表格子查詢，系統(tǒng)會(huì)調(diào)用 NL2SQL 生成器，在關(guān)系數(shù)據(jù)庫(kù)上生成可執(zhí)行的 SQL 語(yǔ)句，以執(zhí)行聚合、過(guò)濾或多跳連接。得益于評(píng)估驅(qū)動(dòng)的開(kāi)發(fā)范式，DingAutoEvaluator 會(huì)持續(xù)發(fā)現(xiàn)低準(zhǔn)確度的案例，并將其反饋到專(zhuān)用訓(xùn)練循環(huán)中以重新訓(xùn)練 NL2SQL 生成器，從而提高其魯棒性和執(zhí)行可靠性。

表格檢索 (Table Retrieval)

系統(tǒng)采用混合的自頂向下和自底向上檢索策略。檢索過(guò)程分兩階段：首先從文本知識(shí)庫(kù)和 Markdown 渲染的表格中進(jìn)行密集向量召回，然后使用模式感知的相關(guān)性模型進(jìn)行語(yǔ)義重排序。

這種緊密集成結(jié)構(gòu)保留攝入、精確解析、上下文感知分解、符號(hào) SQL 推理和自適應(yīng)檢索的方法，使 Dingtalk-DeepResearch 能夠大規(guī)模處理真實(shí)世界中的異構(gòu)數(shù)據(jù)，提供穩(wěn)健的企業(yè)級(jí)表格問(wèn)答能力。

DingAutoEvaluator：數(shù)據(jù)飛輪與持續(xù)優(yōu)化的核心驅(qū)動(dòng)

DingAutoEvaluator 是 Dingtalk-DeepResearch 實(shí)現(xiàn)持續(xù)演進(jìn)的關(guān)鍵。它是一個(gè)自動(dòng)化評(píng)估平臺(tái)，作為數(shù)據(jù)飛輪和性能演進(jìn)的核心驅(qū)動(dòng)力，將開(kāi)發(fā)范式從啟發(fā)式迭代和零星手動(dòng)檢查轉(zhuǎn)變?yōu)橥耆u(píng)估驅(qū)動(dòng)的方法。

該過(guò)程始于不確定性感知案例挖掘。系統(tǒng)會(huì)持續(xù)監(jiān)控模型在檢索和生成層面的認(rèn)知不確定性峰值，這些「灰色地帶」的輸出（即模型能力邊緣的推理）會(huì)被自動(dòng)識(shí)別并優(yōu)先提交給專(zhuān)家標(biāo)注者。

隨后，平臺(tái)中精心策劃的多個(gè)「教師模型」會(huì)根據(jù)一系列多維度評(píng)估指標(biāo)全面檢查框架的輸出。這個(gè)統(tǒng)一的測(cè)量框架涵蓋了 RAG、LLM、推理、智能體框架和知識(shí)庫(kù)健康度等多個(gè)方面。關(guān)鍵指標(biāo)類(lèi)別包括：

RAG 評(píng)估：如上下文精度和答案忠實(shí)度。

LLM 評(píng)估：如響應(yīng)準(zhǔn)確性和意圖識(shí)別。

推理評(píng)估：如邏輯連貫性和思維一致性。

智能體框架評(píng)估：如任務(wù)依從性和工具使用正確性。

知識(shí)庫(kù)評(píng)估：如知識(shí)過(guò)時(shí)率。

這些指標(biāo)不僅用于離線基準(zhǔn)測(cè)試，還作為在線監(jiān)控循環(huán)中的實(shí)時(shí)信號(hào)，為數(shù)據(jù)飛輪提供高價(jià)值案例，并為獎(jiǎng)勵(lì)建模和持續(xù)優(yōu)化提供信號(hào)。

實(shí)驗(yàn)結(jié)果與案例展示：

能力驗(yàn)證與實(shí)際應(yīng)用

論文通過(guò)多個(gè)實(shí)際案例展示了 Dingtalk-DeepResearch 的端到端能力，特別是在復(fù)雜表格數(shù)據(jù)解析、檢索、推理以及多模態(tài)文檔生成方面。

復(fù)雜表格解析、檢索與推理案例

在案例 A中，系統(tǒng)處理了一個(gè)包含庫(kù)存、多周預(yù)測(cè)和多式聯(lián)運(yùn)計(jì)劃的復(fù)雜表格。Dingtalk-DeepResearch 能夠準(zhǔn)確解析多節(jié)生產(chǎn)記錄、發(fā)貨計(jì)劃和物流說(shuō)明，實(shí)現(xiàn)精確的信息檢索與合成。該方法可擴(kuò)展到多個(gè)大型文件（如案例中 8 個(gè)相似的 1200 行文件），顯示了其魯棒性和實(shí)用性。

在案例 B中，系統(tǒng)處理了一個(gè) 1200 行的周生產(chǎn)記錄 103，并回答了關(guān)于 2025 年第一季度總產(chǎn)量的提問(wèn) 104。系統(tǒng)清晰地展示了其端到端流程：

問(wèn)題分解：將復(fù)雜問(wèn)題分解為四個(gè)步驟，包括定位表格、識(shí)別時(shí)間范圍、提取數(shù)據(jù)和匯總。

表格檢索與模式鏈接：系統(tǒng)成功定位到「YF Seat Weekly Production Statistics on Dec 30, 2024」表格 106，并將「Q1 2025」鏈接到 13 個(gè)具體的周次列。

SQL 生成與執(zhí)行：系統(tǒng)生成了精確的 SUM 聚合 SQL 語(yǔ)句 108，并成功執(zhí)行得出 total_production = 245036。

最終答案：基于執(zhí)行結(jié)果，系統(tǒng)給出了「...2025 年第一季度...所有產(chǎn)品的總產(chǎn)量為 245036 件」的準(zhǔn)確回答。

語(yǔ)義對(duì)齊的視覺(jué)-語(yǔ)言融合多模態(tài)文檔生成

該框架還展示了其在 Kaggle 競(jìng)賽案例（厄瓜多爾超市銷(xiāo)售預(yù)測(cè)）中的端到端自動(dòng)化能力。從源代碼、數(shù)據(jù)處理、統(tǒng)計(jì)可視化到最終的分析報(bào)告，全部由 Dingtalk-DeepResearch 自動(dòng)生成和執(zhí)行，無(wú)需任何人工干預(yù) 。

這證明了系統(tǒng)在一個(gè)統(tǒng)一的深度研究工作流中，集成了代碼合成、執(zhí)行和多模態(tài)結(jié)果呈現(xiàn)的能力。

結(jié)論：

面向未來(lái)的企業(yè)級(jí)自適應(yīng)智能

Dingtalk-DeepResearch 提出了一種統(tǒng)一的多智能體智能框架，專(zhuān)為企業(yè)環(huán)境設(shè)計(jì)，其核心優(yōu)勢(shì)在于：

熵引導(dǎo)在線學(xué)習(xí)，實(shí)現(xiàn)無(wú)需頻繁微調(diào) LLM 的自適應(yīng)能力。
大規(guī)模多階段文檔強(qiáng)化學(xué)習(xí)，顯著提升文檔生成的事實(shí)準(zhǔn)確性、結(jié)構(gòu)質(zhì)量和用戶對(duì)齊度。
結(jié)構(gòu)感知異構(gòu)表格推理，能夠有效處理真實(shí)世界中復(fù)雜多樣的表格數(shù)據(jù)。
DingAutoEvaluator 自動(dòng)化評(píng)估引擎，通過(guò)不確定性感知案例挖掘和多維度指標(biāo)，形成數(shù)據(jù)飛輪，驅(qū)動(dòng)模型的持續(xù)優(yōu)化和防范性能退化。

Dingtalk-DeepResearch 已經(jīng)成功部署在企業(yè)內(nèi)部工作流程中，并即將作為釘釘?shù)姆?wù)對(duì)外開(kāi)放，這將為更廣泛的企業(yè)用戶提供適應(yīng)性強(qiáng)、評(píng)估驅(qū)動(dòng)、多模態(tài)推理的復(fù)雜任務(wù)解決方案。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.