![]()
近日,數說故事×IDEA數說故事實驗室(以下簡稱IDEA實驗室)聯合研究團隊共創的學術論文《PARSQL: Enhancing Text-to-SQL through SQL Parsing and Reasoning》被國際學術頂會ACL 2025收錄,繼此前雙方合力研究的「細粒度情感四元組識別 (ASQP) 任務」成果被收錄后,再度躋身 ACL 國際學術舞臺。
ACL大會由國際計算語言學協會主辦,是自然語言處理與計算語言學領域最高級別的學術會議。ACL 2025是中國計算機學會(CCF)推薦的唯一A類的自然語言領域國際學術會議。
本次研究成果入選 ACL國際頂會,不僅是對「PARSQL」技術在輕量模型語義解析領域創新突破的國際認可,更是對數說故事與IDEA實驗室產學研深度融合技術創新的肯定。
![]()
在企業數據量呈爆炸式增長的當下,數據洞察早已從「加分項」變成核心剛需。品牌投放反饋、大促期間流量瞬變、跨境市場&政策波動等場景,要求數據查詢分析具備「秒級反饋」能力,如何讓數據流動起來并創造價值?以往的Text?to?SQL(NL2SQL)技術,通過聊天的方式就能查詢數據庫,但實際使用時經常遇到尷尬問題:
- 常常漏掉關鍵約束。例如運營人員查詢「近 30 天微博投放中互動率超 10% 且金額超 5 萬」的內容時,模型因漏識 「金額」 條件致結果含大量低預算數據。
- 查詢邏輯「翻車」。例如市場團隊想獲取「每個品牌在小紅書平臺的平均點贊數,并篩選出平均值大于1000的品牌」。模型誤將篩選條件放到SELECT子句中,導致查詢返回全量品牌數據而非目標品牌。
- 越復雜的業務需求,越「答非所問」。例如數據分析師查詢 2024 年 Q1 連續三周產生爆文(點贊 > 1 萬)的品牌并分析其投放頻率周變化時,模型因未理解「連續三周」「爆文定義」「頻率變化」復合邏輯僅返回所有爆文筆記,偏離分析目標。
本次論文中,雙方合力研究的PARSQL(SQL解析與推理增強框架),直擊 Text-to-SQL 技術在實際應用中的核心痛點,當面對復雜查詢時,不是直接「硬闖」,而是先分析、再推理、最后生成,大大提升了準確性。本次研究中,我們將「PARSQL」技術的創新應用錨定在「輕量模型」上,讓輕量級模型在資源受限環境下實現復雜語義解析、多條件關聯查詢的效率提升,開創低算力消耗的數據智能新路徑。
01「PARSQL」
讓輕量模型也能應對復雜查詢
相較于傳統的 Text-to-SQL 「一步到位」轉換模式,「PARSQL」創新性地拆解為「解析→增強→推理→校對」的四步策略,讓輕量模型也能像資深數據分析師一樣,系統化地理解和處理復雜的查詢需求。
PARSQL的重要技術創新:解析+推理+選擇
- 智能SQL解析
「PARSQL 」里的SQL解析器PARSer,能夠先把 SQL 拆解成抽象語法樹(AST),逐一提煉出用戶在查詢過程中的每個約束條件、子查詢片段和關鍵節點。接著,「PARSQL 」會依照 SQL 的執行順序來「講故事」,從 FROM、WHERE 到 GROUP BY、HAVING,再到 ORDER BY,最后到SELECT,系統化地生成每一步的自然語言解釋,為數據增強提供高質量訓練樣本。 - 數據增強和多任務學習策略
「New Pairs」訓練:將原始問題和 SQL 拆成只帶部分約束的子對,從細節開始練起,讓輕量模型在輕量級練習中敏銳捕捉細節;
「Reason Pairs」訓練:讓模型輸出從問題到推理步驟的完整鏈路,學會寫出「為什么這么查」,提升邏輯連貫性;
并行優化:同一次訓練中,并行優化Text-to-SQL和Text-to-Reason兩個任務,讓模型既會寫SQL,也會「說理由」。
3.高效選擇策略
在推理階段,PARSQL會生成多組候選SQL和對應的「推理腳本」,通過N-gram相似度計算,一秒鐘內挑出最契合邏輯的那條。這種自我校正機制,把原本容易跑偏的「認知坑」填平。
![]()
![]()
「PARSQL」技術已成功落地到數說故事旗下產品矩陣,以數說聲吶產品的「智能問數」功能為例,業務人員可通過簡答對話的形式便能實現自主數據探索。從業務的視角提出數據需求,「智能問數」能基于業務問題進行分析和解讀,從數據中篩選準確的數據,進行合理的統計與總結,給用戶明確的回答。
![]()
![]()
02 性能突破:「PARSQL」
讓輕量模型追平7B大模型
實驗表明,與其他Text-to-SQL方法相比,「PARSQL」這樣一套「解析→增強→校對」的組合拳,在多個基準數據集上展示了更高的準確性和更強的魯棒性。
- 同等模型規模下表現更優:在 BIRD 數據集上,PARSQL rule 和 PARSQL llm 相較于 1B 和 3B參數規模下均優于 SFT CodeS。其中,PARSQL-3Bllm 比 SFT CodeS-3B 的 EX 分數提高了 1.96%,表現接近SFT CodeS-7B,意味著用更少的參數實現了相當的性能表現。
- 在通用數據集上更具競爭力:在Spider基準上,PARSQL-1B?rule 相比 SFT CodeS?1B 在執行準確率和語法正確性上分別提升 2.8% 和 2.6%,顯著減少了小錯誤的產生,體現出其在基礎任務中的穩定性和細節處理能力。
- 在復雜任務中更有潛力:在 BIRD 數據集上,PARSQL?3B 相較于依賴 GPT?4 的閉源方案,展現出相近的性能,說明在資源受限場景下,輕量模型仍具備良好的拓展潛力。
![]()
![]()
這意味著企業可以通過「PARSQL」技術,用更少的計算資源獲得更高的查詢準確性,大幅降低AI部署和運維成本,同時保證業務查詢的精確性。當 AI 技術不再是「猛砸算力」,而是通過解析+推理+自我校正的多維度設計,就能讓「小而美」的模型在千變萬化的業務需求中游刃有余。
03 產業價值:重新定義
數據查詢的「經濟」模型
對于數據服務提供商和企業客戶而言,「PARSQL」的技術突破具有重要的商業價值:
1、成本優化:輕量模型的資源消耗僅為大模型的幾分之一,顯著降低算力成本和部署門檻;
2、精度保證:通過SQL解析和推理機制,確保查詢結果的準確性,避免業務決策偏;
3、本地部署:輕量模型更適合私有化部署,滿足數據安全和隱私保護需求;
4、實時響應:更高的推理效率,支持高并發、低延時的查詢場景;
隨著「PARSQL」技術的產業化應用,將進一步降低企業數字化轉型的技術門檻,讓更多企業能夠以更低成本、更高效率地利用數據價值,實現智能化決策。
未來,數說故事將繼續秉承「用數據講好商業故事」的使命,攜手更多合作伙伴持續推動AI技術在數據服務領域的創新應用,為企業數字化轉型提供更加智能、高效、經濟的解決方案。
關于IDEA數說故事實驗室
IDEA實驗室 DataStory AI Lab由數說故事攜手 IDEA實驗室共建,基于數說故事“大數據+AI”豐富的技術棧積累和平臺化能力,結合 IDEA實驗室國際TOP50的超級計算集群優勢,將聯合國內外頂尖高校和科研院所,圍繞AI知識圖譜、下一代動態海量事理圖譜技術等領域展開國際一流的研究和產業化落地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.