<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      登頂Hugging Face論文熱榜,LLM重寫數(shù)據(jù)準(zhǔn)備的游戲規(guī)則

      0
      分享至



      在企業(yè)級(jí)系統(tǒng)中,數(shù)據(jù)團(tuán)隊(duì)普遍面臨一個(gè)困境:模型迭代飛速,但數(shù)據(jù)準(zhǔn)備的「老舊管道」卻愈發(fā)沉重。清洗、對(duì)齊、標(biāo)注…… 這些工作依然深陷于人工規(guī)則與專家經(jīng)驗(yàn)的泥潭。您的團(tuán)隊(duì)是否也為此困擾?

      • 數(shù)據(jù)格式五花八門,正則表達(dá)式越寫越多,卻總有意想不到的「臟數(shù)據(jù)」出現(xiàn)
      • 跨系統(tǒng)表結(jié)構(gòu)不一致,對(duì)齊邏輯復(fù)雜,人工映射耗時(shí)耗力
      • 海量數(shù)據(jù)缺少標(biāo)簽和語(yǔ)義描述,分析師「看不懂、用不好」

      這背后是數(shù)據(jù)準(zhǔn)備這一經(jīng)典難題 —— 它占用了數(shù)據(jù)團(tuán)隊(duì)近 80% 的時(shí)間與精力,卻依然是智能化進(jìn)程中最頑固的瓶頸。傳統(tǒng)方法主要依賴靜態(tài)規(guī)則與領(lǐng)域特定模型,存在三大根本局限:高度依賴人工與專家知識(shí)、對(duì)任務(wù)語(yǔ)義的感知能力有限、在不同任務(wù)與數(shù)據(jù)模態(tài)間泛化能力差。

      如今,一份引爆HuggingFace 趨勢(shì)榜的聯(lián)合綜述指出,大語(yǔ)言模型(Large Language Models,LLMs)正在從根本上改變這一局面,推動(dòng)數(shù)據(jù)準(zhǔn)備從「規(guī)則驅(qū)動(dòng)」向「語(yǔ)義驅(qū)動(dòng)」的范式轉(zhuǎn)變。





      來(lái)自上海交通大學(xué)、清華大學(xué)、微軟研究院、麻省理工學(xué)院(MIT)、上海 AI Lab、小紅書、阿里巴巴、港科大(廣州)等機(jī)構(gòu)的研究團(tuán)隊(duì),系統(tǒng)梳理了近年來(lái)大語(yǔ)言模型在數(shù)據(jù)準(zhǔn)備流程中的角色變化,試圖回答一個(gè)業(yè)界關(guān)心的問(wèn)題:LLM 能否成為下一代數(shù)據(jù)管道的「智能語(yǔ)義中樞」,徹底重構(gòu)數(shù)據(jù)準(zhǔn)備的范式?



      • 論文標(biāo)題:Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs
      • arXiv 論文地址:https://arxiv.org/abs/2601.17058
      • Huggingface 論文主頁(yè):https://huggingface.co/papers/2601.17058
      • GitHub 項(xiàng)目主頁(yè):https://github.com/weAIDB/awesome-data-llm

      從「人工規(guī)則」到「語(yǔ)義驅(qū)動(dòng)」的數(shù)據(jù)準(zhǔn)備范式轉(zhuǎn)移

      傳統(tǒng)的數(shù)據(jù)準(zhǔn)備高度依賴人工規(guī)則和任務(wù)定制模型:正則表達(dá)式、字段校驗(yàn)邏輯、領(lǐng)域特定的分類器,不僅構(gòu)建和維護(hù)成本高昂,且一旦數(shù)據(jù)格式變化或面臨跨域集成,整套體系就顯得異常脆弱。

      研究團(tuán)隊(duì)指出,LLM 的引入正在推動(dòng)這一流程從「規(guī)則驅(qū)動(dòng)」向「語(yǔ)義驅(qū)動(dòng)」轉(zhuǎn)變。模型不再僅僅執(zhí)行預(yù)設(shè)邏輯,而是嘗試?yán)斫鈹?shù)據(jù)背后的含義,并據(jù)此完成檢測(cè)、修復(fù)、對(duì)齊和補(bǔ)充等操作。

      在這篇綜述中,作者從應(yīng)用層面(Application-Ready)的視角出發(fā),構(gòu)建了一個(gè)以任務(wù)為中心的分類框架,將 LLM 增強(qiáng)的數(shù)據(jù)準(zhǔn)備過(guò)程拆分為三大核心環(huán)節(jié):

      • 數(shù)據(jù)清洗(Data Cleaning):錯(cuò)誤檢測(cè)、格式標(biāo)準(zhǔn)化、異常修復(fù)、缺失值填補(bǔ)等;
      • 數(shù)據(jù)集成(Data Integration):實(shí)體匹配、模式匹配、跨源對(duì)齊與沖突消解;
      • 數(shù)據(jù)增強(qiáng)(Data Enrichment):列類型識(shí)別、語(yǔ)義標(biāo)注、表級(jí)與庫(kù)級(jí)畫像構(gòu)建。



      圖 1:數(shù)據(jù)準(zhǔn)備三大核心任務(wù):數(shù)據(jù)清洗、集成與增強(qiáng),分別解決數(shù)據(jù)的一致性與質(zhì)量問(wèn)題、隔離與集成障礙、以及語(yǔ)義與上下文限制

      論文中的整體框架展示了 LLM 在數(shù)據(jù)準(zhǔn)備流水線中的多維度角色。研究團(tuán)隊(duì)將現(xiàn)有技術(shù)路徑歸納為三類,這與傳統(tǒng)單一方法形成鮮明對(duì)比:

      • 基于 prompt 的方法(M1):通過(guò)結(jié)構(gòu)化提示和上下文示例,直接引導(dǎo)模型完成標(biāo)準(zhǔn)化、匹配或標(biāo)注等任務(wù),強(qiáng)調(diào)靈活性與低開發(fā)成本。
      • 檢索增強(qiáng)與混合方法(M2):結(jié)合檢索增強(qiáng)生成(RAG)、模型調(diào)優(yōu)(如微調(diào))、小型模型或傳統(tǒng)規(guī)則系統(tǒng),在成本、規(guī)模與穩(wěn)定性之間尋求平衡。
      • 智能體編排方法(M3):讓 LLM 作為協(xié)調(diào)中樞,調(diào)用外部工具和子模型,逐步構(gòu)建復(fù)雜的數(shù)據(jù)處理工作流,探索自動(dòng)化與自主決策的邊界。



      圖 2:LLM 增強(qiáng)的數(shù)據(jù)準(zhǔn)備技術(shù)全景總覽,涵蓋數(shù)據(jù)清洗、數(shù)據(jù)集成和數(shù)據(jù)增強(qiáng)三大任務(wù)及其細(xì)分技術(shù)路線

      代表性工作與系統(tǒng):從理論到工程實(shí)踐

      在具體方法層面,論文梳理了近年來(lái)一批具有鮮明工程導(dǎo)向特征的代表性工作。例如:

      • 在數(shù)據(jù)清洗場(chǎng)景中,CleanAgent 引入了能夠自主規(guī)劃的智能體架構(gòu),通過(guò)調(diào)用 Python 庫(kù)等外部工具動(dòng)態(tài)構(gòu)建清洗工作流。
      • 在數(shù)據(jù)集成領(lǐng)域,Jellyfish 探索了「大模型教小模型」的蒸餾范式,利用 GPT-4 的推理軌跡微調(diào)輕量級(jí)模型,顯著降低了大規(guī)模匹配的成本。
      • 而在數(shù)據(jù)增強(qiáng)方向,Pneuma 則結(jié)合了 RAG(檢索增強(qiáng)生成) 技術(shù),通過(guò)檢索數(shù)據(jù)湖中的相關(guān)表格與文檔,為原始數(shù)據(jù)補(bǔ)充缺失的語(yǔ)義上下文與元數(shù)據(jù)。



      表 1:LLM 增強(qiáng)的數(shù)據(jù)準(zhǔn)備方法技術(shù)概覽

      論文總結(jié)的「技術(shù)版圖式」對(duì)照表(如上方表 1),將不同方法按照技術(shù)路徑(基于 prompt、RAG、智能體等)與任務(wù)環(huán)節(jié)(清洗、集成、增強(qiáng)) 進(jìn)行交叉定位。其核心價(jià)值在于幫助工程團(tuán)隊(duì)進(jìn)行技術(shù)選型:在不同規(guī)模、成本約束與任務(wù)階段下,應(yīng)優(yōu)先考慮哪類技術(shù)路線。

      從該表中,研究團(tuán)隊(duì)提煉出幾條對(duì)工程實(shí)踐極具指導(dǎo)意義的觀察:

      • 基于 prompt 的方法適合小規(guī)模、高復(fù)雜度任務(wù):例如高價(jià)值表格的語(yǔ)義修復(fù)、復(fù)雜實(shí)體歧義消解,但在大規(guī)模場(chǎng)景中成本和一致性難以控制。
      • RAG 與混合系統(tǒng)成為主流工程選擇:通過(guò)檢索、規(guī)則系統(tǒng)或輕量模型分擔(dān)高頻、低難度任務(wù),讓 LLM 專注于「難例」和核心語(yǔ)義決策,實(shí)現(xiàn)更高的整體性價(jià)比。
      • 智能體路線仍處于探索階段:多步工具調(diào)用在復(fù)雜工作流中展現(xiàn)出潛力,但其穩(wěn)定性、調(diào)試成本和結(jié)果可評(píng)估性仍是當(dāng)前的主要瓶頸。

      常用評(píng)估數(shù)據(jù)集與基準(zhǔn)

      除了代表性方法和系統(tǒng),論文還整理了當(dāng)前用于評(píng)估 LLM 數(shù)據(jù)準(zhǔn)備能力的代表性數(shù)據(jù)集與基準(zhǔn)(如下方表 2),為工程團(tuán)隊(duì)和研究者提供了一份「可復(fù)現(xiàn)實(shí)驗(yàn)地圖」。



      表 2:數(shù)據(jù)準(zhǔn)備代表性數(shù)據(jù)集總覽

      從任務(wù)維度看,這些基準(zhǔn)大致覆蓋了三類典型場(chǎng)景:

      • 數(shù)據(jù)清洗(Data Cleaning):常用數(shù)據(jù)集包括 Hospital 和 Flights,用于評(píng)估模型在格式錯(cuò)誤修復(fù)、值標(biāo)準(zhǔn)化和缺失字段補(bǔ)全等任務(wù)中的穩(wěn)定性與準(zhǔn)確性。這類數(shù)據(jù)集通常包含人為注入或真實(shí)采集的噪聲模式,適合測(cè)試模型在結(jié)構(gòu)性錯(cuò)誤下的魯棒性。
      • 數(shù)據(jù)集成(Data Integration):在實(shí)體匹配和跨源對(duì)齊任務(wù)中,WDC Products 和 Amazon-Google Products 等電商類數(shù)據(jù)集被廣泛使用,用于檢驗(yàn)?zāi)P驮诿Q歧義、屬性不一致和多對(duì)多匹配場(chǎng)景下的語(yǔ)義判別能力。
      • 數(shù)據(jù)增強(qiáng)(Data Enrichment):表語(yǔ)義標(biāo)注和列類型識(shí)別任務(wù)中,研究工作常基于 OpenWikiTable、Public BI 等表格語(yǔ)義數(shù)據(jù)集,評(píng)估模型生成元數(shù)據(jù)和語(yǔ)義描述的準(zhǔn)確性與一致性。

      研究團(tuán)隊(duì)指出,當(dāng)前多數(shù)基準(zhǔn)仍以中小規(guī)模表格和結(jié)構(gòu)化數(shù)據(jù)為主,對(duì)于企業(yè)級(jí)數(shù)據(jù)湖、日志流和多模態(tài)數(shù)據(jù)場(chǎng)景的覆蓋仍然有限,這也在一定程度上限制了不同方法在真實(shí)系統(tǒng)中的橫向?qū)Ρ饶芰Α?/p>

      核心洞見(jiàn)、現(xiàn)存挑戰(zhàn)與工程指南

      在對(duì)大量文獻(xiàn)與系統(tǒng)進(jìn)行深入對(duì)比后,研究團(tuán)隊(duì)給出了貫穿全文的核心洞見(jiàn),并清晰地指出了邁向真實(shí)應(yīng)用必須跨越的鴻溝:

      • 工程可落地性優(yōu)先:在真實(shí)系統(tǒng)中,吞吐量、延遲、成本控制和結(jié)果可回溯性,往往比單次任務(wù)的絕對(duì)準(zhǔn)確率更為關(guān)鍵。這意味著追求極致精度的復(fù)雜方法,未必是工程上的最優(yōu)解。
      • 混合架構(gòu)是主流方向:短期內(nèi),LLM 更可能作為「語(yǔ)義中樞」嵌入傳統(tǒng)數(shù)據(jù)管道,與規(guī)則系統(tǒng)、檢索引擎和輕量模型形成協(xié)同的混合架構(gòu),而非完全替代現(xiàn)有基礎(chǔ)設(shè)施。
      • 評(píng)估體系是當(dāng)前瓶頸:不同研究采用的數(shù)據(jù)集、指標(biāo)和任務(wù)定義差異較大,缺乏統(tǒng)一、可復(fù)現(xiàn)的評(píng)估標(biāo)準(zhǔn),嚴(yán)重制約了技術(shù)的橫向比較、迭代與工程選型。

      然而,走向大規(guī)模真實(shí)應(yīng)用,仍面臨明確挑戰(zhàn):推理成本與延遲在大規(guī)模場(chǎng)景下仍顯高昂;穩(wěn)定性與幻覺(jué)問(wèn)題在要求嚴(yán)苛的清洗、匹配任務(wù)中亟待解決;而統(tǒng)一的評(píng)估體系建設(shè)更是任重道遠(yuǎn)。

      因此,綜述指出,更現(xiàn)實(shí)的路徑并非用大模型完全取代現(xiàn)有設(shè)施,而是將其作為 「語(yǔ)義協(xié)調(diào)者」嵌入關(guān)鍵節(jié)點(diǎn)。

      這份綜述為工程團(tuán)隊(duì)提供了一張?jiān)敱M的技術(shù)地圖與選型指南。如果你正在搭建或優(yōu)化企業(yè)級(jí)數(shù)據(jù)平臺(tái),它可以幫你判斷:在哪些環(huán)節(jié)引入大模型擔(dān)任「智能語(yǔ)義層」能帶來(lái)最高性價(jià)比,而在哪些部分,經(jīng)過(guò)驗(yàn)證的傳統(tǒng)規(guī)則系統(tǒng)與數(shù)據(jù)庫(kù)內(nèi)核仍是更可靠、高效的選擇。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      暗戳戳完侯佩岑,暗戳戳田馥甄!咱嫂子,一會(huì)發(fā)彩虹,一會(huì)發(fā)風(fēng)車

      暗戳戳完侯佩岑,暗戳戳田馥甄!咱嫂子,一會(huì)發(fā)彩虹,一會(huì)發(fā)風(fēng)車

      一盅情懷
      2026-02-20 13:06:40
      外媒曝光!英國(guó)《簡(jiǎn)史防務(wù)》公布中國(guó)095型核潛艇衛(wèi)星照,泵噴推進(jìn)系統(tǒng)實(shí)錘了!

      外媒曝光!英國(guó)《簡(jiǎn)史防務(wù)》公布中國(guó)095型核潛艇衛(wèi)星照,泵噴推進(jìn)系統(tǒng)實(shí)錘了!

      軍武速遞
      2026-02-20 19:10:37
      翻車!春晚“真彈幕”騙局?罵春晚發(fā)不出,夸的秒顯,網(wǎng)友當(dāng)傻子

      翻車!春晚“真彈幕”騙局?罵春晚發(fā)不出,夸的秒顯,網(wǎng)友當(dāng)傻子

      戧詞奪理
      2026-02-18 17:43:36
      不要輕易做手術(shù)!醫(yī)生提醒:62歲后,這5類手術(shù)可盡量避免

      不要輕易做手術(shù)!醫(yī)生提醒:62歲后,這5類手術(shù)可盡量避免

      今日養(yǎng)生之道
      2026-02-15 14:14:53
      太陽(yáng)報(bào):圖多爾帶熱刺球員下館子,提振士氣打阿森納

      太陽(yáng)報(bào):圖多爾帶熱刺球員下館子,提振士氣打阿森納

      懂球帝
      2026-02-21 12:39:05
      驚呆!7名中東游客在上海浦東機(jī)場(chǎng)托運(yùn)超500斤行李,購(gòu)物狂潮引關(guān)注

      驚呆!7名中東游客在上海浦東機(jī)場(chǎng)托運(yùn)超500斤行李,購(gòu)物狂潮引關(guān)注

      芭比衣櫥
      2026-02-17 07:44:36
      一家三口春節(jié)返鄉(xiāng)途中突生變故:車輛拋錨,患病兒子離世……之后的事太暖心

      一家三口春節(jié)返鄉(xiāng)途中突生變故:車輛拋錨,患病兒子離世……之后的事太暖心

      臺(tái)州交通廣播
      2026-02-20 12:14:08
      WTA迪拜站:高芙救四賽點(diǎn)仍出局,佩古拉五連勝阿尼西莫娃

      WTA迪拜站:高芙救四賽點(diǎn)仍出局,佩古拉五連勝阿尼西莫娃

      全網(wǎng)球APP
      2026-02-21 12:44:23
      從未打過(guò)仗的文官,一戰(zhàn)為南宋續(xù)命118年,主席稱其“千古一人”

      從未打過(guò)仗的文官,一戰(zhàn)為南宋續(xù)命118年,主席稱其“千古一人”

      鶴羽說(shuō)個(gè)事
      2026-01-23 16:24:27
      我在芬蘭見(jiàn)雇主家暖氣不熱,順手修了,第5天小鎮(zhèn)的人都趕過(guò)來(lái)了

      我在芬蘭見(jiàn)雇主家暖氣不熱,順手修了,第5天小鎮(zhèn)的人都趕過(guò)來(lái)了

      三農(nóng)老歷
      2026-01-30 11:25:43
      1000架殲-20和900架殲-16?英國(guó)智庫(kù):難以戰(zhàn)勝2030年的中國(guó)空軍

      1000架殲-20和900架殲-16?英國(guó)智庫(kù):難以戰(zhàn)勝2030年的中國(guó)空軍

      欽點(diǎn)歷史
      2026-02-20 16:53:54
      楊穎新中式回上海,十萬(wàn)黃金首飾陪小海綿過(guò)年

      楊穎新中式回上海,十萬(wàn)黃金首飾陪小海綿過(guò)年

      何偵愛(ài)體育
      2026-02-19 11:05:49
      2026年春節(jié),中年人集體“減負(fù)”,同學(xué)聚會(huì)朋友圈、春節(jié)都變了

      2026年春節(jié),中年人集體“減負(fù)”,同學(xué)聚會(huì)朋友圈、春節(jié)都變了

      老特有話說(shuō)
      2026-02-20 12:05:37
      齊白石贈(zèng)毛主席一幅老牛畫,飲酒后欲搶回,毛主席:上面有我名字

      齊白石贈(zèng)毛主席一幅老牛畫,飲酒后欲搶回,毛主席:上面有我名字

      歷史龍?jiān)w
      2026-02-18 08:15:07
      32+26+18!錯(cuò)哥5連勝,爆登了!

      32+26+18!錯(cuò)哥5連勝,爆登了!

      貴圈真亂
      2026-02-21 12:13:57
      熱搜第一:降稅了!

      熱搜第一:降稅了!

      啃金融
      2025-12-30 23:09:55
      穩(wěn)居?xùn)|部墊底!步行者遭奇才8人上雙背靠背雙殺 赫夫22分

      穩(wěn)居?xùn)|部墊底!步行者遭奇才8人上雙背靠背雙殺 赫夫22分

      醉臥浮生
      2026-02-21 10:23:44
      美學(xué)者警告:如果美國(guó)武力介入臺(tái)灣問(wèn)題,可能引發(fā)持續(xù)數(shù)年的戰(zhàn)爭(zhēng)并導(dǎo)致美國(guó)數(shù)十萬(wàn)人死亡

      美學(xué)者警告:如果美國(guó)武力介入臺(tái)灣問(wèn)題,可能引發(fā)持續(xù)數(shù)年的戰(zhàn)爭(zhēng)并導(dǎo)致美國(guó)數(shù)十萬(wàn)人死亡

      每日經(jīng)濟(jì)新聞
      2026-02-19 21:45:02
      默克爾或重出江湖?德國(guó)總理通告全球:美國(guó)靠不住,下周將訪華

      默克爾或重出江湖?德國(guó)總理通告全球:美國(guó)靠不住,下周將訪華

      福建平子
      2026-02-21 13:34:52
      俄媒稱K寶若參賽米蘭冬奧肯定輕松奪冠 無(wú)四周跳女子花滑倒退10年

      俄媒稱K寶若參賽米蘭冬奧肯定輕松奪冠 無(wú)四周跳女子花滑倒退10年

      勁爆體壇
      2026-02-21 06:54:19
      2026-02-21 14:23:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12325文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      夫婦撿到裝20多個(gè)紅包帆布袋:4個(gè)孩子7萬(wàn)多的壓歲錢

      頭條要聞

      夫婦撿到裝20多個(gè)紅包帆布袋:4個(gè)孩子7萬(wàn)多的壓歲錢

      體育要聞

      冬奧第一"海王"?一人和13國(guó)選手都有關(guān)系

      娛樂(lè)要聞

      鏢人反超驚蟄無(wú)聲拿下單日票房第二!

      財(cái)經(jīng)要聞

      一覺(jué)醒來(lái),世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來(lái)了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      藝術(shù)
      游戲
      親子
      旅游
      公開課

      藝術(shù)要聞

      史洪生油畫作品

      老任意外泄露重磅消息!《DOOM黑暗時(shí)代》或登NS2

      親子要聞

      假期怎么玩才能不惹爸媽生氣?

      旅游要聞

      可當(dāng)天往返!鄭州周邊適合春節(jié)自駕游的7個(gè)好去處!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版