網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI愛(ài)胡說(shuō)八道？那就為數(shù)據(jù)“降噪”

2026-01-30 16:04:27　來(lái)源: 數(shù)字力場(chǎng)

四川舉報(bào)

分享至

文 | 佘宗明

這年頭，比冷不丁梆梆就兩拳掌門人張八旦更能“一本正經(jīng)地胡說(shuō)八道”的，是AI。

去年初，DeepSeek火了后，就有篇文章在網(wǎng)上熱傳，題目是“DeepSeek的胡編亂造，正在淹沒(méi)中文互聯(lián)網(wǎng)”。

愛(ài)胡編亂造的，不只是DeepSeek。如果說(shuō)幻覺(jué)是病，那它稱得上是大模型的通病。

前不久，香港大學(xué)人工智能評(píng)估實(shí)驗(yàn)室（AIEL）就發(fā)布報(bào)告稱，大模型普遍存在“嚴(yán)守指令但易虛構(gòu)事實(shí)”傾向，事實(shí)可靠性仍是全球大模型共同的短板。

更早之前，去年2月，清華大學(xué)新媒沈陽(yáng)團(tuán)隊(duì)的報(bào)告指出，市場(chǎng)上多個(gè)熱門大模型在事實(shí)性幻覺(jué)評(píng)測(cè)中幻覺(jué)率超過(guò)19%。

可以說(shuō)，生成式AI將互聯(lián)網(wǎng)時(shí)代的“信息過(guò)載，事實(shí)稀缺”情形進(jìn)行了幾何級(jí)放大。

那怎么讓AI離加冕“事實(shí)派”近些，離“滿嘴跑火車”遠(yuǎn)些？

打破大模型“GIGO（即垃圾進(jìn)Garbage In，垃圾出Garbage Out）”魔咒，至關(guān)重要。

究其前提，就是要回歸“Clean Data > Big Model（高質(zhì)量數(shù)據(jù)優(yōu)于大模型）”的邏輯基點(diǎn)。

01

為什么AI給出的答案總是“聽(tīng)著像真的，其實(shí)是編的”？它怎么就這么愛(ài)胡編亂造？

去年9月，OpenAI在論文《為什么語(yǔ)言模型會(huì)產(chǎn)生幻覺(jué)》中對(duì)此做出了分析，我的總結(jié)是：因?yàn)榇笳Z(yǔ)言模型（LLM）“本性難移”。

大模型本質(zhì)上是個(gè)“隨機(jī)鸚鵡”，運(yùn)行底層邏輯是“下一個(gè)詞元預(yù)測(cè)”（Next Token Prediction），這決定了，它是個(gè)貝葉斯預(yù)測(cè)大師，而非事實(shí)考證者。

其長(zhǎng)處在于，能根據(jù)高頻統(tǒng)計(jì)關(guān)聯(lián)對(duì)強(qiáng)規(guī)律性知識(shí)（如語(yǔ)法規(guī)則、編程程式、基礎(chǔ)常識(shí)）進(jìn)行快速“復(fù)現(xiàn)”。打個(gè)比方，你問(wèn)它“法國(guó)首都是哪里”，它會(huì)因?yàn)椤胺▏?guó)首都巴黎”幾個(gè)字在海量文本中以固定搭配高頻出現(xiàn)，迅速回答“巴黎”。

問(wèn)題是，世界上絕大多數(shù)知識(shí)都是出現(xiàn)頻次低的“長(zhǎng)尾事實(shí)”（Long-tail Facts），如數(shù)字力場(chǎng)公眾號(hào)創(chuàng)立時(shí)間，就不是規(guī)律性知識(shí)。按圖靈獎(jiǎng)得主楊立昆的說(shuō)法，大模型是高級(jí)復(fù)讀機(jī)，“擅長(zhǎng)模仿人類對(duì)話模式，卻不懂背后的邏輯與含義。”碰到這類問(wèn)題，它經(jīng)常蒙圈。

由于訓(xùn)練目標(biāo)是“最大化生成文本序列的聯(lián)合概率”，不包含任何關(guān)于真實(shí)性的直接約束，對(duì)于不懂的問(wèn)題，它傾向于編個(gè)像樣的，而非坦承其短地說(shuō)“我不知道”。

大模型幻覺(jué)問(wèn)題連著的，是訓(xùn)練機(jī)制問(wèn)題，更是數(shù)據(jù)質(zhì)量問(wèn)題——“真數(shù)據(jù)不夠，臟數(shù)據(jù)來(lái)湊”之下，必然會(huì)出現(xiàn)上游水源（輸入語(yǔ)料）污染導(dǎo)致下游水流（輸出結(jié)果）渾濁的情況。

都知道，大模型的三大要素是算法、算力和數(shù)據(jù)，數(shù)據(jù)（語(yǔ)料）是源頭活水。前兩者可以靠?jī)?yōu)化，后者主要靠積累。

隨著可用真實(shí)數(shù)據(jù)漸次枯竭，大模型如今普遍患上了高質(zhì)量數(shù)據(jù)饑渴癥。

不少大模型用合成數(shù)據(jù)解渴，想靠AI生成內(nèi)容來(lái)推倒自己撞上的那堵“數(shù)據(jù)墻”。

但這很可能導(dǎo)致“模型崩潰（Model Collapse）”——2024年7月，《自然》雜志就對(duì)此發(fā)出預(yù)警，稱隨著模型繼續(xù)在模型本身生成的越來(lái)越不準(zhǔn)確的文本上進(jìn)行訓(xùn)練，這類遞歸循環(huán)會(huì)導(dǎo)致模型退化，AI很可能“在短短幾代內(nèi)將原始內(nèi)容迭代成無(wú)法挽回的胡言亂語(yǔ)?！?/p>

結(jié)果就是，AI“訓(xùn)”AI，越訓(xùn)越傻。

02

在幻覺(jué)問(wèn)題上，“機(jī)器學(xué)習(xí)之父”邁克爾·歐文·喬丹曾表示，“單純依靠暴力計(jì)算（Brute Force）無(wú)法解決智能的根本問(wèn)題，反而可能因?yàn)閿?shù)據(jù)噪聲而產(chǎn)生系統(tǒng)性風(fēng)險(xiǎn)?！?/p>

誠(chéng)如此言，大模型幻覺(jué)帶來(lái)的破壞力不容小覷，一個(gè)程序bug也許會(huì)導(dǎo)致系統(tǒng)崩潰，但那是顯性的，大模型幻覺(jué)則頗具隱蔽性，隱蔽性會(huì)強(qiáng)化其危害性。

首先，在醫(yī)療診斷、法律咨詢、金融決策等邊際容錯(cuò)率極低的領(lǐng)域，出現(xiàn)任何幻覺(jué)，都可能釀成嚴(yán)重后果，導(dǎo)致生命財(cái)產(chǎn)損失。

其次，AI胡編亂造容易導(dǎo)致錯(cuò)誤信息謬種流傳，帶來(lái)社會(huì)空間信息污染，還消耗大眾的技術(shù)信任度，拉低許多人的接受意愿。

還有，流沙上沒(méi)法建大廈，幻覺(jué)問(wèn)題若得不到有效控制，大模型的應(yīng)用落地也會(huì)受影響。

大模型的進(jìn)化形態(tài)，是成為能夠主動(dòng)執(zhí)行復(fù)雜任務(wù)的智能體（Agent），但前置條件是可靠。畢竟，誰(shuí)也無(wú)法安心委托那些可能會(huì)憑空捏造聯(lián)系人信息、杜撰財(cái)報(bào)數(shù)據(jù)的AI助理，來(lái)處理重要事務(wù)。

時(shí)至今日，幻覺(jué)已從技術(shù)瑕疵演變?yōu)锳I產(chǎn)業(yè)化應(yīng)用的現(xiàn)實(shí)掣肘。

當(dāng)此之時(shí)，正如芯片產(chǎn)業(yè)已走出“兆赫茲競(jìng)賽”迷思那樣，AI行業(yè)也該跳出“數(shù)據(jù)規(guī)模崇拜”和“參數(shù)軍備競(jìng)賽熱潮”。

從百億到千億再到萬(wàn)億，過(guò)去幾年，大模型領(lǐng)域的參數(shù)規(guī)模持續(xù)被刷新，仿佛數(shù)據(jù)量越大模型性能就越好。這在初期確實(shí)成立，參數(shù)也并非不重要，但隨著“更大的模型=更強(qiáng)的智能”等式在邊際效用遞減中失效，回歸數(shù)據(jù)質(zhì)量重要性高于數(shù)據(jù)集規(guī)模的理性判斷，正當(dāng)其時(shí)。中國(guó)最大的數(shù)據(jù)智能服務(wù)商明略科技提出“Clean Data > Big Model”，就意在于此。

要知道，現(xiàn)在AI行業(yè)已進(jìn)入產(chǎn)業(yè)化落地階段，用戶（特別是企業(yè)級(jí)用戶）在意的不是參數(shù)數(shù)字，而是模型在實(shí)際任務(wù)中表現(xiàn)出的可用性、可靠性——他們需要的是“可信AI”。

而控制幻覺(jué)，就是“可信AI”價(jià)值凸顯期的決定性競(jìng)爭(zhēng)維度。數(shù)據(jù)可信度也已取代數(shù)據(jù)集規(guī)模，成為大模型的核心競(jìng)爭(zhēng)力。

03

正因來(lái)得普遍又極具危害，大模型幻覺(jué)不是個(gè)可以打個(gè)補(bǔ)丁的小bug，而是需要從系統(tǒng)層面去革新重構(gòu)的根本性問(wèn)題。

知名AI科學(xué)家、斯坦福大學(xué)教授吳恩達(dá)提出的“以數(shù)據(jù)為中心的AI（Data-Centric AI）”理念，就來(lái)得頗具針對(duì)性。他認(rèn)為，AI模型開(kāi)發(fā)過(guò)程中，業(yè)界過(guò)分關(guān)注模型架構(gòu)的優(yōu)化，卻忽視了系統(tǒng)性地工程化數(shù)據(jù)質(zhì)量?！叭绻?0%的機(jī)器學(xué)習(xí)工作是數(shù)據(jù)準(zhǔn)備，那么確保數(shù)據(jù)質(zhì)量應(yīng)該是團(tuán)隊(duì)最重要的工作?！?/p>

“以數(shù)據(jù)為中心的AI”跟傳統(tǒng)的AI模型搭建范式“以模型為中心的AI（Model-centric AI）”有別，后者主要工作是改進(jìn)模型參數(shù)，前者主要目標(biāo)則是改善數(shù)據(jù)質(zhì)量——“AI教母”李飛飛、AI大神安德烈·卡帕斯此前做的，其實(shí)就與此相關(guān)。

明略科技基于“Clean Data > Big Model”技術(shù)哲學(xué)系統(tǒng)性地發(fā)掘聚合跨領(lǐng)域的高可信信源，推出目前全球范圍內(nèi)最全面、最權(quán)威、最結(jié)構(gòu)化數(shù)據(jù)源知識(shí)庫(kù)——First Data，也與之呼應(yīng)。

需要看到的是，對(duì)很多企業(yè)來(lái)說(shuō)，獲取干凈、權(quán)威、實(shí)時(shí)的數(shù)據(jù)比訓(xùn)練一個(gè)模型要難得多。

畢竟，大量高價(jià)值的權(quán)威數(shù)據(jù)“沉睡”在政府網(wǎng)站深處、PDF報(bào)告或復(fù)雜的交互式圖表中，由于API接口眾多、格式各異、標(biāo)準(zhǔn)不一，很難被機(jī)器自動(dòng)解析。

First Data擬收錄全球1000余個(gè)權(quán)威數(shù)據(jù)源（涵蓋國(guó)際組織、各國(guó)政府、頂級(jí)學(xué)術(shù)機(jī)構(gòu)），將分散、非標(biāo)、難復(fù)用的原始內(nèi)容，轉(zhuǎn)化為可追溯、可驗(yàn)證、可引用的核心事實(shí)，不啻為大模型行業(yè)搭建了“可信數(shù)據(jù)源基礎(chǔ)設(shè)施”，它不直接提供“數(shù)據(jù)”，但能解決“數(shù)據(jù)去哪找”問(wèn)題。

《自然》雜志提到，提升模型準(zhǔn)確性的重要途徑是，訪問(wèn)原始數(shù)據(jù)源并在遞歸訓(xùn)練的模型中仔細(xì)過(guò)濾數(shù)據(jù)。

而First Data堅(jiān)持100% URL驗(yàn)證標(biāo)準(zhǔn)，每個(gè)數(shù)據(jù)源都有完整文檔，確保數(shù)據(jù)源真實(shí)可用。這直接回應(yīng)了AI安全倫理范疇的“數(shù)據(jù)溯源（Data Provenance）”關(guān)切，能從源頭阻斷“幻覺(jué)引用”的可能性。

舉個(gè)例子，用戶問(wèn)“2025年前三季度中國(guó)AI產(chǎn)業(yè)產(chǎn)值是多少？”通常情況下，AI會(huì)回憶訓(xùn)練數(shù)據(jù)再生成像樣答案；有了數(shù)據(jù)索引導(dǎo)航工具First Data后，AI則可以指引用戶前往權(quán)威信源處獲取相關(guān)數(shù)據(jù)——在此過(guò)程中，F(xiàn)irst Data會(huì)充分顧及數(shù)據(jù)調(diào)用與數(shù)據(jù)跨境傳輸安全，推薦合規(guī)可靠的權(quán)威網(wǎng)站，并提供文件獲取的逐步導(dǎo)航索引。

First Data的亮點(diǎn)不只是強(qiáng)調(diào)“數(shù)據(jù)溯源”，還有“權(quán)重分級(jí)”——那些數(shù)據(jù)源包含了訪問(wèn)鏈接并標(biāo)注了API接口信息、更新頻率、覆蓋范圍，更引入了“六大權(quán)威等級(jí)分類”的創(chuàng)新做法。

這無(wú)疑是有的放矢：信源跟信源之間也有可信度差異。按權(quán)威程度分級(jí)，可以凸顯高可信信源的優(yōu)先序。

就拿查詢 “發(fā)展中國(guó)家經(jīng)濟(jì)數(shù)據(jù)” 來(lái)講，F(xiàn)irst Data會(huì)優(yōu)先推薦AI去世界銀行官網(wǎng)而非商業(yè)資訊公司報(bào)告找數(shù)據(jù)，讓AI盡可能避免低質(zhì)量信息干擾。

舍此之外，開(kāi)放開(kāi)源也是First Data的醒目看點(diǎn)。1月28日，明略科技宣布正式開(kāi)源First Data。這顯然是盤大棋。

從商業(yè)競(jìng)爭(zhēng)角度看，此舉似乎有些“不值當(dāng)”，但若是從深遠(yuǎn)層面看，以目前最寬松的開(kāi)源協(xié)議MIT協(xié)議開(kāi)源，是利他以自利。

一方面，這能豐富權(quán)威數(shù)據(jù)庫(kù)。為了確保數(shù)據(jù)可信，Google Knowledge Graph此前通過(guò)語(yǔ)義搜索和NLP技術(shù)持續(xù)改進(jìn)信息準(zhǔn)確性，F(xiàn)irst Data則能走得更遠(yuǎn)——依托開(kāi)源社區(qū)協(xié)作跟透明溯源機(jī)制，它可以建立“分布式數(shù)據(jù)源賬本”。當(dāng)全球數(shù)據(jù)科學(xué)家都能參與審核、補(bǔ)充數(shù)據(jù)源時(shí)，其可信度會(huì)遠(yuǎn)高于單一企業(yè)維護(hù)的數(shù)據(jù)庫(kù)。

另一方面，這能帶來(lái)技術(shù)普惠。First Data開(kāi)源就像針對(duì)模型幻覺(jué)流行病的數(shù)字疫苗接種計(jì)劃，讓AI行業(yè)切實(shí)受益。

04

毫無(wú)疑問(wèn)，在用戶“苦AI胡編亂造久矣”的今天，AI行業(yè)需要可信數(shù)據(jù)底座。

而First Data建立的結(jié)構(gòu)化元數(shù)據(jù)體系，就以可靠數(shù)據(jù)為錨，為整個(gè)行業(yè)提供了對(duì)抗“模型崩潰”的參照系，也為企業(yè)級(jí)RAG應(yīng)用帶來(lái)了權(quán)威數(shù)據(jù)層的即插即用解決方案。

對(duì)很多企業(yè)而言，它們無(wú)需自己去搭建數(shù)據(jù)基礎(chǔ)設(shè)施，可以直接利用First Data構(gòu)建的權(quán)威數(shù)據(jù)源網(wǎng)絡(luò)，搭建可信的AI應(yīng)用原型。

可以預(yù)見(jiàn)，有高質(zhì)量數(shù)據(jù)加持，很多AI產(chǎn)品也能在降低幻覺(jué)中提升“辦實(shí)事”能力，實(shí)現(xiàn)從ChatBot向智能代理的轉(zhuǎn)變，伴隨而至的，還有用戶信任的提升：當(dāng)AI推薦醫(yī)療方案引用的是權(quán)威醫(yī)學(xué)數(shù)據(jù)庫(kù)，預(yù)測(cè)經(jīng)濟(jì)走勢(shì)依據(jù)是官方結(jié)構(gòu)化數(shù)據(jù)時(shí)，大家自然更愿意采信。

著眼長(zhǎng)遠(yuǎn)看，F(xiàn)irst Data開(kāi)源的價(jià)值，還能朝填補(bǔ)全球數(shù)據(jù)源目錄拼圖中的“中國(guó)缺角”、為全球AI基礎(chǔ)設(shè)施打造貢獻(xiàn)“中國(guó)力量”兩個(gè)層面延伸。

長(zhǎng)期以來(lái)，國(guó)外大模型由于缺乏一手、權(quán)威、結(jié)構(gòu)化的數(shù)據(jù)源，在被問(wèn)到中國(guó)經(jīng)濟(jì)相關(guān)問(wèn)題時(shí)，輸出的答案經(jīng)常并不標(biāo)準(zhǔn)，使得很多人只能霧里看花、產(chǎn)生認(rèn)知偏差。

First Data項(xiàng)目代碼庫(kù)雖然本身不存儲(chǔ)、不包含、不直接提供任何原始數(shù)據(jù)文件，但收錄了公開(kāi)權(quán)威數(shù)據(jù)源，還采用了中英雙語(yǔ)元數(shù)據(jù)設(shè)計(jì)，可提供相關(guān)數(shù)據(jù)的推薦查詢路徑。

這么一來(lái)，用戶通過(guò)大模型的指引，在權(quán)威信源處按圖索驥獲得可信數(shù)據(jù)后，勢(shì)必能夠提升全球使用者及AI模型對(duì)中國(guó)經(jīng)濟(jì)社會(huì)發(fā)展的理解深度，讓更多人能直接準(zhǔn)確地了解到中國(guó)經(jīng)濟(jì)的真實(shí)脈動(dòng)。

跟西方科技巨頭傾向于構(gòu)建封閉的數(shù)據(jù)護(hù)城河不同，中國(guó)企業(yè)將全球最全權(quán)威數(shù)據(jù)源知識(shí)庫(kù)開(kāi)源，就如同對(duì)“中國(guó)開(kāi)源VS美國(guó)閉源”模型發(fā)展路徑里“中國(guó)路線”的致敬，也體現(xiàn)出了鮮明的價(jià)值取向：AI時(shí)代，數(shù)據(jù)可以是公共的資源，而非壟斷的籌碼。

從Linux到TCP/IP，歷史表明，真正的數(shù)字基礎(chǔ)設(shè)施都是開(kāi)源的，只有開(kāi)源，才能形成生態(tài)，只有形成生態(tài)，才能定義標(biāo)準(zhǔn)。中國(guó)企業(yè)以開(kāi)源方式為全球AI行業(yè)完善貢獻(xiàn)“中國(guó)維度”的數(shù)據(jù)標(biāo)準(zhǔn)，也是在把握主動(dòng)權(quán)。

而這些價(jià)值的要義，就在于“真實(shí)”二字。

在今天，信息嚴(yán)重過(guò)載，事實(shí)極度稀缺，已構(gòu)成了我們所處的信息環(huán)境。我們比任何時(shí)候都更需要可靠數(shù)據(jù)錨點(diǎn)，確保AI不是胡編亂造，而是言必有據(jù)。

First Data給出的解法便是：若AI愛(ài)胡編亂造，那就為數(shù)據(jù)“降噪”。到頭來(lái)，其開(kāi)源的深層價(jià)值，與其說(shuō)是提供了大量權(quán)威數(shù)據(jù)源的工具箱，不如說(shuō)是申明了某種技術(shù)倫理——

AI的核心價(jià)值點(diǎn)，不在能說(shuō)得多像，在能說(shuō)得多準(zhǔn)；不在能生成多少內(nèi)容，而在能創(chuàng)造多少可信價(jià)值。故而，數(shù)據(jù)可信度優(yōu)于數(shù)據(jù)規(guī)模，信息可靠性重過(guò)生成流暢性。

真善美，真是善的前提。AI向善，先要向真。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.