網易首頁 > 網易號 > 正文申請入駐

生成式AI的兩個問題：“幻覺”與“單一的基準測試”

2025-12-16 11:55:09　來源: 轂底草

河北舉報

分享至

我們介紹了預測式AI的問題，下面重點談談生成式AI的問題。生成式AI的核心任務不再是“預測”，而是“創造”。生成式AI的代表，就是像ChatGPT、DeepSeek這樣的大語言模型。雖然大語言模型和人交流能力非常強，但也很容易“一本正經地胡說八道”。也就是說，它生成的文本語言流暢、邏輯自洽、充滿自信，但其核心內容卻可能是完全虛假的。這種現象在學術界被稱為“幻覺”（Hallucination）。

為什么大模型會產生“幻覺”？這源于其根本的技術原理。與能夠精確檢索信息的數據庫不同，大型語言模型是一個概率性的文本生成器。它通過在數萬億詞元（Token）的龐大語料庫上進行訓練，學習詞語與詞語之間的統計關系。它的任務是預測“下一個最有可能出現的詞是什么”，從而生成一段在語言模式上“看似合理”的文本，而非確保其內容的真實性。事實準確性，從來不是其核心設計目標。

面對生成式AI的“幻覺”問題，學術界和工業界正在探索多種解決方案。這已遠非簡單的模型調優，而是一項復雜的系統性工程。下面，我們來思考一個基本的問題：我們究竟該如何衡量AI的能力？當前，整個AI領域都陷入了一場圍繞基準測試（Benchmark）的激烈競賽。各大公司和研究機構輪番登場，發布者在各項標準化測試中不斷刷分。

但是，基準測試的根本問題在于，它將復雜、多維的現實世界，簡化為了單一、刻板的評分標準。具體來說，絕大多數基準測試只關注模型在特定任務上的表現。例如，主流的自然語言基準測試，注重的主要是自然語言推理、文本蘊含、情感分析、問答和語義相似度判斷等核心語言理解能力，但它們卻完全沒有評估那些在現實世界中更重要、更關乎倫理的維度。例如，模型的輸出是否固化了文化偏見？它輸出的內容是否會對社會穩定造成風險？這些在基準測試中統統是“隱形”的。

此外，當所有開發者都以基準分數為唯一目標時，他們會有意或無意地“為測試而優化”。這就像一個只為應試而學習的學生，他能熟練掌握所有考點和解題技巧，但在真實世界中解決復雜問題的能力卻不堪一擊。AI模型也一樣，它們變得越來越擅長在基準測試中“看起來很美”，但在實際應用中表現不佳。

另外一個值得關注的問題是，許多模型可能已經在其海量的訓練數據中，不知不覺地“見過”了基準測試的題目和答案。這種數據泄露問題讓測試結果變得不再可信，因為模型不是在“推理”，而是在“背誦”。

所以，結論是：我們不應該對基準測試寄予太多希望。衡量一項技術真實價值的唯一標準，是它在真實世界中的表現。我們應該關注那些真正嘗試在專業環境中使用這些AI系統的人，他們從大模型中獲得的真實感受和助益，才是我們衡量大模型的金標準。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.