我們介紹了預測式AI的問題,下面重點談談生成式AI的問題。生成式AI的核心任務不再是“預測”,而是“創造”。生成式AI的代表,就是像ChatGPT、DeepSeek這樣的大語言模型。雖然大語言模型和人交流能力非常強,但也很容易“一本正經地胡說八道”。也就是說,它生成的文本語言流暢、邏輯自洽、充滿自信,但其核心內容卻可能是完全虛假的。這種現象在學術界被稱為“幻覺”(Hallucination)。
為什么大模型會產生“幻覺”?這源于其根本的技術原理。與能夠精確檢索信息的數據庫不同,大型語言模型是一個概率性的文本生成器。它通過在數萬億詞元(Token)的龐大語料庫上進行訓練,學習詞語與詞語之間的統計關系。它的任務是預測“下一個最有可能出現的詞是什么”,從而生成一段在語言模式上“看似合理”的文本,而非確保其內容的真實性。事實準確性,從來不是其核心設計目標。
面對生成式AI的“幻覺”問題,學術界和工業界正在探索多種解決方案。這已遠非簡單的模型調優,而是一項復雜的系統性工程。下面,我們來思考一個基本的問題:我們究竟該如何衡量AI的能力?當前,整個AI領域都陷入了一場圍繞基準測試(Benchmark)的激烈競賽。各大公司和研究機構輪番登場,發布者在各項標準化測試中不斷刷分。
但是,基準測試的根本問題在于,它將復雜、多維的現實世界,簡化為了單一、刻板的評分標準。具體來說,絕大多數基準測試只關注模型在特定任務上的表現。例如,主流的自然語言基準測試,注重的主要是自然語言推理、文本蘊含、情感分析、問答和語義相似度判斷等核心語言理解能力,但它們卻完全沒有評估那些在現實世界中更重要、更關乎倫理的維度。例如,模型的輸出是否固化了文化偏見?它輸出的內容是否會對社會穩定造成風險?這些在基準測試中統統是“隱形”的。
![]()
此外,當所有開發者都以基準分數為唯一目標時,他們會有意或無意地“為測試而優化”。這就像一個只為應試而學習的學生,他能熟練掌握所有考點和解題技巧,但在真實世界中解決復雜問題的能力卻不堪一擊。AI模型也一樣,它們變得越來越擅長在基準測試中“看起來很美”,但在實際應用中表現不佳。
另外一個值得關注的問題是,許多模型可能已經在其海量的訓練數據中,不知不覺地“見過”了基準測試的題目和答案。這種數據泄露問題讓測試結果變得不再可信,因為模型不是在“推理”,而是在“背誦”。
所以,結論是:我們不應該對基準測試寄予太多希望。衡量一項技術真實價值的唯一標準,是它在真實世界中的表現。我們應該關注那些真正嘗試在專業環境中使用這些AI系統的人,他們從大模型中獲得的真實感受和助益,才是我們衡量大模型的金標準。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.