![]()
這項由J.P.Morgan人工智能研究院主導的研究發(fā)表于2026年2月的arXiv預印本平臺,論文編號為2602.20300v1。有興趣深入了解的讀者可以通過該編號查詢完整論文內容。
當你向ChatGPT或其他AI助手提問時,是否發(fā)現(xiàn)有時它會給出看似合理但實際錯誤的答案?這種現(xiàn)象被稱為"幻覺",就像AI在做白日夢一樣編造信息。J.P.Morgan的研究團隊決定從一個全新角度解決這個問題:既然我們無法完全阻止AI犯錯,那能否通過改變提問方式來降低出錯概率呢?
研究團隊花費大量時間分析了將近37萬個真實用戶提問,這些問題涵蓋了13個不同的問答數(shù)據(jù)集。他們的發(fā)現(xiàn)顛覆了許多人的認知:原來問題本身的"說話方式"會顯著影響AI的可靠性。這就像同一道數(shù)學題,用不同方式提問可能得到截然不同的答案質量。
傳統(tǒng)上,人們認為AI出現(xiàn)幻覺主要是模型本身的缺陷,或者解碼策略有問題。但這項研究證明,問題的表達方式同樣重要。研究團隊從經典語言學理論中汲取靈感,提出了一個大膽的觀點:聽者(包括AI模型)的回應很大程度上會受到問題形式的影響。
研究團隊開發(fā)了一套包含17個維度的問題特征分析系統(tǒng),就像給每個問題做了一次全面的"語言體檢"。這套系統(tǒng)能夠識別問題中的各種語言特征,比如句子結構復雜程度、詞匯稀有度、是否包含代詞指代、是否使用否定句、問題的可回答性以及意圖明確程度等等。
一、問題的"風險地貌":哪些說話方式讓AI更容易犯錯
通過對海量數(shù)據(jù)的分析,研究團隊繪制出了一幅詳細的"風險地貌圖"。這張圖清晰地顯示了不同類型的問題表達方式與AI出錯概率之間的關系,就像天氣預報圖一樣直觀。
研究發(fā)現(xiàn),某些語言特征確實會顯著增加AI產生幻覺的風險。首先是"缺乏具體性"的問題,這類問題就像在茫茫大海中沒有燈塔指引。當你問"告訴我關于特斯拉的信息"時,AI可能不知道你指的是公司、汽車、股票還是那位發(fā)明家本人,這種模糊性會讓AI更容易編造信息。相反,如果你問"總結特斯拉公司2024年第四季度財報的五個要點",問題就變得具體明確,AI出錯的可能性會大大降低。
句子結構復雜性是另一個重要風險因素。復雜的從句嵌套就像俄羅斯套娃一樣,層層包裹讓AI難以準確理解真正的詢問重點。比如"如果試驗成功的話,根據(jù)那份泄露的備忘錄,哪些監(jiān)管機構會首先批準它"這樣的問題,包含了多個條件和修飾成分,增加了AI理解錯誤的可能性。
否定句的使用也會提高風險。人類大腦處理否定信息本身就需要額外的認知資源,AI同樣如此。當問題中包含"不是"、"沒有"、"并非"等否定詞時,AI更容易在邏輯推理中出現(xiàn)偏差。
令人意外的是,一些傳統(tǒng)上被認為會困擾人類理解的語言特征,對AI的影響卻相對較小。比如罕見詞匯、最高級表達、復雜否定等,雖然可能讓人類讀者感到困惑,但AI似乎能夠較好地處理這些情況。這表明人類和AI的"困難點"并不完全相同。
二、什么樣的問題讓AI更可靠
研究同時揭示了哪些問題特征能夠降低AI出錯的風險。意圖明確的問題就像給AI一張清晰的地圖,讓它知道確切的目標在哪里。當你在問題中明確使用"總結"、"比較"、"提取"、"分類"等動詞時,AI就能更準確地理解你的需求。
可回答性是另一個關鍵的保護因素。那些基于現(xiàn)有信息能夠給出明確答案的問題,比如"《路》這本書的作者是誰"或"17×19等于多少",AI幾乎不會出錯。相反,那些需要主觀判斷或預測未來的問題,比如"我應該搬到紐約嗎"或"X股票下個月會崩盤嗎",AI更容易產生不可靠的回答。
有趣的是,研究還發(fā)現(xiàn)句子長度和結構復雜性之間存在微妙的平衡關系。適度的長度和結構復雜性實際上能夠提供更多上下文信息,幫助AI更好地理解問題。這就像烹飪時的調料,太少缺乏味道,太多則會掩蓋本味,適量使用才能達到最佳效果。
三、不同任務類型的風險模式
研究團隊分析了三種不同的任務類型,發(fā)現(xiàn)它們展現(xiàn)出截然不同的風險模式。提取式任務就像從文章中找特定信息,由于有明確的參考材料,AI很少出現(xiàn)幻覺。大多數(shù)這類問題都被歸類為"安全"級別。
選擇題任務介于中等風險水平。這類任務的特點是有干擾選項的存在,AI需要在多個備選答案中做出選擇。雖然有一定的約束性,但干擾項的存在確實會增加AI犯錯的可能性。
抽象式任務的風險最高,這類任務缺乏外部參考材料,完全依賴AI的內部知識儲備。當被要求總結、分析或創(chuàng)造性回答時,AI更容易"天馬行空",產生看似合理但實際錯誤的內容。研究顯示,這類任務中有44.5%被標記為"高風險"。
更有趣的是,研究發(fā)現(xiàn)問題長度與風險之間存在依賴于任務類型的關系。在抽象式任務中,問題越長,AI出錯的概率越高,這種關系呈現(xiàn)出明顯的上升趨勢。而在提取式任務中,問題長度對風險的影響微乎其微,風險水平始終保持在較低水平。
四、語言特征的相互關系網絡
通過深入分析,研究團隊發(fā)現(xiàn)這17個語言特征并非獨立存在,而是形成了復雜的相互關系網絡。這些特征可以大致分為幾個主要群組,每個群組內的特征往往同時出現(xiàn),共同影響AI的表現(xiàn)。
語法復雜性群組包括問題長度、依賴深度、解析樹高度和從句數(shù)量等特征。這些特征高度相關,形成了一個緊密的特征集合。有趣的是,這個群組與AI幻覺風險呈現(xiàn)負相關關系,這意味著適度的語法復雜性實際上能提供更豐富的上下文信息,幫助AI更好地理解問題。
語義基礎群組包括意圖明確性、可回答性和上下文約束等特征。這個群組與較低的幻覺風險密切相關,證實了語義清晰性對AI可靠性的重要作用。
模糊性群組包括缺乏具體性、問題場景不匹配、多義詞和語用特征等。這個群組中的特征經常一起出現(xiàn),共同增加AI產生幻覺的風險。
五、實用的問題優(yōu)化策略
基于這些發(fā)現(xiàn),研究團隊提出了三個簡單但有效的問題優(yōu)化原則。第一個原則是增加消歧約束,具體來說就是在問題中明確時間、地點和實體信息。與其問"告訴我關于Java的信息",不如問"解釋Java編程語言的主要特性"。
第二個原則是明確表達意圖。在問題中使用明確的動詞,比如"總結"、"比較"、"提取"、"驗證"等,讓AI知道你期望什么樣的回答形式。這就像給廚師一份詳細的菜譜,而不是簡單說"做點好吃的"。
第三個原則是預先解決多義性問題。當問題中包含可能有多重含義的詞匯時,要提前進行澄清。比如問"比較Python和Java在Web開發(fā)中的優(yōu)劣",而不是簡單問"Python和Java哪個更好"。
這些策略的應用效果在研究中得到了驗證。通過對高風險問題進行重寫優(yōu)化,可以顯著降低AI產生幻覺的概率。重要的是,這些優(yōu)化策略不需要修改AI模型本身,只需要用戶在提問時稍加注意即可。
六、跨數(shù)據(jù)集的穩(wěn)定性驗證
為了確保研究結果的可靠性,研究團隊采用了"留一數(shù)據(jù)集"的交叉驗證方法。這種方法就像輪流讓每個數(shù)據(jù)集"坐冷板凳",用其余數(shù)據(jù)集訓練模型,然后測試在"坐冷板凳"的數(shù)據(jù)集上的表現(xiàn)。
驗證結果令人鼓舞:所有主要發(fā)現(xiàn)在不同數(shù)據(jù)集上都保持了一致性。缺乏具體性、句子復雜性和問題場景不匹配始終與較高的幻覺風險相關,而可回答性和意圖明確性始終起到保護作用。這種跨數(shù)據(jù)集的穩(wěn)定性表明,研究發(fā)現(xiàn)的"風險地貌"具有普遍適用性,而不僅僅是特定數(shù)據(jù)集的偶然現(xiàn)象。
特別值得注意的是,即使在不同的應用領域和問題類型中,這些語言特征與AI可靠性之間的關系依然保持穩(wěn)定。這為制定通用的問題優(yōu)化指南提供了堅實的基礎。
七、模型校準和預測能力
研究團隊還驗證了他們開發(fā)的風險預測模型的準確性。通過可靠性曲線分析,他們發(fā)現(xiàn)模型能夠很好地校準風險預測,也就是說,當模型預測某個問題有70%的風險時,實際風險確實接近70%。
這種校準能力使得風險預測系統(tǒng)具有實用價值。用戶或系統(tǒng)可以在AI回答問題之前,先評估問題的風險等級,對于高風險問題采取額外的驗證措施,或者引導用戶重新表述問題。
模型的預測能力在不同特征層次上都表現(xiàn)出色。無論是針對單個特征的影響,還是多個特征的組合效應,模型都能提供可靠的風險評估。這為開發(fā)實時的問題質量檢測工具奠定了基礎。
八、領域特異性的有趣發(fā)現(xiàn)
研究中一個令人意外的發(fā)現(xiàn)是領域特異性特征的表現(xiàn)。傳統(tǒng)觀點認為,專業(yè)領域的問題會增加AI出錯的風險,因為這些問題需要專業(yè)知識。然而,研究結果顯示,領域特異性與幻覺風險之間的關系是混合的,很大程度上取決于AI模型對特定領域的熟悉程度。
在AI訓練數(shù)據(jù)中常見的領域,比如計算機科學和數(shù)學,專業(yè)性問題的風險相對較低。而在訓練數(shù)據(jù)中較少涉及的領域,專業(yè)性問題確實會增加風險。這一發(fā)現(xiàn)提醒我們,AI的可靠性不僅取決于問題的表達方式,也與其知識儲備的深度和廣度密切相關。
這個發(fā)現(xiàn)對實際應用具有重要意義。在使用AI處理專業(yè)領域問題時,用戶需要特別注意該領域是否在AI的"舒適區(qū)"內,并相應調整對答案可靠性的期望。
九、未來應用前景
這項研究的成果已經為開發(fā)更智能的AI交互系統(tǒng)鋪平了道路。研究團隊設想的應用場景包括實時問題風險評估、自動問題重寫建議和智能問題路由等功能。
實時風險評估功能就像一個智能的"問題顧問",在用戶提交問題之前就能預測AI回答的可靠性。對于高風險問題,系統(tǒng)可以提醒用戶需要額外驗證,或者建議使用其他信息源進行交叉驗證。
自動問題重寫功能更進一步,它不僅能識別風險,還能主動建議更好的表達方式。比如,當用戶輸入模糊的問題時,系統(tǒng)可以建議幾種更具體、更明確的表達方式供用戶選擇。
智能問題路由功能可以根據(jù)問題的特征和風險等級,將其分配給最適合的處理方式。低風險問題可以直接交給AI處理,中等風險問題可能需要檢索增強,而高風險問題可能需要人工審核或者引導用戶提供更多上下文信息。
說到底,這項研究揭示了一個簡單而深刻的道理:與AI對話的藝術不僅僅在于擁有正確的信息,更在于用正確的方式提出問題。就像與人交流一樣,清晰、具體、有目的的表達總是能獲得更好的回應。隨著AI技術的不斷發(fā)展,掌握這種"提問的藝術"將成為每個人都需要學習的重要技能。這項研究不僅為我們理解AI的工作機制提供了新視角,更為我們在AI時代的有效溝通提供了實用指南。通過簡單地改變我們的提問方式,我們就能顯著提高AI助手的可靠性,讓人機協(xié)作變得更加高效和可信。研究團隊的工作證明,有時候解決復雜技術問題的鑰匙,竟然就藏在我們日常語言使用的細節(jié)之中。
Q&A
Q1:什么語言特征會讓AI更容易產生錯誤回答?
A:主要有三類風險特征。首先是缺乏具體性,比如問"告訴我關于特斯拉的信息"而不明確指公司、汽車還是發(fā)明家。其次是復雜的句子結構,包含多層嵌套從句會讓AI難以理解重點。第三是使用否定句,"不是"、"沒有"等否定詞會增加AI邏輯推理出錯的可能性。
Q2:如何通過改變提問方式來提高AI回答的準確性?
A:有三個簡單有效的原則。首先是增加具體約束,明確時間、地點、實體信息,比如問"總結特斯拉公司2024年第四季度財報要點"而不是泛泛詢問。其次是明確表達意圖,使用"總結"、"比較"、"提取"等明確動詞。最后是預先解決多義性,當詞匯可能有多重含義時要提前澄清。
Q3:不同類型的AI任務哪種最容易出錯?
A:抽象式任務風險最高,有44.5%被標記為高風險,因為缺乏外部參考材料,完全依賴AI內部知識。提取式任務風險最低,因為有明確參考材料支撐。選擇題任務介于中等風險水平,雖有約束但干擾選項會增加出錯可能。問題長度在抽象式任務中會顯著增加風險,而在提取式任務中影響很小。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.