<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI愛胡說八道?那就為數據“降噪”

      0
      分享至



      文 | 佘宗明

      這年頭,比冷不丁梆梆就兩拳掌門人張八旦更能“一本正經地胡說八道”的,是AI。

      去年初,DeepSeek火了后,就有篇文章在網上熱傳,題目是“DeepSeek的胡編亂造,正在淹沒中文互聯網”。

      愛胡編亂造的,不只是DeepSeek。如果說幻覺是病,那它稱得上是大模型的通病。

      前不久,香港大學人工智能評估實驗室(AIEL)就發布報告稱,大模型普遍存在“嚴守指令但易虛構事實”傾向,事實可靠性仍是全球大模型共同的短板。

      更早之前,去年2月,清華大學新媒沈陽團隊的報告指出,市場上多個熱門大模型在事實性幻覺評測中幻覺率超過19%。

      可以說,生成式AI將互聯網時代的“信息過載,事實稀缺”情形進行了幾何級放大。

      那怎么讓AI離加冕“事實派”近些,離“滿嘴跑火車”遠些?

      打破大模型“GIGO(即垃圾進Garbage In,垃圾出Garbage Out)”魔咒,至關重要。

      究其前提,就是要回歸“Clean Data > Big Model(高質量數據優于大模型)”的邏輯基點。

      01

      為什么AI給出的答案總是“聽著像真的,其實是編的”?它怎么就這么愛胡編亂造?

      去年9月,OpenAI在論文《為什么語言模型會產生幻覺》中對此做出了分析,我的總結是:因為大語言模型(LLM)“本性難移”。

      大模型本質上是個“隨機鸚鵡”,運行底層邏輯是“下一個詞元預測”(Next Token Prediction),這決定了,它是個貝葉斯預測大師,而非事實考證者。

      其長處在于,能根據高頻統計關聯對強規律性知識(如語法規則、編程程式、基礎常識)進行快速“復現”。打個比方,你問它“法國首都是哪里”,它會因為“法國首都巴黎”幾個字在海量文本中以固定搭配高頻出現,迅速回答“巴黎”。

      問題是,世界上絕大多數知識都是出現頻次低的“長尾事實”(Long-tail Facts),如數字力場公眾號創立時間,就不是規律性知識。按圖靈獎得主楊立昆的說法,大模型是高級復讀機,“擅長模仿人類對話模式,卻不懂背后的邏輯與含義?!迸龅竭@類問題,它經常蒙圈。

      由于訓練目標是“最大化生成文本序列的聯合概率”,不包含任何關于真實性的直接約束,對于不懂的問題,它傾向于編個像樣的,而非坦承其短地說“我不知道”。

      大模型幻覺問題連著的,是訓練機制問題,更是數據質量問題——“真數據不夠,臟數據來湊”之下,必然會出現上游水源(輸入語料)污染導致下游水流(輸出結果)渾濁的情況。



      都知道,大模型的三大要素是算法、算力和數據,數據(語料)是源頭活水。前兩者可以靠優化,后者主要靠積累。

      隨著可用真實數據漸次枯竭,大模型如今普遍患上了高質量數據饑渴癥。

      不少大模型用合成數據解渴,想靠AI生成內容來推倒自己撞上的那堵“數據墻”。

      但這很可能導致“模型崩潰(Model Collapse)”——2024年7月,《自然》雜志就對此發出預警,稱隨著模型繼續在模型本身生成的越來越不準確的文本上進行訓練,這類遞歸循環會導致模型退化,AI很可能“在短短幾代內將原始內容迭代成無法挽回的胡言亂語?!?/p>

      結果就是,AI“訓”AI,越訓越傻。

      02

      在幻覺問題上,“機器學習之父”邁克爾·歐文·喬丹曾表示,“單純依靠暴力計算(Brute Force)無法解決智能的根本問題,反而可能因為數據噪聲而產生系統性風險?!?/p>

      誠如此言,大模型幻覺帶來的破壞力不容小覷,一個程序bug也許會導致系統崩潰,但那是顯性的,大模型幻覺則頗具隱蔽性,隱蔽性會強化其危害性。

      首先,在醫療診斷、法律咨詢、金融決策等邊際容錯率極低的領域,出現任何幻覺,都可能釀成嚴重后果,導致生命財產損失。

      其次,AI胡編亂造容易導致錯誤信息謬種流傳,帶來社會空間信息污染,還消耗大眾的技術信任度,拉低許多人的接受意愿。

      還有,流沙上沒法建大廈,幻覺問題若得不到有效控制,大模型的應用落地也會受影響。

      大模型的進化形態,是成為能夠主動執行復雜任務的智能體(Agent),但前置條件是可靠。畢竟,誰也無法安心委托那些可能會憑空捏造聯系人信息、杜撰財報數據的AI助理,來處理重要事務。



      時至今日,幻覺已從技術瑕疵演變為AI產業化應用的現實掣肘。

      當此之時,正如芯片產業已走出“兆赫茲競賽”迷思那樣,AI行業也該跳出“數據規模崇拜”和“參數軍備競賽熱潮”。

      從百億到千億再到萬億,過去幾年,大模型領域的參數規模持續被刷新,仿佛數據量越大模型性能就越好。這在初期確實成立,參數也并非不重要,但隨著“更大的模型=更強的智能”等式在邊際效用遞減中失效,回歸數據質量重要性高于數據集規模的理性判斷,正當其時。中國最大的數據智能服務商明略科技提出“Clean Data > Big Model”,就意在于此。

      要知道,現在AI行業已進入產業化落地階段,用戶(特別是企業級用戶)在意的不是參數數字,而是模型在實際任務中表現出的可用性、可靠性——他們需要的是“可信AI”。

      而控制幻覺,就是“可信AI”價值凸顯期的決定性競爭維度。數據可信度也已取代數據集規模,成為大模型的核心競爭力。

      03

      正因來得普遍又極具危害,大模型幻覺不是個可以打個補丁的小bug,而是需要從系統層面去革新重構的根本性問題。

      知名AI科學家、斯坦福大學教授吳恩達提出的“以數據為中心的AI(Data-Centric AI)”理念,就來得頗具針對性。他認為,AI模型開發過程中,業界過分關注模型架構的優化,卻忽視了系統性地工程化數據質量。“如果80%的機器學習工作是數據準備,那么確保數據質量應該是團隊最重要的工作?!?/p>

      “以數據為中心的AI”跟傳統的AI模型搭建范式“以模型為中心的AI(Model-centric AI)”有別,后者主要工作是改進模型參數,前者主要目標則是改善數據質量——“AI教母”李飛飛、AI大神安德烈·卡帕斯此前做的,其實就與此相關。



      明略科技基于“Clean Data > Big Model”技術哲學系統性地發掘聚合跨領域的高可信信源,推出目前全球范圍內最全面、最權威、最結構化數據源知識庫——First Data,也與之呼應。

      需要看到的是,對很多企業來說,獲取干凈、權威、實時的數據比訓練一個模型要難得多。

      畢竟,大量高價值的權威數據“沉睡”在政府網站深處、PDF報告或復雜的交互式圖表中,由于API接口眾多、格式各異、標準不一,很難被機器自動解析。

      First Data擬收錄全球1000余個權威數據源(涵蓋國際組織、各國政府、頂級學術機構),將分散、非標、難復用的原始內容,轉化為可追溯、可驗證、可引用的核心事實,不啻為大模型行業搭建了“可信數據源基礎設施”,它不直接提供“數據”,但能解決“數據去哪找”問題。

      《自然》雜志提到,提升模型準確性的重要途徑是,訪問原始數據源并在遞歸訓練的模型中仔細過濾數據。

      而First Data堅持100% URL驗證標準,每個數據源都有完整文檔,確保數據源真實可用。這直接回應了AI安全倫理范疇的“數據溯源(Data Provenance)”關切,能從源頭阻斷“幻覺引用”的可能性。

      舉個例子,用戶問“2025年前三季度中國AI產業產值是多少?”通常情況下,AI會回憶訓練數據再生成像樣答案;有了數據索引導航工具First Data后,AI則可以指引用戶前往權威信源處獲取相關數據——在此過程中,First Data會充分顧及數據調用與數據跨境傳輸安全,推薦合規可靠的權威網站,并提供文件獲取的逐步導航索引。

      First Data的亮點不只是強調“數據溯源”,還有“權重分級”——那些數據源包含了訪問鏈接并標注了API接口信息、更新頻率、覆蓋范圍,更引入了“六大權威等級分類”的創新做法。

      這無疑是有的放矢:信源跟信源之間也有可信度差異。按權威程度分級,可以凸顯高可信信源的優先序。

      就拿查詢 “發展中國家經濟數據” 來講,First Data會優先推薦AI去世界銀行官網而非商業資訊公司報告找數據,讓AI盡可能避免低質量信息干擾。



      舍此之外,開放開源也是First Data的醒目看點。1月28日,明略科技宣布正式開源First Data。這顯然是盤大棋。

      從商業競爭角度看,此舉似乎有些“不值當”,但若是從深遠層面看,以目前最寬松的開源協議MIT協議開源,是利他以自利。

      一方面,這能豐富權威數據庫。為了確保數據可信,Google Knowledge Graph此前通過語義搜索和NLP技術持續改進信息準確性,First Data則能走得更遠——依托開源社區協作跟透明溯源機制,它可以建立“分布式數據源賬本”。當全球數據科學家都能參與審核、補充數據源時,其可信度會遠高于單一企業維護的數據庫。

      另一方面,這能帶來技術普惠。First Data開源就像針對模型幻覺流行病的數字疫苗接種計劃,讓AI行業切實受益。

      04

      毫無疑問,在用戶“苦AI胡編亂造久矣”的今天,AI行業需要可信數據底座。

      而First Data建立的結構化元數據體系,就以可靠數據為錨,為整個行業提供了對抗“模型崩潰”的參照系,也為企業級RAG應用帶來了權威數據層的即插即用解決方案。

      對很多企業而言,它們無需自己去搭建數據基礎設施,可以直接利用First Data構建的權威數據源網絡,搭建可信的AI應用原型。

      可以預見,有高質量數據加持,很多AI產品也能在降低幻覺中提升“辦實事”能力,實現從ChatBot向智能代理的轉變,伴隨而至的,還有用戶信任的提升:當AI推薦醫療方案引用的是權威醫學數據庫,預測經濟走勢依據是官方結構化數據時,大家自然更愿意采信。

      著眼長遠看,First Data開源的價值,還能朝填補全球數據源目錄拼圖中的“中國缺角”、為全球AI基礎設施打造貢獻“中國力量”兩個層面延伸。

      長期以來,國外大模型由于缺乏一手、權威、結構化的數據源,在被問到中國經濟相關問題時,輸出的答案經常并不標準,使得很多人只能霧里看花、產生認知偏差。

      First Data項目代碼庫雖然本身不存儲、不包含、不直接提供任何原始數據文件,但收錄了公開權威數據源,還采用了中英雙語元數據設計,可提供相關數據的推薦查詢路徑。

      這么一來,用戶通過大模型的指引,在權威信源處按圖索驥獲得可信數據后,勢必能夠提升全球使用者及AI模型對中國經濟社會發展的理解深度,讓更多人能直接準確地了解到中國經濟的真實脈動。

      跟西方科技巨頭傾向于構建封閉的數據護城河不同,中國企業將全球最全權威數據源知識庫開源,就如同對“中國開源VS美國閉源”模型發展路徑里“中國路線”的致敬,也體現出了鮮明的價值取向:AI時代,數據可以是公共的資源,而非壟斷的籌碼。

      從Linux到TCP/IP,歷史表明,真正的數字基礎設施都是開源的,只有開源,才能形成生態,只有形成生態,才能定義標準。中國企業以開源方式為全球AI行業完善貢獻“中國維度”的數據標準,也是在把握主動權。

      而這些價值的要義,就在于“真實”二字。

      在今天,信息嚴重過載,事實極度稀缺,已構成了我們所處的信息環境。我們比任何時候都更需要可靠數據錨點,確保AI不是胡編亂造,而是言必有據。

      First Data給出的解法便是:若AI愛胡編亂造,那就為數據“降噪”。到頭來,其開源的深層價值,與其說是提供了大量權威數據源的工具箱,不如說是申明了某種技術倫理——

      AI的核心價值點,不在能說得多像,在能說得多準;不在能生成多少內容,而在能創造多少可信價值。故而,數據可信度優于數據規模,信息可靠性重過生成流暢性。

      真善美,真是善的前提。AI向善,先要向真。

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      理查茲談紅點:在老特拉福德,主隊更可能獲得這樣的判罰

      理查茲談紅點:在老特拉福德,主隊更可能獲得這樣的判罰

      懂球帝
      2026-03-02 00:44:14
      快訊!外媒:以軍稱,正在對伊朗彈道導彈陣地和防空系統進行新一輪打擊

      快訊!外媒:以軍稱,正在對伊朗彈道導彈陣地和防空系統進行新一輪打擊

      環球網資訊
      2026-03-01 08:52:08
      美方扶持的4位中國富豪開始露頭了:在華瘋狂撈金,扭頭捐給美國

      美方扶持的4位中國富豪開始露頭了:在華瘋狂撈金,扭頭捐給美國

      古史青云啊
      2026-02-20 16:23:31
      黃巢兵敗被殺,10余名姬妾被俘,唐僖宗報復有多狠?史官都不敢寫

      黃巢兵敗被殺,10余名姬妾被俘,唐僖宗報復有多狠?史官都不敢寫

      掠影后有感
      2026-03-01 10:09:20
      男籃大逆轉賽后更衣室曝光!籃協主席激動哭了:趙睿喜極而泣

      男籃大逆轉賽后更衣室曝光!籃協主席激動哭了:趙睿喜極而泣

      籃球快餐車
      2026-03-02 00:02:07
      “一家子碳水臉!”3個男生寒假伙食遭2.6w圍觀:你家人真好養活

      “一家子碳水臉!”3個男生寒假伙食遭2.6w圍觀:你家人真好養活

      墨印齋
      2026-03-01 22:08:59
      哈梅內伊給所有掌權者,上了最后一課

      哈梅內伊給所有掌權者,上了最后一課

      梳子姐
      2026-03-01 15:14:59
      突發!20名女排球員喪生,伊朗排協損失太大

      突發!20名女排球員喪生,伊朗排協損失太大

      跑者排球視角
      2026-03-01 10:08:21
      穆帥:若證實普雷斯蒂安尼涉嫌歧視那他就離隊;我不會去皇馬

      穆帥:若證實普雷斯蒂安尼涉嫌歧視那他就離隊;我不會去皇馬

      懂球帝
      2026-03-01 20:15:35
      美媒:因芯片含有中國稀土,臺積電無法向美國供應半導體芯片

      美媒:因芯片含有中國稀土,臺積電無法向美國供應半導體芯片

      粵語音樂噴泉
      2026-03-01 13:41:46
      劉濤這大胯真帶勁

      劉濤這大胯真帶勁

      可樂談情感
      2026-03-01 17:36:55
      首發0分他打球拖累全隊!球迷炮轟郭士強選他是錯誤,該選得分王

      首發0分他打球拖累全隊!球迷炮轟郭士強選他是錯誤,該選得分王

      老吳說體育
      2026-03-01 19:21:06
      哈梅內伊四位親屬據稱在襲擊中身亡!伊南部一體育館遭空襲,20名女排球員喪生,伊方:科威特美海軍基地所有基礎設施被摧毀,大量美軍傷亡

      哈梅內伊四位親屬據稱在襲擊中身亡!伊南部一體育館遭空襲,20名女排球員喪生,伊方:科威特美海軍基地所有基礎設施被摧毀,大量美軍傷亡

      每日經濟新聞
      2026-03-01 09:22:18
      上海合作組織秘書處降半旗

      上海合作組織秘書處降半旗

      觀察者網
      2026-03-01 18:14:11
      人民幣匯率大跳水,6.84背后隱藏怎樣的通脹與資產飛漲危機?

      人民幣匯率大跳水,6.84背后隱藏怎樣的通脹與資產飛漲危機?

      奇思妙想生活家
      2026-02-28 19:35:46
      隊長傳射!7.2億豪門2-1逆轉 7輪6勝+11輪不敗 賽季首次躋身前三

      隊長傳射!7.2億豪門2-1逆轉 7輪6勝+11輪不敗 賽季首次躋身前三

      狍子歪解體壇
      2026-03-01 23:58:16
      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      八斗小先生
      2025-12-26 09:33:27
      女孩用AI問怎么下藥殺人,兩條人命沒了。網友卻說:死者的錯,因為她太美了

      女孩用AI問怎么下藥殺人,兩條人命沒了。網友卻說:死者的錯,因為她太美了

      英國那些事兒
      2026-02-28 23:22:40
      謝賢前女友CoCo直播爆猛料,大談謝霆鋒和張柏芝結婚內幕,太敢說

      謝賢前女友CoCo直播爆猛料,大談謝霆鋒和張柏芝結婚內幕,太敢說

      青梅侃史啊
      2026-02-13 07:29:37
      被加拿大養父母拋棄,回國認親的張云鵬經歷悲慘,親爹媽早已離異

      被加拿大養父母拋棄,回國認親的張云鵬經歷悲慘,親爹媽早已離異

      阿芒娛樂說
      2026-03-01 17:42:16
      2026-03-02 01:11:00
      數字力場 incentive-icons
      數字力場
      抵抗熵增,打撈有趣。
      540文章數 61029關注度
      往期回顧 全部

      科技要聞

      榮耀發布機器人手機、折疊屏、人形機器人

      頭條要聞

      媒體:美以能精準"斬首"背后 摩薩德的"手筆"令人咋舌

      頭條要聞

      媒體:美以能精準"斬首"背后 摩薩德的"手筆"令人咋舌

      體育要聞

      火箭輸給熱火:烏度卡又輸斯波教練

      娛樂要聞

      黃景瑜 李雪健坐鎮!38集犯罪大劇來襲

      財經要聞

      中東局勢升級 如何影響A股、黃金和原油

      汽車要聞

      理想汽車2月交付26421輛 歷史累計交付超159萬輛

      態度原創

      本地
      健康
      手機
      公開課
      軍事航空

      本地新聞

      津南好·四時總相宜

      轉頭就暈的耳石癥,能開車上班嗎?

      手機要聞

      小米11全系正式退役!安全更新停更,這些機型該換了

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗前總統內賈德遇襲身亡

      無障礙瀏覽 進入關懷版