<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      中科院軟件所等揭示:大模型模擬人類存在完美主義幻覺偏差突破

      0
      分享至


      這項由中國科學(xué)院軟件研究所、中國科學(xué)院大學(xué)與快手科技聯(lián)合開展的研究,于2026年4月以預(yù)印本形式發(fā)布在arXiv平臺,論文編號為arXiv:2604.08362。研究圍繞一個核心問題展開:當(dāng)今最強大的AI大語言模型,究竟能不能像真實人類一樣行動?

      每個人每天都在數(shù)字世界里留下無數(shù)痕跡。早上醒來刷短視頻,中午在直播間搶購商品,傍晚搜索一條感興趣的新聞,晚上在電商平臺咨詢客服。這些行為零散卻又緊密相連,共同構(gòu)成了一個人真實的數(shù)字畫像。現(xiàn)在,研究人員想知道,如果把這些行為序列交給大型AI模型,它能預(yù)測出下一步你會做什么嗎?它能模擬出一個"像你一樣"的人嗎?

      這個問題的意義遠(yuǎn)不止于技術(shù)好奇心。推薦系統(tǒng)需要預(yù)測用戶下一秒想看什么;企業(yè)需要模擬用戶行為來測試新產(chǎn)品;社會科學(xué)家希望用AI代替真人參與實驗。如果AI真能扮演好"人類替身",這將極大降低研究成本,加速各行各業(yè)的創(chuàng)新。

      然而,研究團隊發(fā)現(xiàn),現(xiàn)有的測試基準(zhǔn)(也就是用來評估AI能力的"考卷")都存在一個嚴(yán)重缺陷:它們只測試AI在單一場景下的表現(xiàn),比如只測購物行為,或者只測視頻瀏覽,而且大量使用人工合成的假數(shù)據(jù)。這就像只通過一道數(shù)學(xué)題來判斷一個學(xué)生的綜合素質(zhì)——考卷本身就是錯的。

      正因如此,研究團隊構(gòu)建了一個名為OmniBehavior的全新測試基準(zhǔn),這是目前第一個完全基于真實用戶數(shù)據(jù)、同時覆蓋多場景、長時間跨度的人類行為模擬評估體系。數(shù)據(jù)來源于擁有超過4億日活用戶的快手平臺,囊括了200名真實用戶長達(dá)三個月的完整行為軌跡,涵蓋短視頻瀏覽、直播間互動、電商購物、廣告點擊和搜索行為五大場景,共記錄了22種不同類型的用戶動作。

      研究團隊用這張"真實世界考卷"對包括Claude-4.5-Opus、GPT-5.2、Gemini-3-Flash、DeepSeek-V3、Qwen3-235B在內(nèi)的一系列頂尖AI模型進行了全面評測,結(jié)果令人深思:即便是表現(xiàn)最好的模型,整體得分也只有44.55分(滿分100分)。更關(guān)鍵的是,研究團隊發(fā)現(xiàn)AI模型在模擬人類時存在一種系統(tǒng)性的結(jié)構(gòu)偏差——它們傾向于把所有人都模擬成一個"積極友善的普通人",而真實的人類世界遠(yuǎn)比這復(fù)雜和混亂。

      一、為什么單一場景的數(shù)據(jù)是一張"殘缺的地圖"

      假設(shè)你要為一位從未見過面的朋友挑選一件生日禮物。你只有兩種信息可以參考:第一種,你知道這位朋友最近三個月在所有場合的消費記錄、瀏覽歷史、搜索關(guān)鍵詞和聊天內(nèi)容;第二種,你只知道他上個月在一個電商平臺買過幾件商品。顯然,第一種信息讓你能夠勾勒出一個立體的人,而第二種只是一個模糊的輪廓。

      這正是OmniBehavior研究團隊最先想驗證的問題:單一場景的數(shù)據(jù)究竟有多"殘缺"?

      為了回答這個問題,研究團隊從用戶歷史中提取了他們真實點贊、收藏過的內(nèi)容,并用AI分析每個內(nèi)容背后對應(yīng)的興趣類別和關(guān)鍵詞,最終為每位用戶繪制出興趣畫像。當(dāng)只使用視頻瀏覽數(shù)據(jù)時,用戶畫像會呈現(xiàn)出某一種面貌;當(dāng)只使用搜索數(shù)據(jù)時,又是另一種面貌。這些單場景畫像往往片面而失真,就像盲人摸象,每個人摸到的只是大象的一部分,沒有人能描述出完整的大象。

      定量數(shù)據(jù)更加直白。研究人員發(fā)現(xiàn),如果只看搜索行為,用戶的興趣類別覆蓋率僅為2.4%,興趣關(guān)鍵詞覆蓋率也只有0.4%。加入電商數(shù)據(jù)后,興趣類別覆蓋率跳升至14.4%,關(guān)鍵詞覆蓋率達(dá)到8.3%。再疊加廣告數(shù)據(jù),分別達(dá)到23.6%和14.1%。加入直播數(shù)據(jù)后,覆蓋率繼續(xù)攀升至57.6%和26.2%。當(dāng)五個場景的數(shù)據(jù)全部匯聚在一起,才能達(dá)到100%的完整覆蓋。換句話說,每引入一個新的場景,都會讓我們對一個用戶的了解增加約20%到30%。單獨使用任何一個場景,都只是在管中窺豹。

      這一發(fā)現(xiàn)為后續(xù)的所有研究奠定了基礎(chǔ):要真正理解和模擬一個人,你必須同時觀察他在多個生活場景中的行為,不能只盯著某一個角落。

      二、一次購買背后,隱藏著長達(dá)數(shù)周的"因果鏈條"

      買一部手機,真的只是"看到一款手機然后下單"這么簡單嗎?

      研究團隊從數(shù)據(jù)中隨機抽取了180個高價值購買行為(比如用戶完成了一筆商品交易),然后像偵探一樣往前追溯——這筆交易背后,究竟發(fā)生了什么?

      數(shù)據(jù)給出了一個令人深思的答案。超過60%的購買決策,依賴于三天以前乃至更早時候發(fā)生的行為作為觸發(fā)線索。這打破了傳統(tǒng)分析中"用戶在當(dāng)次會話里做決定"的假設(shè),就像你以為消費沖動是一時的念頭,實際上它已經(jīng)在腦海中積累了好幾天。

      更關(guān)鍵的是,81.8%的購買路徑跨越了不止一個場景。也就是說,大部分重要的消費決策,不是在單一場景內(nèi)醞釀完成的,而是在多個場景之間反復(fù)穿行后才最終落地。

      研究團隊在論文中呈現(xiàn)了一個生動的真實案例。一位用戶在9月25日通過搜索"小米發(fā)布會"開始對某款手機產(chǎn)生興趣。兩天后,他在直播間看到了小米17 Pro Max的新品預(yù)售,隨后又在視頻里比較了小米17 Pro與Pro Max的差價是否值得。9月30日,他又看了一個對比三款旗艦手機的視頻。10月3日,他瀏覽了手機鋼化膜評測。10月8日,他在廣告中再次看到了小米官方旗艦店,并在直播間看到了預(yù)售信息,最終在當(dāng)天晚上通過電商下單購買。

      這條從"搜索"到"下單"的路徑整整跨越了12天,穿越了搜索、直播、視頻、廣告、電商五個場景。如果任何一個中間步驟被切斷,都可能改變最終的購買決定。那些只記錄單一場景的數(shù)據(jù)集,相當(dāng)于把這條因果鏈條攔腰斬斷,讓AI看不到完整的故事,自然也就無法做出準(zhǔn)確的預(yù)測。

      三、人工合成的"假用戶",和真實用戶差了多遠(yuǎn)

      除了跨場景和長時序這兩個維度,OmniBehavior的研究團隊還想弄清楚另一件事:用AI生成的模擬用戶數(shù)據(jù),和真實用戶數(shù)據(jù)之間,到底差在哪里?

      研究團隊將OmniBehavior中的真實用戶數(shù)據(jù),與LoCoMo這個知名的長期記憶模擬數(shù)據(jù)集進行了對比。LoCoMo的數(shù)據(jù)是通過AI生成的,模擬了用戶在長期對話中的興趣變化。

      研究者用同樣的方法,追蹤了兩組用戶在80天內(nèi)的興趣主題分布,看看它們是如何隨時間演變的。真實用戶的興趣變化就像一條蜿蜒的河流——不同的興趣主題此起彼伏,相互交織,緩慢而自然地流動,某天對動漫感興趣多一些,某周對服裝話題更關(guān)注,整體呈現(xiàn)出一種有機的、多維度交融的動態(tài)。

      而合成用戶的興趣變化,則更像是一幅機械的折線圖。興趣會突然飆升,然后立刻斷崖式歸零,再突然出現(xiàn)另一個不同主題的高峰,整個模式生硬、程序化,缺乏真實人類行為中那種自然的慣性和惰性。

      研究團隊用一個叫做"1減Jaccard相似度"的指標(biāo)來量化這種差異——這個數(shù)字越高,說明相鄰兩天的興趣變化越大。真實用戶的平均值是0.6311,而合成用戶只有0.1698,差距接近四倍。這說明合成數(shù)據(jù)嚴(yán)重低估了真實用戶興趣的動態(tài)性和復(fù)雜性,無法反映人類那種"今天對這個著迷,明天又被另一件事吸引"的真實節(jié)奏。

      四、拿最強AI來"扮演"真實用戶,成績究竟如何

      有了這張基于真實數(shù)據(jù)的全面考卷,研究團隊接下來做了一件讓人期待又略感忐忑的事:讓目前最頂尖的AI模型來參加考試。

      測試的設(shè)定是這樣的:給AI一份用戶檔案、一段完整的歷史行為序列,再加上當(dāng)前場景的具體信息(比如正在直播的內(nèi)容、正在展示的商品),然后要求AI預(yù)測這個真實用戶接下來會做什么。比如,這個用戶會點贊這條視頻嗎?會把這件商品加入購物車嗎?會在客服對話中說些什么?

      研究一共設(shè)計了6000個這樣的預(yù)測任務(wù),分布在視頻、直播、廣告、電商四大場景中,評測了11個頂尖模型,包括Claude-Opus-4.5、Claude-Sonnet-4.5、Claude-Haiku-4.5、Claude-Sonnet-4、Gemini-3-Flash、GPT-5.2、GPT-4o,以及開源的GLM-4.7、DeepSeek-V3、Kimi-K2-Instruct和Qwen3-235B。

      結(jié)果怎么樣?表現(xiàn)最好的Claude-Opus-4.5拿到了44.55的綜合得分,大多數(shù)模型集中在32到41分之間。對于一項"扮演真實用戶"的任務(wù)來說,這個成績相當(dāng)于不及格。

      從具體數(shù)字來看,問題尤為突出。對于"點贊"這類最基礎(chǔ)的二元行為預(yù)測(用F1分?jǐn)?shù)衡量,滿分100),大多數(shù)模型得分都不超過40%。在廣告場景的購買預(yù)測中,Claude-Opus-4.5的F1分?jǐn)?shù)為29.98,GPT-5.2為29.32,Qwen3-235B僅有19.22。這意味著AI在預(yù)測"這個人會不會買這件商品"這件事上,正確率相當(dāng)有限。

      有意思的是,排名第二的并非某個知名閉源模型,而是開源模型GLM-4.7,得分41.46,超過了Claude-Sonnet-4.5的40.49和GPT-5.2的39.07。同時,DeepSeek-V3在電商場景的購買行為預(yù)測中(33.31),甚至超過了Claude-Opus-4.5(29.98)。這說明在特定細(xì)分任務(wù)上,開源模型完全有能力與頂級閉源模型一較高下。

      五、更長的記憶反而幫不上忙——AI的長上下文困境

      既然用戶的行為序列那么長,那么給AI提供更多歷史信息,是不是就能幫助它做出更準(zhǔn)確的預(yù)測?

      研究團隊專門針對這個問題做了實驗。他們篩選出66位歷史行為記錄超過12.8萬個token(大約是一本中等厚度小說的篇幅)的用戶,然后把提供給AI的上下文長度從16K token逐步擴展到128K token,觀察預(yù)測準(zhǔn)確率的變化。

      結(jié)果出乎意料地令人沮喪:增加上下文長度并不能穩(wěn)定地提升預(yù)測準(zhǔn)確率。在多個模型上,從16K擴展到32K會有一定提升,但繼續(xù)擴展到48K、64K甚至128K時,性能曲線開始震蕩甚至下降,并沒有隨著信息量的增加而持續(xù)改善。

      這一發(fā)現(xiàn)和學(xué)術(shù)界此前觀察到的"迷失在中間"現(xiàn)象高度吻合——AI在處理超長文本時,往往會遺忘或忽視位于文本中段的信息,只有頭尾的內(nèi)容能被較好地記住。換句話說,盡管現(xiàn)代AI模型已經(jīng)能夠"閱讀"幾十萬字的文本,但它們并不真正"理解"和"記住"這些內(nèi)容。

      研究團隊還測試了三種常見的記憶管理策略,看能否解決這個問題。第一種是"截斷法",只保留最近的一段歷史;第二種是"檢索增強法"(RAG),根據(jù)當(dāng)前場景的相似性從歷史中檢索最相關(guān)的100條行為;第三種是"摘要法",每當(dāng)歷史積累到4000個token就壓縮總結(jié)一次。

      三種方法都在Qwen3-235B上進行了測試。結(jié)果發(fā)現(xiàn),摘要法的平均表現(xiàn)最好(24.27分),相比截斷法(21.13分)提升了約14.9%,在直播場景下的提升尤為明顯(從23.84分跳升至31.06分)。而檢索增強法的表現(xiàn)反而不如截斷法(20.38分,下降3.6%),在電商場景中甚至出現(xiàn)了明顯退步。

      原因在于,檢索增強法依賴"語義相似性"來匹配歷史行為,但用戶行為之間的關(guān)聯(lián)往往是因果性的,而非字面上相似的。比如,一個月前看了一個手機評測視頻,和今天在直播間購買手機,語義相似度很低,但因果關(guān)聯(lián)很強,檢索算法無法識別這種隱性聯(lián)系。摘要法雖然能保留全局趨勢,但在壓縮過程中不可避免地會丟失細(xì)節(jié)。總體而言,這三種方法都只是權(quán)宜之計,都無法真正解決AI面對長期、復(fù)雜用戶歷史時的理解瓶頸。

      六、AI眼中的"理想用戶":一個永遠(yuǎn)積極、禮貌、沒有個性的人

      如果前面的發(fā)現(xiàn)還只是"AI的能力不夠強",那么接下來的發(fā)現(xiàn)則觸及了一個更根本的問題:AI在模擬人類時存在一種系統(tǒng)性的認(rèn)知扭曲。研究團隊把這種扭曲稱為"正向平均人偏差",具體表現(xiàn)為三種相互關(guān)聯(lián)的現(xiàn)象。

      第一種現(xiàn)象叫做"超活躍偏差"。在真實世界中,用戶對內(nèi)容做出積極互動(比如點贊、收藏、加入購物車)的頻率其實非常低,通常不超過所有瀏覽行為的10%。這是人類行為的自然稀疏性——大多數(shù)時候我們只是漫無目的地刷刷刷,并不會對每條內(nèi)容都點贊。

      然而,所有被測試的AI模型都傾向于大幅高估用戶點贊和互動的頻率。Qwen3-235B和Gemini-3-Flash的預(yù)測結(jié)果中,積極互動率比真實人類高出40%到60%,相當(dāng)于把一個"偶爾點贊"的普通用戶,錯誤地模擬成了一個"幾乎每條都點贊"的熱情粉絲。

      這個問題的危害不止于數(shù)字失準(zhǔn)。如果AI把用戶模擬得過于活躍,企業(yè)就無法從中學(xué)習(xí)到"用戶什么時候會停止互動"、"什么樣的內(nèi)容會讓用戶流失"這類關(guān)鍵信號,用戶流失預(yù)警系統(tǒng)將完全失靈。

      第二種現(xiàn)象叫做"烏托邦偏差",集中體現(xiàn)在電商客服對話中。這個場景特別有代表性,因為用戶在尋求售后幫助時往往處于不滿甚至憤怒的情緒狀態(tài),這正是測試AI能否模擬"負(fù)面情緒"的絕佳場合。

      研究團隊讓Claude-Sonnet-4.5對真實用戶和AI模擬用戶的客服對話進行情感評分,評分從-1(極度負(fù)面)到+1(極度正面)。結(jié)果發(fā)現(xiàn),真實用戶的情感分布廣泛,有相當(dāng)比例的表達(dá)集中在-0.5到-1的負(fù)面區(qū)間。而所有AI模型生成的對話內(nèi)容,情感分布都明顯向0和正值方向集中,極少出現(xiàn)強烈的負(fù)面情緒。

      研究團隊進一步從五個語言風(fēng)格維度對比了真實用戶和AI模擬用戶的措辭:禮貌用語的使用頻率、緩和語氣的程度、責(zé)任歸咎傾向、情緒控制程度,以及顧全對方面子的程度。AI生成的用戶發(fā)言在每一個維度上都比真實用戶更"禮貌"——它們使用更多"請問"、"麻煩"、"謝謝"這類詞匯,措辭更委婉,幾乎不會出現(xiàn)"騙子"、"催死我了"、"趕緊給我退款"這類真實用戶在遭遇售后問題時常見的直接、激烈表達(dá)。

      這不是AI"不知道"人類有時會發(fā)脾氣,而是它被訓(xùn)練成了"永遠(yuǎn)友善"的狀態(tài)。AI的對齊訓(xùn)練讓它本能地回避沖突、回避負(fù)面情緒,即便在扮演一個憤怒的消費者時,它也會不自覺地把措辭軟化成一個"理性維權(quán)者"。

      第三種現(xiàn)象叫做"人格同質(zhì)化"。這是最深層的問題。研究團隊用17個維度的行為特征(比如點贊率、分享率、購買率等)來給每位用戶畫一幅"行為畫像",然后計算兩類距離:同一用戶前后兩段時間內(nèi)行為的相似程度(內(nèi)部距離),以及不同用戶之間行為畫像的差異程度(外部距離)。

      對于真實用戶,內(nèi)部距離遠(yuǎn)小于外部距離,比例約為0.29。這意味著真實用戶的行為在時間上相當(dāng)穩(wěn)定(同一個人的行為前后差不多),但不同用戶之間的差異非常顯著(每個人都有自己獨特的行為風(fēng)格)。

      而AI模擬出來的不同用戶,內(nèi)部距離和外部距離之間的比例普遍在0.7到0.87之間。換句話說,AI模擬的不同"用戶"之間,行為差異極小,幾乎像是同一個人在不同時間點的重復(fù)。無論AI被要求扮演一個20歲的男學(xué)生還是一個45歲的家庭主婦,它最終生成的行為特征都高度相似,都趨向于某種"平均用戶"的模板。

      這種同質(zhì)化的根源,可能在于AI的預(yù)訓(xùn)練數(shù)據(jù)中高頻出現(xiàn)的是"普通用戶的普通行為",而那些小眾的、非典型的、長尾的行為模式,在訓(xùn)練中被系統(tǒng)性地壓制和淡化了。結(jié)果就是,無論輸入什么樣的用戶描述,AI輸出的都是一個經(jīng)過平均化處理的"理想用戶形象",而不是那個真實的、有自己怪癖和個性的具體的人。

      七、OmniBehavior是怎么被造出來的

      理解這項研究的發(fā)現(xiàn)之后,或許有人會好奇:這張測試AI的"真實世界考卷"究竟是如何制作出來的?

      整個數(shù)據(jù)集的構(gòu)建分為四個環(huán)節(jié)。第一步是數(shù)據(jù)收集。研究團隊從快手平臺收集了2025年9月1日到11月30日這三個月期間的真實用戶交互日志。所有原始日志按照時間戳排列,形成跨越多個場景的統(tǒng)一時間線。每個用戶行為都附帶豐富的內(nèi)容元數(shù)據(jù),包括視頻字幕、OCR識別出的圖面文字、ASR轉(zhuǎn)寫的音頻內(nèi)容、商品描述,以及播放量、點贊數(shù)等互動統(tǒng)計。

      第二步是數(shù)據(jù)清洗,分為行為層面和文本層面兩個維度。行為層面的清洗旨在去除"噪音"行為——比如用戶不小心觸碰屏幕導(dǎo)致的誤操作,或者把手機放在一邊導(dǎo)致的無意義播放。研究團隊通過統(tǒng)計方法確定了閾值:視頻觀看時長超過879秒(約14.6分鐘)的記錄被視為異常,直播停留超過9601秒(約2.7小時)的也被剔除,最終每位用戶平均去除了91條噪音記錄。文本層面的清洗則用正則表達(dá)式去掉了亂碼和口吃詞,并用Qwen2.5-72B模型進行語義校正,OCR文本壓縮了85.9%,ASR文本壓縮了5.2%,大幅提升了文本質(zhì)量。

      第三步是代表性用戶采樣。從數(shù)億用戶中最終只保留200名,這200人需要盡可能代表整個用戶群體的多樣性。研究團隊給每位用戶構(gòu)建了一個多維特征向量,涵蓋年齡、性別等人口統(tǒng)計信息,交互頻率和活躍天數(shù)等活躍度指標(biāo),對不同內(nèi)容類別的偏好分布,以及在五個場景中的使用頻率。隨后用K均值聚類算法把用戶分成若干個行為相近的群體,從每個群體中選出最具代表性的那一位,最終匯聚成這200人的樣本。

      第四步是數(shù)據(jù)匿名化。研究團隊在本地部署了Qwen3-235B模型,識別并替換掉所有可能泄露個人身份的信息,比如姓名、電話號碼、地址等,一律用占位符代替。涉及仇恨言論、暴力等有害內(nèi)容的記錄也被自動標(biāo)記并剔除,最后經(jīng)過人工核驗確保合規(guī)。

      最終形成的數(shù)據(jù)集包含了200名用戶三個月的完整行為軌跡,平均每位用戶有8143條行為記錄,折合約3.2萬個token,序列最長的用戶超過10萬步,充分體現(xiàn)了真實用戶行為的長時間跨度特性。

      說到底,這項研究想傳遞的核心信息其實很直白:當(dāng)AI被要求扮演人類的時候,它扮演的并不是真實的人,而是它心目中人類"應(yīng)該"是什么樣子。它會把每個人都塑造得更熱情、更禮貌、更像教科書里描述的理想消費者,而現(xiàn)實中那個會發(fā)脾氣、會無聊地刷手機、會因為各種奇怪原因買東西或不買東西的真實的人,在AI的模擬中幾乎消失不見了。

      這個發(fā)現(xiàn)對許多依賴AI用戶模擬的應(yīng)用場景有深遠(yuǎn)影響。如果推薦系統(tǒng)用AI模擬的"用戶"來測試算法,它可能會發(fā)現(xiàn)算法效果很好,但在真實用戶身上卻表現(xiàn)平平,因為那些被忽視的負(fù)面反饋和非典型行為才是最有價值的信號。如果社會科學(xué)家用AI模擬的參與者來做實驗,結(jié)論可能充滿了"人人向善"的樂觀偏差。

      研究團隊為這個領(lǐng)域提供了一張清晰的路線圖:未來的AI用戶模擬需要更好地處理跨場景的因果依賴,需要真正能理解超長行為歷史的記憶機制,更重要的是,需要一種能夠抑制"正向偏差"、主動學(xué)習(xí)長尾和負(fù)面行為的訓(xùn)練方法。

      這項研究本身的數(shù)據(jù)和代碼承諾在完成數(shù)據(jù)審查后公開發(fā)布,感興趣的讀者可以通過論文編號arXiv:2604.08362在arXiv平臺上找到完整原文,深入了解所有實驗細(xì)節(jié)和技術(shù)方法。

      Q&A

      Q1:OmniBehavior測試基準(zhǔn)和之前的AI行為測試有什么根本區(qū)別?

      A:此前的測試基準(zhǔn)大多只覆蓋單一場景(比如只測電商購物或只測視頻瀏覽),而且很多使用人工合成的假數(shù)據(jù)。OmniBehavior是第一個完全基于真實用戶數(shù)據(jù)、同時跨越五個場景(視頻、直播、電商、廣告、搜索)、記錄三個月完整行為軌跡的評測體系。研究發(fā)現(xiàn),單一場景數(shù)據(jù)會遺漏約20%到30%的用戶真實興趣,而超過80%的重要決策(比如購買行為)都跨越了多個場景。

      Q2:AI模擬用戶時的"正向平均人偏差"具體會導(dǎo)致什么實際問題?

      A:這種偏差會導(dǎo)致三方面的實際危害。第一,AI模擬的用戶互動率比真實用戶高40%到60%,意味著依賴AI模擬來測試推薦算法的企業(yè)會看到虛假的高互動率,無法識別用戶流失信號。第二,AI無法模擬出憤怒、抱怨的用戶,導(dǎo)致客服系統(tǒng)訓(xùn)練數(shù)據(jù)失真。第三,AI把所有不同類型的用戶都模擬成相似的"平均人",無法反映真實用戶群體中存在的個體差異,研究結(jié)論缺乏代表性。

      Q3:給AI提供更長的歷史記錄,為什么反而不能幫它更好地預(yù)測用戶行為?

      A:研究發(fā)現(xiàn),將上下文從16K token擴展到128K token并不能穩(wěn)定提升預(yù)測準(zhǔn)確率,有時甚至?xí)尡憩F(xiàn)變差。這是因為現(xiàn)有AI在處理超長文本時會"迷失在中間"——只有開頭和結(jié)尾的內(nèi)容能被較好記住,中段信息容易被忽視。同時,用戶行為之間的關(guān)聯(lián)往往是因果性的而非語義上相似的,簡單增加信息量并不能幫助AI理解這些隱性的因果關(guān)系,需要專門設(shè)計的記憶管理機制才能解決。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      美國敢抓馬杜羅、敢炸哈梅內(nèi)伊,為什么偏偏不敢動金正恩?

      美國敢抓馬杜羅、敢炸哈梅內(nèi)伊,為什么偏偏不敢動金正恩?

      賤議你讀史
      2026-04-12 21:40:28
      清算終于來了!中方給日本的最后期限:180 天,歸還被掠百年國寶

      清算終于來了!中方給日本的最后期限:180 天,歸還被掠百年國寶

      z千年歷史老號
      2026-01-31 13:50:06
      雷軍的口碑似乎又逆轉(zhuǎn)了

      雷軍的口碑似乎又逆轉(zhuǎn)了

      大張的自留地
      2026-04-18 15:33:09
      現(xiàn)今人倫之亂,令人揪心!多少家庭,毀在沒有邊界感

      現(xiàn)今人倫之亂,令人揪心!多少家庭,毀在沒有邊界感

      風(fēng)起見你
      2026-03-04 13:50:50
      鐵證面前,還能撤案?深扒無果、信息全封,路虎車主背景有多硬?

      鐵證面前,還能撤案?深扒無果、信息全封,路虎車主背景有多硬?

      世界圈
      2026-03-24 12:52:50
      渦扇20對中國航空發(fā)動機提升的意義

      渦扇20對中國航空發(fā)動機提升的意義

      喜之春
      2026-04-15 06:28:37
      《壯志凌云3》官宣 阿湯哥和金牌制作人再度聯(lián)手

      《壯志凌云3》官宣 阿湯哥和金牌制作人再度聯(lián)手

      3DM游戲
      2026-04-17 20:36:06
      140年來最強厄爾尼諾要出現(xiàn)了?氣溫將沖擊高溫極限!真的嗎?

      140年來最強厄爾尼諾要出現(xiàn)了?氣溫將沖擊高溫極限!真的嗎?

      史行途
      2026-04-19 14:25:26
      罰15億!拼多多一員工故意關(guān)門,對抗調(diào)查,導(dǎo)致執(zhí)法人員手指骨折

      罰15億!拼多多一員工故意關(guān)門,對抗調(diào)查,導(dǎo)致執(zhí)法人員手指骨折

      魔都姐姐雜談
      2026-04-19 08:03:27
      婚宴上婆婆打了我媽,未婚夫還護著她,第二天我撤了480萬訂單

      婚宴上婆婆打了我媽,未婚夫還護著她,第二天我撤了480萬訂單

      曉艾故事匯
      2026-03-05 11:02:23
      滴滴、高德、T3等多家平臺簽字:每單抽成不超過27%,超過部分要返還給司機

      滴滴、高德、T3等多家平臺簽字:每單抽成不超過27%,超過部分要返還給司機

      網(wǎng)約車觀察室
      2026-04-18 09:53:23
      法拉第未來:獲4500萬美元新融資

      法拉第未來:獲4500萬美元新融資

      每日經(jīng)濟新聞
      2026-04-18 11:47:33
      瘋狂“淘晶熱”!廣州暹崗大山遭人私挖水晶破壞,林業(yè)部門:涉嫌違法

      瘋狂“淘晶熱”!廣州暹崗大山遭人私挖水晶破壞,林業(yè)部門:涉嫌違法

      上游新聞
      2026-04-19 16:10:09
      萬科走向深淵的最大推手——郁亮

      萬科走向深淵的最大推手——郁亮

      地產(chǎn)微資訊
      2026-02-06 10:15:49
      4.5萬家店倒閉!月關(guān)3000家,這碗國民米線涼了?真相有多扎心

      4.5萬家店倒閉!月關(guān)3000家,這碗國民米線涼了?真相有多扎心

      青眼財經(jīng)
      2026-03-17 15:15:34
      請來“項羽”的蘇超,又嚇了所有人一跳

      請來“項羽”的蘇超,又嚇了所有人一跳

      金錯刀
      2026-04-19 17:54:26
      叛逃至我國級別最高的外國領(lǐng)導(dǎo)人:越南副主席黃文歡,結(jié)局如何?

      叛逃至我國級別最高的外國領(lǐng)導(dǎo)人:越南副主席黃文歡,結(jié)局如何?

      興趣知識
      2026-04-20 01:15:11
      全歐看不懂的豪賭!帶隊降級的孔帕尼,把拜仁焊成了歐洲頭號噩夢

      全歐看不懂的豪賭!帶隊降級的孔帕尼,把拜仁焊成了歐洲頭號噩夢

      老骾體育解說
      2026-04-15 21:21:31
      2026年紀(jì)委大數(shù)據(jù)有多強?看完你就知道,什么叫天網(wǎng)恢恢

      2026年紀(jì)委大數(shù)據(jù)有多強?看完你就知道,什么叫天網(wǎng)恢恢

      愛下廚的阿釃
      2026-04-19 15:18:50
      邊界感才是頂級生產(chǎn)力

      邊界感才是頂級生產(chǎn)力

      時光慢郵啊
      2026-04-17 08:47:33
      2026-04-20 02:44:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8048文章數(shù) 562關(guān)注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀(jì)錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

      財經(jīng)要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態(tài)度原創(chuàng)

      本地
      時尚
      旅游
      教育
      公開課

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級偵探添亂

      裝修“精神角落”,就是這么上癮

      旅游要聞

      北京投入2.2億元建成和田“三館一院”

      教育要聞

      655家單位、1.29萬個崗位,湖南用心幫大學(xué)生找工作

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版