網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

浙江大學(xué)聯(lián)合蘋果、騰訊，打造手機(jī)AI助手評(píng)測(cè)新標(biāo)準(zhǔn)

2026-04-17 23:42:14　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由浙江大學(xué)主導(dǎo)、聯(lián)合蘋果公司與騰訊的研究團(tuán)隊(duì)于2026年4月發(fā)布，論文編號(hào)為arXiv:2604.08455，有興趣深入探索的讀者可以通過(guò)該編號(hào)查詢完整論文。研究的核心問題聽起來(lái)很簡(jiǎn)單，卻戳中了所有人的痛點(diǎn)：我們的手機(jī)AI助手，到底算不算真正"懂你"？

你有沒有遇到過(guò)這樣的場(chǎng)景——對(duì)著手機(jī)語(yǔ)音說(shuō)"幫我點(diǎn)份午飯"，結(jié)果AI一臉茫然地問你要點(diǎn)什么？或者你明明不吃辣，AI偏偏給你推薦了一家川菜？更別提那種感覺：你每天早上8點(diǎn)都會(huì)開啟"勿擾模式"，但AI助手還是在最關(guān)鍵的時(shí)候彈出一個(gè)煩人的提醒。這些經(jīng)歷背后有一個(gè)共同的問題：現(xiàn)有的手機(jī)AI助手，本質(zhì)上只是一個(gè)聽指令的執(zhí)行機(jī)器，而不是一個(gè)真正了解你、懂你習(xí)慣、能替你著想的"數(shù)字管家"。

浙江大學(xué)的研究團(tuán)隊(duì)決定徹底搞清楚一件事：當(dāng)前最先進(jìn)的AI模型，到底有沒有能力成為這樣一個(gè)真正"懂你"的管家？為了回答這個(gè)問題，他們構(gòu)建了一套全新的測(cè)試系統(tǒng)，起名叫"KnowU-Bench"（知你基準(zhǔn)），專門用來(lái)測(cè)量AI助手在"真正了解用戶"這件事上的能力高下。

這套測(cè)試系統(tǒng)的獨(dú)特之處在于，它不是讓AI助手完成那些干凈利落、指令清晰的任務(wù)，而是專門設(shè)計(jì)了三類不同難度的挑戰(zhàn)，層層遞進(jìn)，步步升級(jí)，把AI助手逼到"知己知彼"的極限邊緣。研究人員同時(shí)對(duì)11款當(dāng)前最主流的AI模型進(jìn)行了評(píng)測(cè)，結(jié)果發(fā)現(xiàn)了一個(gè)令人深思的現(xiàn)象：那些在標(biāo)準(zhǔn)任務(wù)上表現(xiàn)亮眼的頂尖模型，一旦面對(duì)需要"讀懂用戶心思"的任務(wù)，成功率竟然普遍跌破50%——包括赫赫有名的Claude Sonnet 4.6。

一、為什么"聽話"不等于"懂你"——研究的起點(diǎn)

日常生活中存在一種非常普遍的誤解，認(rèn)為只要AI能準(zhǔn)確執(zhí)行指令，就算是一個(gè)好助手了。但實(shí)際情況是，人們?cè)谑褂檬謾C(jī)AI助手時(shí)，往往說(shuō)的是一件事，心里想的卻是另一件事。

以"幫我訂個(gè)午飯"為例，這句話背后隱藏了多少潛臺(tái)詞？你可能不吃花生，可能慣用支付寶，可能喜歡用某一款外賣App，可能討厭太油膩的食物，可能還有一個(gè)常用的送餐地址。這些都是你的"個(gè)人偏好"，你不會(huì)每次點(diǎn)餐都重復(fù)一遍，但你期待AI助手能記得、能懂、能自動(dòng)幫你搞定。

現(xiàn)有的AI評(píng)測(cè)系統(tǒng)幾乎都集中在測(cè)試"指令執(zhí)行能力"——AI能不能按照清晰的說(shuō)明一步一步完成任務(wù)。就像考駕照只考科目二，但真實(shí)駕駛還需要應(yīng)對(duì)堵車、雨雪、迷路……科目二過(guò)了不代表你是個(gè)好司機(jī)，同樣地，AI通過(guò)了"執(zhí)行指令"的測(cè)試，不代表它能當(dāng)一個(gè)貼心的生活助理。

浙江大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有的評(píng)測(cè)系統(tǒng)存在三個(gè)明顯的漏洞。第一個(gè)漏洞是，偏好信息測(cè)試大多是"翻卷子"——給AI看一份用戶的歷史記錄，問它能不能猜出用戶喜好，但這種方式就像開卷考試，真實(shí)場(chǎng)景中AI不可能直接讀到你的"人設(shè)檔案"。第二個(gè)漏洞是，沒有任何測(cè)試系統(tǒng)檢驗(yàn)AI能不能通過(guò)"主動(dòng)問你"來(lái)補(bǔ)全缺失的信息——就像一個(gè)懂事的服務(wù)員，發(fā)現(xiàn)你沒說(shuō)要幾分熟，會(huì)主動(dòng)來(lái)問，而不是直接上一塊半生不熟的牛排。第三個(gè)漏洞是，"主動(dòng)服務(wù)"的測(cè)試嚴(yán)重不完整——AI不僅要會(huì)"該出手時(shí)就出手"，還要會(huì)"該沉默時(shí)絕不打擾"，更要在你拒絕后懂得"收手"，現(xiàn)有測(cè)試完全沒有涵蓋這些能力。

正是為了填補(bǔ)這三個(gè)漏洞，KnowU-Bench應(yīng)運(yùn)而生。

二、KnowU-Bench是怎么工作的——一套精心設(shè)計(jì)的"考場(chǎng)"

KnowU-Bench的核心設(shè)計(jì)理念，可以用一個(gè)比喻來(lái)理解：它相當(dāng)于一家專門測(cè)試"貼身管家"水平的培訓(xùn)機(jī)構(gòu)，考核內(nèi)容不是"能不能端盤子"，而是"知不知道主人不吃芫荽""主動(dòng)幫主人訂好了早報(bào)""被主人拒絕后不再多嘴"。

整套系統(tǒng)運(yùn)行在一個(gè)真實(shí)模擬的安卓手機(jī)環(huán)境里——一個(gè)裝在計(jì)算機(jī)里的虛擬Pixel 8手機(jī)，里面安裝了23款A(yù)pp，包括購(gòu)物平臺(tái)、外賣應(yīng)用、社交軟件、日歷、地圖、通訊錄等，涵蓋了日常生活的方方面面。每次測(cè)試都從一個(gè)固定的"起始狀態(tài)"開始，確保不同模型之間的對(duì)比是公平的。

為了讓測(cè)試更接近真實(shí)情況，研究團(tuán)隊(duì)還設(shè)計(jì)了四類"虛擬用戶"，分別是研究員、開發(fā)者、學(xué)生和奶奶，每種用戶都有詳細(xì)的個(gè)人檔案，包括年齡、工作、家庭住址、飲食偏好、購(gòu)物習(xí)慣、常用App、生活作息……這些檔案被嚴(yán)格保密，AI助手看不到，只有扮演"用戶"的模擬程序能看到。AI助手能看到的，只有一份"行為日志"——記錄了用戶過(guò)去在手機(jī)上做了什么的流水賬，就像你手機(jī)里的使用記錄。

考場(chǎng)上的任務(wù)被分成了三個(gè)難度級(jí)別，每一級(jí)都比前一級(jí)更考驗(yàn)AI助手對(duì)用戶的理解深度。

三、三關(guān)考核，層層加碼——從"聽話"到"懂心"

第一關(guān)是"基礎(chǔ)任務(wù)"，共42道題，考的是最基本的界面操作能力。題目都是明確清晰的指令，比如"幫我在Mastodon上找一條關(guān)于人工智能的帖子，然后轉(zhuǎn)發(fā)到Mattermost的Town Square頻道"。這類任務(wù)就像給新招來(lái)的助理一份操作手冊(cè)，按圖索驥就能完成，考的是AI能不能看懂手機(jī)屏幕、能不能點(diǎn)對(duì)按鈕、能不能跨越多個(gè)App完成一系列操作。這是最低門檻的考核，用來(lái)確認(rèn)AI至少"會(huì)操作手機(jī)"。

第二關(guān)是"個(gè)性化任務(wù)"，共86道題，難度驟然上升。這些題目的指令是模糊的，隱藏了關(guān)鍵信息。比如"幫我點(diǎn)份今天的午飯，我時(shí)間緊，預(yù)算合理就好，可以參考我的App偏好"。這句話里，AI需要自己搞清楚：用戶喜歡用哪個(gè)外賣App？有什么忌口？什么叫"合理預(yù)算"？送到哪里？用什么支付方式？

這些信息，AI需要從行為日志里推斷，或者通過(guò)主動(dòng)提問來(lái)獲取。如果日志里有足夠的線索，AI應(yīng)該能推斷出用戶的習(xí)慣；如果線索不夠，AI就必須主動(dòng)問用戶——"您平時(shí)用哪個(gè)App點(diǎn)外賣？""您有什么飲食禁忌嗎？"這種"主動(dòng)問問題的能力"，正是這關(guān)考核的核心。

第三關(guān)是"主動(dòng)服務(wù)任務(wù)"，共64道題，難度達(dá)到頂峰。這類任務(wù)完全沒有明確指令——AI只能看到當(dāng)前的時(shí)間、地點(diǎn)和手機(jī)狀態(tài)，然后自己判斷：現(xiàn)在需要主動(dòng)做點(diǎn)什么嗎？做什么？要不要先問問用戶？如果用戶拒絕了，怎么辦？

舉個(gè)例子，一個(gè)早上八點(diǎn)多、在家里、用戶剛解鎖手機(jī)的場(chǎng)景。根據(jù)用戶的歷史行為，AI可能判斷出用戶每天早上習(xí)慣瀏覽學(xué)術(shù)論文網(wǎng)站，于是主動(dòng)幫他打開；或者用戶從來(lái)沒有這個(gè)習(xí)慣，AI就應(yīng)該什么都不做，靜靜等待。更難的情況是：AI提出了一個(gè)建議，但用戶拒絕了，AI必須懂得"就此打住"，不能一意孤行繼續(xù)執(zhí)行。

這三關(guān)加在一起，總共192道題，覆蓋了從"聽話執(zhí)行"到"主動(dòng)貼心"的完整能力光譜。

四、"虛擬用戶"是怎么扮演的——一個(gè)會(huì)聊天的AI"演員"

為了讓測(cè)試真實(shí)可信，研究團(tuán)隊(duì)需要一個(gè)能夠扮演用戶、回答AI助手提問的系統(tǒng)。這個(gè)"虛擬用戶"本身也是一個(gè)AI模型，具體使用的是GPT-4o來(lái)?yè)?dān)任這個(gè)角色。

這個(gè)"用戶演員"被注入了完整的用戶檔案，知道自己的每一個(gè)偏好和習(xí)慣。當(dāng)AI助手發(fā)出提問，比如"請(qǐng)問您有什么飲食忌口嗎"，"用戶演員"會(huì)按照檔案里的設(shè)定給出符合角色的回答——比如"我不吃花生，其他都行"。當(dāng)AI助手在主動(dòng)服務(wù)任務(wù)中提出建議，比如"我發(fā)現(xiàn)您經(jīng)常在早上看論文，要不要我?guī)湍蜷_？"，"用戶演員"會(huì)根據(jù)該用戶的檔案和當(dāng)前情境，給出接受或拒絕的回應(yīng)。

這個(gè)設(shè)計(jì)的精妙之處在于：AI助手永遠(yuǎn)看不到用戶的完整檔案，只能通過(guò)行為日志和對(duì)話來(lái)一點(diǎn)一點(diǎn)拼湊出用戶的真實(shí)偏好。這就像一個(gè)新來(lái)的秘書，沒有前任秘書留下的詳細(xì)說(shuō)明書，只有一份老板過(guò)去幾個(gè)月的日程記錄，和偶爾的幾次當(dāng)面溝通。能不能從中讀懂老板的心思，是衡量這個(gè)秘書是否合格的關(guān)鍵標(biāo)準(zhǔn)。

五、成績(jī)單揭曉——頂尖模型的真實(shí)表現(xiàn)

測(cè)試結(jié)果讓研究人員頗為震驚，同時(shí)也驗(yàn)證了他們最初的猜想：在基礎(chǔ)任務(wù)上輕松拿高分的模型，一旦面對(duì)個(gè)性化和主動(dòng)服務(wù)任務(wù)，成績(jī)會(huì)出現(xiàn)斷崖式下跌。

在11款參與評(píng)測(cè)的模型中，Claude Sonnet 4.6是綜合表現(xiàn)最好的，整體成功率達(dá)到60.4%。在基礎(chǔ)任務(wù)的"簡(jiǎn)單題"中，它拿到了94.4%的成功率，表現(xiàn)相當(dāng)穩(wěn)定。然而，當(dāng)進(jìn)入個(gè)性化任務(wù)的"難題"區(qū)域，它的成功率跌到了44.2%。考慮到這已經(jīng)是11款模型里的最高成績(jī)，其他模型的情況可想而知——所有開源模型在個(gè)性化難題上的成功率都低于12%。

不同類型的模型表現(xiàn)出鮮明差異。在參與評(píng)測(cè)的三類模型中，專門針對(duì)手機(jī)界面操作訓(xùn)練的"GUI專用模型"（包括MAI-UI-8B、UI-Venus-1.5-8B、GUI-Owl-1.5-8B這三款8B參數(shù)規(guī)模的小模型）在基礎(chǔ)任務(wù)上表現(xiàn)尚可，但在個(gè)性化和主動(dòng)服務(wù)任務(wù)上幾乎全軍覆沒。通用開源大模型（包括Qwen系列的幾個(gè)不同規(guī)模版本）隨著參數(shù)量增加，個(gè)性化任務(wù)的表現(xiàn)有所提升，但與閉源商業(yè)模型之間的差距仍然顯著。而閉源商業(yè)模型Gemini 3.1 Pro Preview、Seed 2.0 Pro和Claude Sonnet 4.6則總體領(lǐng)先，但同樣在高難度任務(wù)面前力不從心。

特別值得注意的是，兩款在基礎(chǔ)任務(wù)上都能達(dá)到100%成功率的模型——MAI-UI-8B和Seed 2.0 Pro，它們會(huì)操作手機(jī)、能完成明確指令，但一旦任務(wù)需要理解用戶偏好，成績(jī)便大幅下滑。這說(shuō)明"會(huì)用手機(jī)"和"懂得用戶"是兩套完全不同的能力，前者并不能帶來(lái)后者。

六、為什么會(huì)失敗——深挖錯(cuò)誤背后的原因

研究團(tuán)隊(duì)對(duì)Claude Sonnet 4.6（表現(xiàn)最好的模型）的所有失敗案例進(jìn)行了仔細(xì)分析，找到了兩類任務(wù)失敗的主要根源，這兩類根源截然不同，揭示了AI助手在"懂你"這件事上的兩大軟肋。

在個(gè)性化任務(wù)中，失敗最主要的原因不是"弄錯(cuò)了用戶的喜好"，而是"根本沒有去搞清楚用戶的喜好"。具體來(lái)說(shuō)，66.7%的失敗屬于"沒有充分澄清"——AI助手在信息不足的情況下，沒有主動(dòng)提問，而是直接按照自己的猜測(cè)行動(dòng)，結(jié)果猜錯(cuò)了。另外27.1%屬于"部分滿足偏好"——AI知道了用戶的主要偏好，但在多個(gè)偏好需要同時(shí)滿足時(shí)，顧此失彼，只滿足了一部分。真正因?yàn)?認(rèn)錯(cuò)了偏好"而失敗的情況只占2.1%，因?yàn)?界面操作失誤"而失敗的只占4.2%。換句話說(shuō)，失敗的根源不在于AI不會(huì)操作手機(jī)，而在于它不善于主動(dòng)追問、不善于把用戶的反饋真正用起來(lái)。

在主動(dòng)服務(wù)任務(wù)中，失敗的主要原因恰恰相反——不是"問太少"，而是"出手太多"。60%的失敗屬于"不該出手卻出手了"——AI在沒有明確觸發(fā)條件的情況下，自作主張地啟動(dòng)了某個(gè)任務(wù)，這在真實(shí)場(chǎng)景中會(huì)讓用戶感到非常困擾和不安。20%的失敗屬于"該出手時(shí)卻袖手旁觀"——明明用戶有一個(gè)固定的日常習(xí)慣，AI卻沒有認(rèn)出這個(gè)觸發(fā)信號(hào)，什么都沒做。另外還有5%的失敗屬于"用戶拒絕后仍然一意孤行"——這是最危險(xiǎn)的失敗類型，就像一個(gè)助手被老板明確說(shuō)了"不用了"，卻還是偷偷幫你做完，這不是貼心，是越權(quán)。

這兩種失敗模式說(shuō)明，主動(dòng)服務(wù)能力的核心不是單純的技術(shù)水平，而是"分寸感"——知道什么時(shí)候該出手、什么時(shí)候該等待、什么時(shí)候該問一下、被拒絕后怎么優(yōu)雅收?qǐng)觥Ｄ壳暗腁I模型在這個(gè)"分寸感"上，還差得很遠(yuǎn)。

七、問得多就能更懂你嗎——關(guān)于"主動(dòng)追問"的反直覺發(fā)現(xiàn)

一個(gè)很自然的想法是：AI助手如果多問幾個(gè)問題，是不是就能更好地滿足用戶需求？研究團(tuán)隊(duì)的數(shù)據(jù)給出了一個(gè)有些反直覺的答案：?jiǎn)枂栴}的數(shù)量，和最終的任務(wù)成功率之間，并沒有簡(jiǎn)單的正相關(guān)關(guān)系。

Claude Sonnet 4.6在個(gè)性化任務(wù)中平均每個(gè)任務(wù)只問了0.4個(gè)問題，問得相當(dāng)克制，但它的成功率和平均得分是11款模型中最高的。相比之下，Seed 2.0 Pro平均每個(gè)任務(wù)問了將近1個(gè)問題，問得比Claude多一倍，但最終成績(jī)卻不如Claude。兩款Qwen模型問的問題數(shù)量差不多，但Qwen3.5-122B-A10B的得分明顯高于另一款，兩款模型都需要超過(guò)36步才能完成任務(wù)，效率相當(dāng)?shù)拖隆?/p>

這個(gè)發(fā)現(xiàn)指向一個(gè)更深的道理：?jiǎn)枂栴}只是手段，真正關(guān)鍵的是能不能把用戶的回答轉(zhuǎn)化為正確的后續(xù)行動(dòng)。就像一個(gè)偵探，光會(huì)提問是不夠的，還要能從回答中提煉出有價(jià)值的線索，并據(jù)此做出正確判斷。AI助手的瓶頸不在于它問不問，而在于它問了之后能不能真正"聽進(jìn)去"、"用起來(lái)"。

八、記憶方式也是一門學(xué)問——日志怎么用，結(jié)果差很多

研究團(tuán)隊(duì)還測(cè)試了一個(gè)很實(shí)際的問題：AI助手以不同方式"記住"用戶歷史行為，對(duì)最終表現(xiàn)有什么影響？

他們?cè)O(shè)計(jì)了兩種記憶方式——"全部歷史"（把所有行為日志都喂給AI）和"檢索式歷史"（只給AI看與當(dāng)前任務(wù)最相關(guān)的幾條記錄）。同時(shí)，日志還分為"干凈版"（只保留與用戶偏好相關(guān)的記錄）和"噪聲版"（額外混入了25%的無(wú)關(guān)記錄，比如廣告、誤觸操作、騷擾信息等，模擬真實(shí)手機(jī)使用的復(fù)雜性）。

不同模型在這四種組合下的表現(xiàn)差異非常有趣。Qwen3-VL-8B在"檢索式干凈日志"下的成功率比"全量干凈日志"高出近7個(gè)百分點(diǎn)，說(shuō)明對(duì)它來(lái)說(shuō)，少而精的信息比多而雜的信息更有幫助。而UI-Venus-1.5-8B則相反，全量日志對(duì)它更有利，檢索式日志反而可能丟失掉對(duì)它有用的內(nèi)容。MAI-UI-8B在所有配置下都表現(xiàn)偏弱，而且在"檢索式噪聲日志"下成績(jī)最差，說(shuō)明嘈雜的檢索信息會(huì)嚴(yán)重干擾它的判斷。

這個(gè)發(fā)現(xiàn)說(shuō)明，沒有放之四海而皆準(zhǔn)的"最佳記憶方式"，不同模型有不同的"消化信息"習(xí)慣。未來(lái)真正實(shí)用的AI助手，需要根據(jù)自身特點(diǎn)找到最合適的個(gè)人歷史處理方式。

九、四種用戶，誰(shuí)最難伺候——用戶角色的影響

研究團(tuán)隊(duì)還檢驗(yàn)了一個(gè)有趣的問題：AI助手對(duì)不同類型的用戶，理解能力是不是一樣強(qiáng)？結(jié)果表明，確實(shí)存在明顯差異。

Claude Sonnet 4.6在四個(gè)用戶角色上的平均得分相對(duì)穩(wěn)定，波動(dòng)區(qū)間在71.7%到79.4%之間，相對(duì)均衡。而Seed 2.0 Pro的波動(dòng)就大得多——它在"研究員"角色上的得分高達(dá)71.3%，但在"奶奶"角色上只有48.5%，相差超過(guò)20個(gè)百分點(diǎn)。總體來(lái)看，"奶奶"這個(gè)角色是平均最難伺候的，而"學(xué)生"角色則在不同模型間產(chǎn)生的得分分布最分散。

這個(gè)現(xiàn)象背后有一個(gè)合理的解釋：不同類型用戶的行為模式、表達(dá)方式、偏好結(jié)構(gòu)差異很大。一個(gè)AI研究員的行為日志充滿了專業(yè)信號(hào)，比較容易被AI模型識(shí)別和推斷；而一位年長(zhǎng)的奶奶的行為模式可能更多樣、更難捉摸，對(duì)AI助手的理解能力要求更高。這也說(shuō)明，真正"懂你"的AI，需要有能力適應(yīng)截然不同的用戶群體，而不只是擅長(zhǎng)應(yīng)對(duì)某一類人。

十、怎么打分才公平——混合評(píng)分系統(tǒng)的設(shè)計(jì)

既然測(cè)試內(nèi)容這么復(fù)雜，打分方式自然也不能簡(jiǎn)單地用對(duì)錯(cuò)來(lái)衡量。研究團(tuán)隊(duì)設(shè)計(jì)了一套"混合評(píng)分系統(tǒng)"，把規(guī)則判斷和AI判斷結(jié)合起來(lái)。

規(guī)則判斷部分負(fù)責(zé)檢驗(yàn)客觀事實(shí)：收件人對(duì)不對(duì)？訂單有沒有創(chuàng)建成功？鬧鐘有沒有正確設(shè)置？時(shí)間窗口對(duì)不對(duì)？這類有明確標(biāo)準(zhǔn)的問題，都由程序自動(dòng)核驗(yàn)，給出0或1的二元評(píng)分。

AI判斷部分則負(fù)責(zé)評(píng)估那些"說(shuō)不清對(duì)錯(cuò)"的主觀維度：用戶偏好有沒有被充分滿足？溝通方式合不合適？在情境上恰當(dāng)不恰當(dāng)？提問的質(zhì)量好不好？這部分由一個(gè)專門調(diào)好參數(shù)的"評(píng)判AI"來(lái)打分，它會(huì)參考一套針對(duì)每道題定制的評(píng)分標(biāo)準(zhǔn)，給出從0到1之間的連續(xù)分?jǐn)?shù)，并附上打分理由。

最終得分是兩部分的加權(quán)平均，權(quán)重根據(jù)每道題的特點(diǎn)動(dòng)態(tài)調(diào)整——純機(jī)械操作的任務(wù)完全依賴規(guī)則判斷，純主觀表達(dá)的任務(wù)完全依賴AI判斷，大多數(shù)任務(wù)介于兩者之間。

為了驗(yàn)證這套打分系統(tǒng)的可靠性，研究團(tuán)隊(duì)讓四位人類專家對(duì)26個(gè)任務(wù)軌跡打了分，然后與混合評(píng)分系統(tǒng)的結(jié)果進(jìn)行對(duì)比。結(jié)果顯示，混合系統(tǒng)的平均誤差只有0.035，遠(yuǎn)低于純規(guī)則系統(tǒng)的0.12，說(shuō)明加入AI判斷后，打分結(jié)果更接近人類的真實(shí)感受。

說(shuō)到底，KnowU-Bench這項(xiàng)研究揭示的不是某款A(yù)I模型的優(yōu)劣，而是整個(gè)AI助手行業(yè)面臨的一道真正的坎——從"會(huì)操作"到"真懂你"，中間還有一段相當(dāng)漫長(zhǎng)的路要走。

那些在標(biāo)準(zhǔn)測(cè)試中大放異彩的頂尖模型，一旦面對(duì)"替我想清楚，幫我做對(duì)"的真實(shí)需求，成功率便快速潰敗。這說(shuō)明當(dāng)前AI助手的訓(xùn)練方向可能存在偏差：我們花了太多精力讓AI學(xué)會(huì)"怎么做"，卻沒有足夠重視讓AI學(xué)會(huì)"該為誰(shuí)做什么、什么時(shí)候做、做到什么程度"。

從這項(xiàng)研究的發(fā)現(xiàn)來(lái)看，未來(lái)真正實(shí)用的手機(jī)AI助手，需要在至少三個(gè)方向上有所突破。一是更聰明的"長(zhǎng)期記憶"——不只是存儲(chǔ)歷史，而是能從混亂的日常行為中提煉出穩(wěn)定的偏好模式。二是更精準(zhǔn)的"缺口識(shí)別"——當(dāng)現(xiàn)有信息不足時(shí)，能判斷出哪些信息是關(guān)鍵缺口，然后用最少的問題獲取最有價(jià)值的補(bǔ)充。三是更成熟的"分寸感"——在主動(dòng)服務(wù)中知道進(jìn)退，既不過(guò)分打擾，也不錯(cuò)過(guò)真正需要幫忙的時(shí)機(jī)，被拒絕后能優(yōu)雅收?qǐng)龆皇且灰夤滦小?/p>

這三項(xiàng)能力，歸根結(jié)底考驗(yàn)的是AI對(duì)"人"的理解深度，而不僅僅是對(duì)"任務(wù)"的執(zhí)行效率。一個(gè)真正貼心的管家，并不是那個(gè)最勤快的，而是那個(gè)最"有眼力見兒"的。有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者，可以通過(guò)arXiv編號(hào)2604.08455查閱完整論文。

Q&A

Q1：KnowU-Bench測(cè)試的三類任務(wù)分別是什么，難度有什么不同？

A：KnowU-Bench包含三類任務(wù)。基礎(chǔ)任務(wù)共42道，指令明確，考驗(yàn)AI能不能按步驟操作手機(jī)App完成具體事項(xiàng)。個(gè)性化任務(wù)共86道，指令模糊，AI需要從用戶的歷史行為日志中推斷偏好，或主動(dòng)提問來(lái)補(bǔ)全信息，難度明顯更高。主動(dòng)服務(wù)任務(wù)共64道，完全沒有明確指令，AI只看到當(dāng)前時(shí)間、地點(diǎn)和手機(jī)狀態(tài)，要自己判斷該做什么、要不要先問用戶、被拒絕后怎么辦，是三類任務(wù)中最具挑戰(zhàn)性的。

Q2：KnowU-Bench測(cè)試中，為什么AI助手主動(dòng)問更多問題并不代表表現(xiàn)更好？

A：因?yàn)閱枂栴}只是手段，關(guān)鍵在于能不能把用戶的回答轉(zhuǎn)化成正確的后續(xù)行動(dòng)。Claude Sonnet 4.6每個(gè)任務(wù)平均只問0.4個(gè)問題，但成功率最高；Seed 2.0 Pro問了差不多兩倍的問題，成績(jī)卻不如Claude。問題數(shù)量和成功率之間沒有簡(jiǎn)單正相關(guān)，真正的瓶頸在于AI能不能把獲取到的偏好信息真正用起來(lái)，指導(dǎo)后續(xù)的具體操作。

Q3：KnowU-Bench研究中，AI助手在主動(dòng)服務(wù)任務(wù)里最常見的失敗方式是什么？

A：最常見的失敗是"不該出手卻出手了"，占主動(dòng)服務(wù)任務(wù)失敗總數(shù)的60%。AI在沒有任何明確觸發(fā)信號(hào)的情況下，自作主張地啟動(dòng)了某個(gè)任務(wù)，用戶根本沒有這個(gè)需求。另外20%是"該出手時(shí)袖手旁觀"，明明用戶有固定習(xí)慣，AI卻沒識(shí)別出觸發(fā)條件，什么都沒做。還有5%是最危險(xiǎn)的"用戶拒絕后還繼續(xù)"，這三類問題歸根結(jié)底都屬于"分寸感"失調(diào)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.