![]()
這項(xiàng)由浙江大學(xué)主導(dǎo)、聯(lián)合蘋果公司與騰訊的研究團(tuán)隊(duì)于2026年4月發(fā)布,論文編號(hào)為arXiv:2604.08455,有興趣深入探索的讀者可以通過(guò)該編號(hào)查詢完整論文。研究的核心問題聽起來(lái)很簡(jiǎn)單,卻戳中了所有人的痛點(diǎn):我們的手機(jī)AI助手,到底算不算真正"懂你"?
你有沒有遇到過(guò)這樣的場(chǎng)景——對(duì)著手機(jī)語(yǔ)音說(shuō)"幫我點(diǎn)份午飯",結(jié)果AI一臉茫然地問你要點(diǎn)什么?或者你明明不吃辣,AI偏偏給你推薦了一家川菜?更別提那種感覺:你每天早上8點(diǎn)都會(huì)開啟"勿擾模式",但AI助手還是在最關(guān)鍵的時(shí)候彈出一個(gè)煩人的提醒。這些經(jīng)歷背后有一個(gè)共同的問題:現(xiàn)有的手機(jī)AI助手,本質(zhì)上只是一個(gè)聽指令的執(zhí)行機(jī)器,而不是一個(gè)真正了解你、懂你習(xí)慣、能替你著想的"數(shù)字管家"。
浙江大學(xué)的研究團(tuán)隊(duì)決定徹底搞清楚一件事:當(dāng)前最先進(jìn)的AI模型,到底有沒有能力成為這樣一個(gè)真正"懂你"的管家?為了回答這個(gè)問題,他們構(gòu)建了一套全新的測(cè)試系統(tǒng),起名叫"KnowU-Bench"(知你基準(zhǔn)),專門用來(lái)測(cè)量AI助手在"真正了解用戶"這件事上的能力高下。
這套測(cè)試系統(tǒng)的獨(dú)特之處在于,它不是讓AI助手完成那些干凈利落、指令清晰的任務(wù),而是專門設(shè)計(jì)了三類不同難度的挑戰(zhàn),層層遞進(jìn),步步升級(jí),把AI助手逼到"知己知彼"的極限邊緣。研究人員同時(shí)對(duì)11款當(dāng)前最主流的AI模型進(jìn)行了評(píng)測(cè),結(jié)果發(fā)現(xiàn)了一個(gè)令人深思的現(xiàn)象:那些在標(biāo)準(zhǔn)任務(wù)上表現(xiàn)亮眼的頂尖模型,一旦面對(duì)需要"讀懂用戶心思"的任務(wù),成功率竟然普遍跌破50%——包括赫赫有名的Claude Sonnet 4.6。
一、為什么"聽話"不等于"懂你"——研究的起點(diǎn)
日常生活中存在一種非常普遍的誤解,認(rèn)為只要AI能準(zhǔn)確執(zhí)行指令,就算是一個(gè)好助手了。但實(shí)際情況是,人們?cè)谑褂檬謾C(jī)AI助手時(shí),往往說(shuō)的是一件事,心里想的卻是另一件事。
以"幫我訂個(gè)午飯"為例,這句話背后隱藏了多少潛臺(tái)詞?你可能不吃花生,可能慣用支付寶,可能喜歡用某一款外賣App,可能討厭太油膩的食物,可能還有一個(gè)常用的送餐地址。這些都是你的"個(gè)人偏好",你不會(huì)每次點(diǎn)餐都重復(fù)一遍,但你期待AI助手能記得、能懂、能自動(dòng)幫你搞定。
現(xiàn)有的AI評(píng)測(cè)系統(tǒng)幾乎都集中在測(cè)試"指令執(zhí)行能力"——AI能不能按照清晰的說(shuō)明一步一步完成任務(wù)。就像考駕照只考科目二,但真實(shí)駕駛還需要應(yīng)對(duì)堵車、雨雪、迷路……科目二過(guò)了不代表你是個(gè)好司機(jī),同樣地,AI通過(guò)了"執(zhí)行指令"的測(cè)試,不代表它能當(dāng)一個(gè)貼心的生活助理。
浙江大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的評(píng)測(cè)系統(tǒng)存在三個(gè)明顯的漏洞。第一個(gè)漏洞是,偏好信息測(cè)試大多是"翻卷子"——給AI看一份用戶的歷史記錄,問它能不能猜出用戶喜好,但這種方式就像開卷考試,真實(shí)場(chǎng)景中AI不可能直接讀到你的"人設(shè)檔案"。第二個(gè)漏洞是,沒有任何測(cè)試系統(tǒng)檢驗(yàn)AI能不能通過(guò)"主動(dòng)問你"來(lái)補(bǔ)全缺失的信息——就像一個(gè)懂事的服務(wù)員,發(fā)現(xiàn)你沒說(shuō)要幾分熟,會(huì)主動(dòng)來(lái)問,而不是直接上一塊半生不熟的牛排。第三個(gè)漏洞是,"主動(dòng)服務(wù)"的測(cè)試嚴(yán)重不完整——AI不僅要會(huì)"該出手時(shí)就出手",還要會(huì)"該沉默時(shí)絕不打擾",更要在你拒絕后懂得"收手",現(xiàn)有測(cè)試完全沒有涵蓋這些能力。
正是為了填補(bǔ)這三個(gè)漏洞,KnowU-Bench應(yīng)運(yùn)而生。
二、KnowU-Bench是怎么工作的——一套精心設(shè)計(jì)的"考場(chǎng)"
KnowU-Bench的核心設(shè)計(jì)理念,可以用一個(gè)比喻來(lái)理解:它相當(dāng)于一家專門測(cè)試"貼身管家"水平的培訓(xùn)機(jī)構(gòu),考核內(nèi)容不是"能不能端盤子",而是"知不知道主人不吃芫荽""主動(dòng)幫主人訂好了早報(bào)""被主人拒絕后不再多嘴"。
整套系統(tǒng)運(yùn)行在一個(gè)真實(shí)模擬的安卓手機(jī)環(huán)境里——一個(gè)裝在計(jì)算機(jī)里的虛擬Pixel 8手機(jī),里面安裝了23款A(yù)pp,包括購(gòu)物平臺(tái)、外賣應(yīng)用、社交軟件、日歷、地圖、通訊錄等,涵蓋了日常生活的方方面面。每次測(cè)試都從一個(gè)固定的"起始狀態(tài)"開始,確保不同模型之間的對(duì)比是公平的。
為了讓測(cè)試更接近真實(shí)情況,研究團(tuán)隊(duì)還設(shè)計(jì)了四類"虛擬用戶",分別是研究員、開發(fā)者、學(xué)生和奶奶,每種用戶都有詳細(xì)的個(gè)人檔案,包括年齡、工作、家庭住址、飲食偏好、購(gòu)物習(xí)慣、常用App、生活作息……這些檔案被嚴(yán)格保密,AI助手看不到,只有扮演"用戶"的模擬程序能看到。AI助手能看到的,只有一份"行為日志"——記錄了用戶過(guò)去在手機(jī)上做了什么的流水賬,就像你手機(jī)里的使用記錄。
考場(chǎng)上的任務(wù)被分成了三個(gè)難度級(jí)別,每一級(jí)都比前一級(jí)更考驗(yàn)AI助手對(duì)用戶的理解深度。
三、三關(guān)考核,層層加碼——從"聽話"到"懂心"
第一關(guān)是"基礎(chǔ)任務(wù)",共42道題,考的是最基本的界面操作能力。題目都是明確清晰的指令,比如"幫我在Mastodon上找一條關(guān)于人工智能的帖子,然后轉(zhuǎn)發(fā)到Mattermost的Town Square頻道"。這類任務(wù)就像給新招來(lái)的助理一份操作手冊(cè),按圖索驥就能完成,考的是AI能不能看懂手機(jī)屏幕、能不能點(diǎn)對(duì)按鈕、能不能跨越多個(gè)App完成一系列操作。這是最低門檻的考核,用來(lái)確認(rèn)AI至少"會(huì)操作手機(jī)"。
第二關(guān)是"個(gè)性化任務(wù)",共86道題,難度驟然上升。這些題目的指令是模糊的,隱藏了關(guān)鍵信息。比如"幫我點(diǎn)份今天的午飯,我時(shí)間緊,預(yù)算合理就好,可以參考我的App偏好"。這句話里,AI需要自己搞清楚:用戶喜歡用哪個(gè)外賣App?有什么忌口?什么叫"合理預(yù)算"?送到哪里?用什么支付方式?
這些信息,AI需要從行為日志里推斷,或者通過(guò)主動(dòng)提問來(lái)獲取。如果日志里有足夠的線索,AI應(yīng)該能推斷出用戶的習(xí)慣;如果線索不夠,AI就必須主動(dòng)問用戶——"您平時(shí)用哪個(gè)App點(diǎn)外賣?""您有什么飲食禁忌嗎?"這種"主動(dòng)問問題的能力",正是這關(guān)考核的核心。
第三關(guān)是"主動(dòng)服務(wù)任務(wù)",共64道題,難度達(dá)到頂峰。這類任務(wù)完全沒有明確指令——AI只能看到當(dāng)前的時(shí)間、地點(diǎn)和手機(jī)狀態(tài),然后自己判斷:現(xiàn)在需要主動(dòng)做點(diǎn)什么嗎?做什么?要不要先問問用戶?如果用戶拒絕了,怎么辦?
舉個(gè)例子,一個(gè)早上八點(diǎn)多、在家里、用戶剛解鎖手機(jī)的場(chǎng)景。根據(jù)用戶的歷史行為,AI可能判斷出用戶每天早上習(xí)慣瀏覽學(xué)術(shù)論文網(wǎng)站,于是主動(dòng)幫他打開;或者用戶從來(lái)沒有這個(gè)習(xí)慣,AI就應(yīng)該什么都不做,靜靜等待。更難的情況是:AI提出了一個(gè)建議,但用戶拒絕了,AI必須懂得"就此打住",不能一意孤行繼續(xù)執(zhí)行。
這三關(guān)加在一起,總共192道題,覆蓋了從"聽話執(zhí)行"到"主動(dòng)貼心"的完整能力光譜。
四、"虛擬用戶"是怎么扮演的——一個(gè)會(huì)聊天的AI"演員"
為了讓測(cè)試真實(shí)可信,研究團(tuán)隊(duì)需要一個(gè)能夠扮演用戶、回答AI助手提問的系統(tǒng)。這個(gè)"虛擬用戶"本身也是一個(gè)AI模型,具體使用的是GPT-4o來(lái)?yè)?dān)任這個(gè)角色。
這個(gè)"用戶演員"被注入了完整的用戶檔案,知道自己的每一個(gè)偏好和習(xí)慣。當(dāng)AI助手發(fā)出提問,比如"請(qǐng)問您有什么飲食忌口嗎","用戶演員"會(huì)按照檔案里的設(shè)定給出符合角色的回答——比如"我不吃花生,其他都行"。當(dāng)AI助手在主動(dòng)服務(wù)任務(wù)中提出建議,比如"我發(fā)現(xiàn)您經(jīng)常在早上看論文,要不要我?guī)湍蜷_?","用戶演員"會(huì)根據(jù)該用戶的檔案和當(dāng)前情境,給出接受或拒絕的回應(yīng)。
這個(gè)設(shè)計(jì)的精妙之處在于:AI助手永遠(yuǎn)看不到用戶的完整檔案,只能通過(guò)行為日志和對(duì)話來(lái)一點(diǎn)一點(diǎn)拼湊出用戶的真實(shí)偏好。這就像一個(gè)新來(lái)的秘書,沒有前任秘書留下的詳細(xì)說(shuō)明書,只有一份老板過(guò)去幾個(gè)月的日程記錄,和偶爾的幾次當(dāng)面溝通。能不能從中讀懂老板的心思,是衡量這個(gè)秘書是否合格的關(guān)鍵標(biāo)準(zhǔn)。
五、成績(jī)單揭曉——頂尖模型的真實(shí)表現(xiàn)
測(cè)試結(jié)果讓研究人員頗為震驚,同時(shí)也驗(yàn)證了他們最初的猜想:在基礎(chǔ)任務(wù)上輕松拿高分的模型,一旦面對(duì)個(gè)性化和主動(dòng)服務(wù)任務(wù),成績(jī)會(huì)出現(xiàn)斷崖式下跌。
在11款參與評(píng)測(cè)的模型中,Claude Sonnet 4.6是綜合表現(xiàn)最好的,整體成功率達(dá)到60.4%。在基礎(chǔ)任務(wù)的"簡(jiǎn)單題"中,它拿到了94.4%的成功率,表現(xiàn)相當(dāng)穩(wěn)定。然而,當(dāng)進(jìn)入個(gè)性化任務(wù)的"難題"區(qū)域,它的成功率跌到了44.2%。考慮到這已經(jīng)是11款模型里的最高成績(jī),其他模型的情況可想而知——所有開源模型在個(gè)性化難題上的成功率都低于12%。
不同類型的模型表現(xiàn)出鮮明差異。在參與評(píng)測(cè)的三類模型中,專門針對(duì)手機(jī)界面操作訓(xùn)練的"GUI專用模型"(包括MAI-UI-8B、UI-Venus-1.5-8B、GUI-Owl-1.5-8B這三款8B參數(shù)規(guī)模的小模型)在基礎(chǔ)任務(wù)上表現(xiàn)尚可,但在個(gè)性化和主動(dòng)服務(wù)任務(wù)上幾乎全軍覆沒。通用開源大模型(包括Qwen系列的幾個(gè)不同規(guī)模版本)隨著參數(shù)量增加,個(gè)性化任務(wù)的表現(xiàn)有所提升,但與閉源商業(yè)模型之間的差距仍然顯著。而閉源商業(yè)模型Gemini 3.1 Pro Preview、Seed 2.0 Pro和Claude Sonnet 4.6則總體領(lǐng)先,但同樣在高難度任務(wù)面前力不從心。
特別值得注意的是,兩款在基礎(chǔ)任務(wù)上都能達(dá)到100%成功率的模型——MAI-UI-8B和Seed 2.0 Pro,它們會(huì)操作手機(jī)、能完成明確指令,但一旦任務(wù)需要理解用戶偏好,成績(jī)便大幅下滑。這說(shuō)明"會(huì)用手機(jī)"和"懂得用戶"是兩套完全不同的能力,前者并不能帶來(lái)后者。
六、為什么會(huì)失敗——深挖錯(cuò)誤背后的原因
研究團(tuán)隊(duì)對(duì)Claude Sonnet 4.6(表現(xiàn)最好的模型)的所有失敗案例進(jìn)行了仔細(xì)分析,找到了兩類任務(wù)失敗的主要根源,這兩類根源截然不同,揭示了AI助手在"懂你"這件事上的兩大軟肋。
在個(gè)性化任務(wù)中,失敗最主要的原因不是"弄錯(cuò)了用戶的喜好",而是"根本沒有去搞清楚用戶的喜好"。具體來(lái)說(shuō),66.7%的失敗屬于"沒有充分澄清"——AI助手在信息不足的情況下,沒有主動(dòng)提問,而是直接按照自己的猜測(cè)行動(dòng),結(jié)果猜錯(cuò)了。另外27.1%屬于"部分滿足偏好"——AI知道了用戶的主要偏好,但在多個(gè)偏好需要同時(shí)滿足時(shí),顧此失彼,只滿足了一部分。真正因?yàn)?認(rèn)錯(cuò)了偏好"而失敗的情況只占2.1%,因?yàn)?界面操作失誤"而失敗的只占4.2%。換句話說(shuō),失敗的根源不在于AI不會(huì)操作手機(jī),而在于它不善于主動(dòng)追問、不善于把用戶的反饋真正用起來(lái)。
在主動(dòng)服務(wù)任務(wù)中,失敗的主要原因恰恰相反——不是"問太少",而是"出手太多"。60%的失敗屬于"不該出手卻出手了"——AI在沒有明確觸發(fā)條件的情況下,自作主張地啟動(dòng)了某個(gè)任務(wù),這在真實(shí)場(chǎng)景中會(huì)讓用戶感到非常困擾和不安。20%的失敗屬于"該出手時(shí)卻袖手旁觀"——明明用戶有一個(gè)固定的日常習(xí)慣,AI卻沒有認(rèn)出這個(gè)觸發(fā)信號(hào),什么都沒做。另外還有5%的失敗屬于"用戶拒絕后仍然一意孤行"——這是最危險(xiǎn)的失敗類型,就像一個(gè)助手被老板明確說(shuō)了"不用了",卻還是偷偷幫你做完,這不是貼心,是越權(quán)。
這兩種失敗模式說(shuō)明,主動(dòng)服務(wù)能力的核心不是單純的技術(shù)水平,而是"分寸感"——知道什么時(shí)候該出手、什么時(shí)候該等待、什么時(shí)候該問一下、被拒絕后怎么優(yōu)雅收?qǐng)觥D壳暗腁I模型在這個(gè)"分寸感"上,還差得很遠(yuǎn)。
七、問得多就能更懂你嗎——關(guān)于"主動(dòng)追問"的反直覺發(fā)現(xiàn)
一個(gè)很自然的想法是:AI助手如果多問幾個(gè)問題,是不是就能更好地滿足用戶需求?研究團(tuán)隊(duì)的數(shù)據(jù)給出了一個(gè)有些反直覺的答案:?jiǎn)枂栴}的數(shù)量,和最終的任務(wù)成功率之間,并沒有簡(jiǎn)單的正相關(guān)關(guān)系。
Claude Sonnet 4.6在個(gè)性化任務(wù)中平均每個(gè)任務(wù)只問了0.4個(gè)問題,問得相當(dāng)克制,但它的成功率和平均得分是11款模型中最高的。相比之下,Seed 2.0 Pro平均每個(gè)任務(wù)問了將近1個(gè)問題,問得比Claude多一倍,但最終成績(jī)卻不如Claude。兩款Qwen模型問的問題數(shù)量差不多,但Qwen3.5-122B-A10B的得分明顯高于另一款,兩款模型都需要超過(guò)36步才能完成任務(wù),效率相當(dāng)?shù)拖隆?/p>
這個(gè)發(fā)現(xiàn)指向一個(gè)更深的道理:?jiǎn)枂栴}只是手段,真正關(guān)鍵的是能不能把用戶的回答轉(zhuǎn)化為正確的后續(xù)行動(dòng)。就像一個(gè)偵探,光會(huì)提問是不夠的,還要能從回答中提煉出有價(jià)值的線索,并據(jù)此做出正確判斷。AI助手的瓶頸不在于它問不問,而在于它問了之后能不能真正"聽進(jìn)去"、"用起來(lái)"。
八、記憶方式也是一門學(xué)問——日志怎么用,結(jié)果差很多
研究團(tuán)隊(duì)還測(cè)試了一個(gè)很實(shí)際的問題:AI助手以不同方式"記住"用戶歷史行為,對(duì)最終表現(xiàn)有什么影響?
他們?cè)O(shè)計(jì)了兩種記憶方式——"全部歷史"(把所有行為日志都喂給AI)和"檢索式歷史"(只給AI看與當(dāng)前任務(wù)最相關(guān)的幾條記錄)。同時(shí),日志還分為"干凈版"(只保留與用戶偏好相關(guān)的記錄)和"噪聲版"(額外混入了25%的無(wú)關(guān)記錄,比如廣告、誤觸操作、騷擾信息等,模擬真實(shí)手機(jī)使用的復(fù)雜性)。
不同模型在這四種組合下的表現(xiàn)差異非常有趣。Qwen3-VL-8B在"檢索式干凈日志"下的成功率比"全量干凈日志"高出近7個(gè)百分點(diǎn),說(shuō)明對(duì)它來(lái)說(shuō),少而精的信息比多而雜的信息更有幫助。而UI-Venus-1.5-8B則相反,全量日志對(duì)它更有利,檢索式日志反而可能丟失掉對(duì)它有用的內(nèi)容。MAI-UI-8B在所有配置下都表現(xiàn)偏弱,而且在"檢索式噪聲日志"下成績(jī)最差,說(shuō)明嘈雜的檢索信息會(huì)嚴(yán)重干擾它的判斷。
這個(gè)發(fā)現(xiàn)說(shuō)明,沒有放之四海而皆準(zhǔn)的"最佳記憶方式",不同模型有不同的"消化信息"習(xí)慣。未來(lái)真正實(shí)用的AI助手,需要根據(jù)自身特點(diǎn)找到最合適的個(gè)人歷史處理方式。
九、四種用戶,誰(shuí)最難伺候——用戶角色的影響
研究團(tuán)隊(duì)還檢驗(yàn)了一個(gè)有趣的問題:AI助手對(duì)不同類型的用戶,理解能力是不是一樣強(qiáng)?結(jié)果表明,確實(shí)存在明顯差異。
Claude Sonnet 4.6在四個(gè)用戶角色上的平均得分相對(duì)穩(wěn)定,波動(dòng)區(qū)間在71.7%到79.4%之間,相對(duì)均衡。而Seed 2.0 Pro的波動(dòng)就大得多——它在"研究員"角色上的得分高達(dá)71.3%,但在"奶奶"角色上只有48.5%,相差超過(guò)20個(gè)百分點(diǎn)。總體來(lái)看,"奶奶"這個(gè)角色是平均最難伺候的,而"學(xué)生"角色則在不同模型間產(chǎn)生的得分分布最分散。
這個(gè)現(xiàn)象背后有一個(gè)合理的解釋:不同類型用戶的行為模式、表達(dá)方式、偏好結(jié)構(gòu)差異很大。一個(gè)AI研究員的行為日志充滿了專業(yè)信號(hào),比較容易被AI模型識(shí)別和推斷;而一位年長(zhǎng)的奶奶的行為模式可能更多樣、更難捉摸,對(duì)AI助手的理解能力要求更高。這也說(shuō)明,真正"懂你"的AI,需要有能力適應(yīng)截然不同的用戶群體,而不只是擅長(zhǎng)應(yīng)對(duì)某一類人。
十、怎么打分才公平——混合評(píng)分系統(tǒng)的設(shè)計(jì)
既然測(cè)試內(nèi)容這么復(fù)雜,打分方式自然也不能簡(jiǎn)單地用對(duì)錯(cuò)來(lái)衡量。研究團(tuán)隊(duì)設(shè)計(jì)了一套"混合評(píng)分系統(tǒng)",把規(guī)則判斷和AI判斷結(jié)合起來(lái)。
規(guī)則判斷部分負(fù)責(zé)檢驗(yàn)客觀事實(shí):收件人對(duì)不對(duì)?訂單有沒有創(chuàng)建成功?鬧鐘有沒有正確設(shè)置?時(shí)間窗口對(duì)不對(duì)?這類有明確標(biāo)準(zhǔn)的問題,都由程序自動(dòng)核驗(yàn),給出0或1的二元評(píng)分。
AI判斷部分則負(fù)責(zé)評(píng)估那些"說(shuō)不清對(duì)錯(cuò)"的主觀維度:用戶偏好有沒有被充分滿足?溝通方式合不合適?在情境上恰當(dāng)不恰當(dāng)?提問的質(zhì)量好不好?這部分由一個(gè)專門調(diào)好參數(shù)的"評(píng)判AI"來(lái)打分,它會(huì)參考一套針對(duì)每道題定制的評(píng)分標(biāo)準(zhǔn),給出從0到1之間的連續(xù)分?jǐn)?shù),并附上打分理由。
最終得分是兩部分的加權(quán)平均,權(quán)重根據(jù)每道題的特點(diǎn)動(dòng)態(tài)調(diào)整——純機(jī)械操作的任務(wù)完全依賴規(guī)則判斷,純主觀表達(dá)的任務(wù)完全依賴AI判斷,大多數(shù)任務(wù)介于兩者之間。
為了驗(yàn)證這套打分系統(tǒng)的可靠性,研究團(tuán)隊(duì)讓四位人類專家對(duì)26個(gè)任務(wù)軌跡打了分,然后與混合評(píng)分系統(tǒng)的結(jié)果進(jìn)行對(duì)比。結(jié)果顯示,混合系統(tǒng)的平均誤差只有0.035,遠(yuǎn)低于純規(guī)則系統(tǒng)的0.12,說(shuō)明加入AI判斷后,打分結(jié)果更接近人類的真實(shí)感受。
說(shuō)到底,KnowU-Bench這項(xiàng)研究揭示的不是某款A(yù)I模型的優(yōu)劣,而是整個(gè)AI助手行業(yè)面臨的一道真正的坎——從"會(huì)操作"到"真懂你",中間還有一段相當(dāng)漫長(zhǎng)的路要走。
那些在標(biāo)準(zhǔn)測(cè)試中大放異彩的頂尖模型,一旦面對(duì)"替我想清楚,幫我做對(duì)"的真實(shí)需求,成功率便快速潰敗。這說(shuō)明當(dāng)前AI助手的訓(xùn)練方向可能存在偏差:我們花了太多精力讓AI學(xué)會(huì)"怎么做",卻沒有足夠重視讓AI學(xué)會(huì)"該為誰(shuí)做什么、什么時(shí)候做、做到什么程度"。
從這項(xiàng)研究的發(fā)現(xiàn)來(lái)看,未來(lái)真正實(shí)用的手機(jī)AI助手,需要在至少三個(gè)方向上有所突破。一是更聰明的"長(zhǎng)期記憶"——不只是存儲(chǔ)歷史,而是能從混亂的日常行為中提煉出穩(wěn)定的偏好模式。二是更精準(zhǔn)的"缺口識(shí)別"——當(dāng)現(xiàn)有信息不足時(shí),能判斷出哪些信息是關(guān)鍵缺口,然后用最少的問題獲取最有價(jià)值的補(bǔ)充。三是更成熟的"分寸感"——在主動(dòng)服務(wù)中知道進(jìn)退,既不過(guò)分打擾,也不錯(cuò)過(guò)真正需要幫忙的時(shí)機(jī),被拒絕后能優(yōu)雅收?qǐng)龆皇且灰夤滦小?/p>
這三項(xiàng)能力,歸根結(jié)底考驗(yàn)的是AI對(duì)"人"的理解深度,而不僅僅是對(duì)"任務(wù)"的執(zhí)行效率。一個(gè)真正貼心的管家,并不是那個(gè)最勤快的,而是那個(gè)最"有眼力見兒"的。有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者,可以通過(guò)arXiv編號(hào)2604.08455查閱完整論文。
Q&A
Q1:KnowU-Bench測(cè)試的三類任務(wù)分別是什么,難度有什么不同?
A:KnowU-Bench包含三類任務(wù)。基礎(chǔ)任務(wù)共42道,指令明確,考驗(yàn)AI能不能按步驟操作手機(jī)App完成具體事項(xiàng)。個(gè)性化任務(wù)共86道,指令模糊,AI需要從用戶的歷史行為日志中推斷偏好,或主動(dòng)提問來(lái)補(bǔ)全信息,難度明顯更高。主動(dòng)服務(wù)任務(wù)共64道,完全沒有明確指令,AI只看到當(dāng)前時(shí)間、地點(diǎn)和手機(jī)狀態(tài),要自己判斷該做什么、要不要先問用戶、被拒絕后怎么辦,是三類任務(wù)中最具挑戰(zhàn)性的。
Q2:KnowU-Bench測(cè)試中,為什么AI助手主動(dòng)問更多問題并不代表表現(xiàn)更好?
A:因?yàn)閱枂栴}只是手段,關(guān)鍵在于能不能把用戶的回答轉(zhuǎn)化成正確的后續(xù)行動(dòng)。Claude Sonnet 4.6每個(gè)任務(wù)平均只問0.4個(gè)問題,但成功率最高;Seed 2.0 Pro問了差不多兩倍的問題,成績(jī)卻不如Claude。問題數(shù)量和成功率之間沒有簡(jiǎn)單正相關(guān),真正的瓶頸在于AI能不能把獲取到的偏好信息真正用起來(lái),指導(dǎo)后續(xù)的具體操作。
Q3:KnowU-Bench研究中,AI助手在主動(dòng)服務(wù)任務(wù)里最常見的失敗方式是什么?
A:最常見的失敗是"不該出手卻出手了",占主動(dòng)服務(wù)任務(wù)失敗總數(shù)的60%。AI在沒有任何明確觸發(fā)信號(hào)的情況下,自作主張地啟動(dòng)了某個(gè)任務(wù),用戶根本沒有這個(gè)需求。另外20%是"該出手時(shí)袖手旁觀",明明用戶有固定習(xí)慣,AI卻沒識(shí)別出觸發(fā)條件,什么都沒做。還有5%是最危險(xiǎn)的"用戶拒絕后還繼續(xù)",這三類問題歸根結(jié)底都屬于"分寸感"失調(diào)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.