<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      飛豬AI測試新范式:維護降70%、漏測減半、死循環歸零

      0
      分享至


      作者 | 飛豬技術 楊飛

      一、背景與愿景

      以飛豬為例,生活服務類應用的 C 端的業務質量保障,往往面臨業務快速迭代、技術架構復雜,多端場景覆蓋難等多重挑戰:

      • 業務層面:受旅行行業“七節兩促”特性的影響,在高頻營銷活動驅動下,往往伴隨著較為快速的發布節奏;如何在快節奏中構建穩定的 C 端質量保障體系,與安全生產能力成為關鍵問題。

      • 技術層面:C 端系統采用 Native、Flutter、Weex、DX、H5 等多技術?;旌霞軜?;同時,測試回歸需覆蓋飛豬 App、手淘飛豬 Tab,及淘、支、微、紅等多平臺小程序入口,這導致測試回歸復雜度指數級上升;此外,功能回歸與用戶體驗提升需協同產研推進,進一步加劇了發布小窗口期下的質量保障難度。

      UI 自動化作為 C 端質量保障的切口之一,而 AI 能夠在現有場景下,為自動化賦予新的機遇,解決業界 UI 自動化的普遍挑戰與共性問題:

      • 用例維護成本高:業務快速變更導致失效率持續攀升,人工投入占比過大;

      • 斷言有效性不足:多端入口交互邏輯差異使覆蓋不全,問題漏檢風險存在;

      • 多端兼容性問題突出:多端差異和邏輯定制,易引發測試盲區,易觸發線上故障;

      針對這些痛點,我們計劃通過 AI 技術,結合并優化現有自動化測試體系:降低用例腐化率以減少人工成本,提升斷言精準度以增強問題發現能力,從而在保障質量的同時提效。


      圖 1:飛豬多端 - 流量入口示意圖

      二、挑戰

      在“AI + X”的落地實踐中,應用的技術演進大多遵循一條較為清晰的技術路徑:從基礎提示工程(Prompt Engineering)起步,到檢索增強生成(RAG)、記憶體(Mem)、智能體技能(Agent Skills)和多智能體系統(Multi-agent Systems / Sub-agents),最終監督微調(SFT)、GPO/GRPO 等模型層的策略優化方法。

      然而當時,我們在技術調研時發現,AI 自動化領域在當時深入借鑒的參考標桿偏少。在開源技術論壇中的技術分享,大多數文章仍聚焦于 0-1 階段的試用與調研,缺乏對成熟技術路徑的規?;瘧抿炞C。同時,外部的開源范例(如:阿里 Mobile-agent、微軟 playwright-mcp、字節 midscene.js)也都是更聚焦模型 / 框架層面的基礎能力建設,而缺少整體的能力串聯、使用效果、演進路線上的實踐范式。

      如何將 “憑借 AI 可以快速入門的能用” 變成 “可支持月均 10 萬 + 構建,穩定、快速運行的好用、易用” 是我們在這個技術演進路線上的最大挑戰。

      三、策略與思路

      3.1、做好評測體系的先行建設,用數據指引應用迭代效果

      核心原則:在 AI 自動化開發啟動階段,即需要同步建立與目標對齊的效果評測體系,將效果驗證從“事后補救”前置為“設計輸入”,確保技術演進始終服務于質量保障目標,避免因缺乏量化依據導致的無效迭代。

      行業驗證與內部實踐依據

      • Gartner AI 的研究報告指出,73% 的 AI+X 項目因評測體系缺失而無法規?;涞?,表現為技術優化與業務效果脫節。

      • AI 自動化的前期探索中,常見的技術挑戰,往往會遇到的典型問題:

        • 提示工程(PE)優化后:執行效果異常,AI 幻覺問題頻發,導致 PE 緊急回滾;

        • RAG 知識庫迭代后,關鍵業務數據召回率顯著下降;

        • 模型切換后:本地調試結果與線上實際效果存在偏差,導致整體效果質量下滑,case 失敗率增高。

      實施要點

      我們從應用 workflow Benchmark 評測集建設、“漸進式消融評測機制”:基座模型 → Prompt → RAG → Agent 分階段驗證效果等方式作為評測體系的基準,每次技術調整(提示工程優化、知識庫更新、模型切換)均需通過真實業務數據驗證端到端效果,結合自動化測試數據與人工路徑驗證,確保評測結果反映真實用戶體驗。

      價值體現:先行評測體系為 AI+X 實踐提供客觀決策依據,有效規避“技術優化但業務效果下降”的風險。為實現從“能用”到“可靠規模化”的關鍵跨越提供了數據支撐。

      3.2、通過工作流設計,避免模型流程死循環(break cycle),提升故障恢復與自檢能力

      核心原則:在 AI 工作流設計中嵌入防死循環機制與故障恢復路徑,確保系統在異常情況下能主動退出無效循環、回退至安全狀態,而非陷入無限嘗試。聚焦業務連續性保障,避免因局部故障導致整體流程失效。

      問題依據與內部實踐痛點

      • 行業共性問題:多智能體系統普遍存在流程死循環風險(如 Cursor 等工具中模型反復執行相同操作),在 AI 自動化場景中尤為突出。例如,當用戶未填寫必選 SKU 時,系統通常觸發 toast 提示,但 AI 在截圖 / 操作過程中可能無法捕獲此類信息,導致模型陷入“嘗試 - 失敗 - 重試”的無限循環。

      • 動態死循環檢測機制

        • 基于 History 和 Memory 設計算法,實時分析操作序列相似度(如連續 3 次相同點擊指令,及相似參數返回,即觸發預警);

        • 設定閾值規則:當操作重復率≥60% 或單節點耗時超時,自動判定進入死循環。

      • 分層恢復路徑設計

        • 一級自檢:輕量級模型(如 Qwen3-VL-7B)快速掃描歷史操作,通過 ReAct 邏輯判斷根本原因(例:識別“未捕獲 toast”后觸發跳過指令);

        • 二級升級:對復雜循環(如多端交互差異),臨時調用高參數模型(qwen3-vl-235b-a22b-thinking)進行深度推理,結合 RAG 補充行業知識庫(如“下單頁 SKU 選擇死循環通用處理方案”)檢測到連續 N 次無效點擊,workflow 自動調用 RAG 獲取“必填項缺失”處理方案;;

        • 安全回退:強制回退至最近穩定檢查點(如“度假搜索 Listing 頁”),避免全流程重啟。

      價值體現:工作流設計的本質是賦予 AI 系統“自省能力”——通過防死循環機制與分層恢復策略,將故障轉化為可自動修復的常規操作,使技術演進真正服務于業務穩定性目標。

      3.3、通過 RAG、記憶體與子智能體補充業務垂類知識,保障高 UV 頁面路徑的精準覆蓋

      核心原則:將業務垂類知識深度嵌入 AI 工作流,確保模型理解真實用戶行為路徑與行業術語邏輯,使測試覆蓋嚴格對齊核心業務流目標,避免因知識缺失導致的路徑偏差與漏檢風險。

      問題依據與內部實踐痛點

      • 用戶路徑覆蓋失準:模型對業務高頻路徑的理解存在偏差。例如,當指令為“訂北京中關村附近,500 元預算,下個月 1 號大床房”時,實際用戶 90% 通過“酒店金剛”或“豬搜”入口操作,但自動化測試常誤判至其他資源位(如活動頁),導致核心 UV 頁面鏈路覆蓋準確率不足,無法有效驗證真實用戶高頻場景。

      • 行業術語理解缺失:模型對垂類術語(如“交通 OD”指交通出行數據、“OTA 頁面”指在線旅游平臺)存在歧義,引發測試用例生成邏輯錯誤。例如,在航班測試中,“OD”被誤識別為“訂單”,導致關鍵流程驗證失效。

      實施策略

      • RAG 業務知識庫定制:

        • 構建飛豬專屬知識庫,整合用戶行為熱力圖(如酒店金剛點擊路徑)、行業術語詞典(如“OD=Origin-Destination”),在 Prompt 生成前動態注入上下文。

        • 例如,當檢測到“訂酒店”指令,且無其他特殊要求時,RAG 自動匹配“酒店金剛”作為首選入口,確保測試路徑與真實用戶行為一致。

      • 記憶體(Mem)動態優化:

        • 設計短期記憶模塊,實時記錄用戶歷史操作特征(如連續 3 次從“搜索模塊”進入酒店列表),在決策時應該優先調用高頻路徑邏輯。

        • 針對大促營銷活動期,記憶體自動識別新增入口(如“雙 11 特惠”標簽),動態調整測試優先級。

      • 子智能體(sub-Agent)分工協同:

        • 路由 Agent:專責解析指令并匹配高頻用戶路徑(如識別“訂酒店”自動路由至酒店金剛);

        • 術語 Agent:實時校正行業黑話(如將“交通 OD”映射為交通數據模塊),確保測試邏輯無歧義;

        • 驗證 Agent:在關鍵節點(如支付前)交叉校驗路徑是否覆蓋核心 UV 頁面,觸發偏差預警。

      價值體現:業務垂類知識是 AI 自動化測試的“導航儀”——通過 RAG、記憶體與子智能體的協同設計,將抽象指令轉化為精準的業務路徑驗證,確保技術服務于核心用戶場景的質量保障目標。

      3.4、持續跟進前沿技術,動態演進應用能力,優化整體鏈路效果

      核心原則:將技術演進,視為應用體系的有機組成部分,通過持續跟蹤 AI 能力邊界拓展與生態創新,實現測試鏈路與業務復雜度的動態適配,避免技術滯后成為效果瓶頸。

      問題依據與內部實踐痛點

      AI 技術的演化迭代速度日新月異,在 AI 自動化的基座模型下,我們從最初 gpt3.5 只能寫文字、到 gpt4 可以多模態傳圖片,到 qwen-vl-max-latest 能夠在點擊、滑動時,精準給到像素級別的操作 的 pixel point,都表明了技術能力的演進速度,已經遠遠超越我們去思考如何 fix issue 的迭代速度了。

      通過建立與 AI 技術發展同頻的升級機制,技術底座持續吸收 AI 的開源演化成果,并高效整合開源生態創新,使測試體系始終具備精準匹配業務迭代的適應性。

      3.5、拓展 AI 泛化檢查能力,加強視覺智能感知與斷言,降低漏測概率

      核心原則:突破操作意圖識別的局限,將 AI 能力延伸至對視覺界面的動態理解與泛化校驗,使測試體系從“執行動作”轉向“結果驗證”,確保系統能自主感知 UI 狀態變化并判斷業務邏輯一致性。

      問題依據與內部實踐痛點: 現有測試過度依賴操作指令解析與“編碼形式的斷言”,難以應對多端 UI 差異場景下的隱性問題。例如,小程序中優惠券彈窗樣式,可能只斷言了彈出是否彈出,或者彈窗文案是否正常展示,但是如果彈窗局部出現了空坑,或者渲染異常,通過 “編碼形式的傳統斷言” 是無法及時感知與相應的,如此就產生了漏測的可能。

      而 AI 本身的圖片解析與研判能力,就可以很好的處理這些問題,即可以判斷單張圖片上的泛化異常問題,也可以在多張圖片的鏈路上,去分析判斷一致性等相關問題。又或者結合實事、工單、可訴等相關外部數據,給出非邏輯 BUG 的風險提醒。

      價值體現:AI 泛化檢查是質量保障的“視覺神經”——讓測試能力從機械執行轉向智能感知,確保技術演進始終服務于用戶體驗的核心目標。

      四、效果展示

      從幾個櫥窗場景,進行 AI 智能化效果展示。

      4.1、對于異常彈窗的靜默處理


      4.2、對于異形元素(無文字)的像素級坐標感知


      4.3、對于連續邏輯的動態自檢與判斷能力


      4.4 對于循環操作的短期記憶


      4.5 對于死循環場景的脫困能力


      4.6 對于截圖的泛化檢查能


      五、思考總結

      AI 技術的深度引入,有效解決了 C 端 UI 自動化質量保障體系普遍存在的通用問題,推動測試能力實現較大的提升:

      1. 用例維護成本顯著降低通過 AI 語義化改造,系統能夠動態理解業務變更邏輯(如營銷活動入口調整),自動適配用例,大幅減少因業務快速迭代導致的人工維護投入,使團隊精力從重復性調整轉向測試策略優化。

      2. 測試覆蓋深度切實提升泛化檢查能力突破了傳統編碼斷言的局限,使驗證從操作指令延伸至結果狀態。系統可自主識別多端 UI 差異中的隱性問題(如彈窗渲染異常、元素空坑等),有效彌補了人工難以覆蓋的視覺類風險盲區。

      3. 多端兼容性問題系統性改善基于 RAG、記憶體與子智能體的協同設計,AI 深度融入業務垂類邏輯(如高頻用戶路徑、行業術語校正),確保測試流嚴格對齊真實用戶行為,顯著降低了因端側差異引發的漏檢風險。

      本質價值:AI 不是簡單替代人工,而是將測試工程師從機械執行中解放,使其聚焦于質量策略設計與業務風險預判。當系統能自主完成彈窗處理、像素級操作及死循環脫困時,質量保障真正實現了從“執行工具”到“智能伙伴”的轉變——技術價值的體現,在于讓專業能力更高效地服務于用戶體驗本質。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普驚出一身冷汗:中美已無法開戰,一殺手锏讓美軍無計可施

      特朗普驚出一身冷汗:中美已無法開戰,一殺手锏讓美軍無計可施

      馬鞄戶外釣魚哥
      2026-02-22 14:53:23
      “初中女生扶老人遭索賠22萬元”有新進展,律師:原告主張賠償項目與金額嚴重失衡

      “初中女生扶老人遭索賠22萬元”有新進展,律師:原告主張賠償項目與金額嚴重失衡

      現代快報
      2026-02-23 07:37:03
      你祖上有啥很大的機緣轉折點?網友:但凡發生一下改變,就沒你了

      你祖上有啥很大的機緣轉折點?網友:但凡發生一下改變,就沒你了

      帶你感受人間冷暖
      2026-02-13 15:23:12
      為何年紀大了會越羨慕體制內的人?這是我見過最簡明易懂的答案

      為何年紀大了會越羨慕體制內的人?這是我見過最簡明易懂的答案

      夜深愛雜談
      2026-02-21 21:39:42
      警惕“漢字阿音”背后的去中國化!

      警惕“漢字阿音”背后的去中國化!

      西域都護
      2026-02-23 13:21:31
      一顆榴蓮,快讓東南亞卷成“晉西北”了!

      一顆榴蓮,快讓東南亞卷成“晉西北”了!

      流蘇晚晴
      2026-01-07 20:13:10
      紅四軍總政委未入1955年授銜名單,晚年自殺后子孫境遇如何?

      紅四軍總政委未入1955年授銜名單,晚年自殺后子孫境遇如何?

      一篇枯寂
      2026-02-23 14:09:16
      女子因桃花眼走紅,訂婚兩年熱度依舊,網友喊話:88號快回來上班

      女子因桃花眼走紅,訂婚兩年熱度依舊,網友喊話:88號快回來上班

      小欣欣聊體育
      2025-12-20 18:05:15
      新王崛起!康寧漢姆劍指常規賽MVP,聯盟下一個門面即將誕生!

      新王崛起!康寧漢姆劍指常規賽MVP,聯盟下一個門面即將誕生!

      田先生籃球
      2026-02-22 22:16:00
      史上最亂倫成語“上蒸下報”

      史上最亂倫成語“上蒸下報”

      華人星光
      2026-02-21 11:24:05
      18萬人次抵滬,直擊上?;疖囌尽昂蟀胍埂保憾恬g車謝幕,地鐵無縫接力

      18萬人次抵滬,直擊上?;疖囌尽昂蟀胍埂保憾恬g車謝幕,地鐵無縫接力

      上觀新聞
      2026-02-23 09:11:36
      古代太監是割蛋還是割雞,他們說話的聲音真的是娘娘腔嗎?

      古代太監是割蛋還是割雞,他們說話的聲音真的是娘娘腔嗎?

      孫縭北漂拍客
      2026-02-03 12:55:11
      皖南事變的導火索是黃橋?其實另一戰關系更大,黃克誠苦勸無果

      皖南事變的導火索是黃橋?其實另一戰關系更大,黃克誠苦勸無果

      近史談
      2026-02-23 00:25:41
      恩愛17年難抵殘酷現實,王志文近況曝光,年齡差終究是道坎

      恩愛17年難抵殘酷現實,王志文近況曝光,年齡差終究是道坎

      琨玉秋霜
      2026-02-23 03:39:38
      張本美和3:1狀態爆棚,10連敗陰影下欲掀翻王曼昱

      張本美和3:1狀態爆棚,10連敗陰影下欲掀翻王曼昱

      阿晞體育
      2026-02-23 10:45:18
      “小婉君”金銘45歲現狀:個子太矮事業受挫,住北京豪宅不婚不育

      “小婉君”金銘45歲現狀:個子太矮事業受挫,住北京豪宅不婚不育

      削桐作琴
      2026-01-29 00:03:53
      10億!全球口腔器械巨頭落戶蘇州

      10億!全球口腔器械巨頭落戶蘇州

      醫療器械經銷商聯盟
      2026-02-22 08:00:34
      “掉價”的鉆石:萬元鉆戒回收價不足2600元,其中1700多元來自金戒托

      “掉價”的鉆石:萬元鉆戒回收價不足2600元,其中1700多元來自金戒托

      極目新聞
      2026-02-22 21:15:36
      2300一噸,5年收了3萬噸!日本狂收東北落葉,24年專家揭露真相

      2300一噸,5年收了3萬噸!日本狂收東北落葉,24年專家揭露真相

      福建平子
      2026-02-05 16:37:30
      腎病新突破!研究證實:補足3類營養,腎臟很難惡化

      腎病新突破!研究證實:補足3類營養,腎臟很難惡化

      岐黃傳人孫大夫
      2026-02-01 06:55:03
      2026-02-23 16:08:49
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      12068文章數 51762關注度
      往期回顧 全部

      科技要聞

      騰訊字節,“火拼”漫劇

      頭條要聞

      特朗普被指考慮對伊朗先“小打”再“大打”

      頭條要聞

      特朗普被指考慮對伊朗先“小打”再“大打”

      體育要聞

      哈登版騎士首?。豪做墓谲娬n

      娛樂要聞

      谷愛凌奶奶去世,谷愛凌淚奔

      財經要聞

      結婚五金邁入10萬大關 年輕人結婚更難了

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      藝術
      健康
      旅游
      教育
      房產

      藝術要聞

      十大名家畫春,送給春天的你!

      轉頭就暈的耳石癥,能開車上班嗎?

      旅游要聞

      別跑空!五朵山五峰區臨時關閉!

      教育要聞

      大動作:英國留學劇本大變!

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      無障礙瀏覽 進入關懷版