<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      告別Flaky Tests:AI測試中的評分卡實戰技巧

      0
      分享至

      在AI測試中使用評分卡沒你想的那么糟

      誰不喜歡斷言(asserts)呢?



      我們有個壞習慣,把"簡單"和"容易"混為一談。在傳統自動化中,定義質量很簡單。它是二元的。要么匹配,要么不匹配。綠色或紅色。

      `Assert.AreEqual(expected, actual)`

      但在AI領域,"好"不是二元的。它很復雜。有五十種正確說"你好"的方式,也有五十種粗魯說它的方式。作為人類,我們憑直覺處理這種復雜性。我們讀到一個不完美但抓住了主要思想的輸出,會想:"嗯,夠好了。"

      但當我們試圖自動化這種感覺時,問題就開始了。自動化討厭"差不多對"。自動化想要精確。而當我們試圖將一個非確定性的、創造性的AI塞進一個僵化的、二元的盒子里時,我們得到的不是質量。相反,我們得到的是不穩定的測試(flaky tests)。



      僵化數學的問題

      讓我們看一個真實世界的例子:我的API 分析智能體(An API Analysis Agent)。

      這是一個設計用來分析API端點的AI智能體。你給它一個提示詞:"分析這個端點,給我3個有效輸入的建議、3個無效輸入的建議,以及3個邊界情況的建議。"

      在傳統測試中,你的斷言邏輯大概長這樣:

      assert len(suggestions.valid)== 3assert len(suggestions.invalid) == 3assert len(suggestions.edge_cases)== 3

      現在,假設 AI 返回了:

      ● 3個有效建議。

      ● 3個無效建議。

      ● 2個邊界情況。

      總計:完成了9個請求中的8個

      在傳統自動化的二元世界里,這個測試失敗了。報告變紅。流水線停止。你在Slack上收到告警。你看著失敗說:"蠢 AI。"(當然,別在麥克風附近說,它可能會聽見)。

      但等等,看看數據。它給了你 8 個扎實的建議。它找到了有效輸入和無效輸入。它甚至找到了兩個棘手的邊界情況。它只是漏了一個邊界情況。這是一個"失敗"的結果嗎?還是這是一個非常有用的結果,只是沒達到一個arbitrary(隨意設定)的計數?

      通過把這個標記為失敗,你在扔掉價值。你在用一個二元的"壞"標簽,掩蓋一個"夠好"的結果。



      解決方案:評分卡

      為了解決這個問題,我們必須停止測試相等性(Equality),開始測試實用性(Utility)。我們需要從二元斷言轉向評分卡(Scorecard)。

      評分卡將"夠好"量化。它將結果分解成加權的概念并把它們加起來。

      讓我們把我們之前的API結果翻譯成使用評分卡的方法:

      評分標準

      ● 有效輸入:每個 1 分(最多 3 分)

      ● 無效輸入:每個 1 分(最多 3 分)

      ● 邊界情況:每個 1 分(最多 3 分)

      通過閾值

      ● 及格分數:> 6

      執行過程:AI 返回了 3 個有效、3 個無效和 2 個邊界情況。

      ● 分數:3 + 3 + 2 = 8

      ● 閾值:6

      ● 結果:通過

      突然之間,你的測試套件不是紅的了。它是綠的。為什么?因為產品完成了它的工作。它提供了價值。評分卡反映的是質量的現實,而不僅僅是提示詞的嚴格性。

      進化:評分卡是活的代碼

      關鍵來了:這個評分卡不是靜態的。今天6分的閾值可能是可接受的。但隨著你的模型改進,或者你優化提示詞工程,你可能會把閾值提高到8。或者你可能給"有效案例"加個乘數,因為它們更重要。

      這不是"維護負擔",這是質量工程(Quality Engineering)。你在主動決定"夠好"長什么樣,并把它編碼進你的套件。



      結論

      測試基于AI的產品或智能體,需要我們在如何看待自動化上進行根本性轉變。我們正在從檢查字符串轉向評分行為。我們正在從"通過/失敗"轉向"夠好"。

      如果你還在試圖對LLM 輸出使用`Assert.Equals`,那你將會在 2026 年和你自己的測試套件打架。而且你會輸。

      `Assert.Equals`

      這種從二元到評分的轉變,正是我們想鼓勵人們開始使用的戰略性思考。這就是我的Captain's Bridge(艦長橋)的用武之地。讓我們停止與我們的工具對抗,開始領導我們的質量——來自戰壕的戰略原則或實踐。

      ??轉崗軟件測試/野路子技能提升

      ??想了解更多漲薪技能提升方法

      ??可以到我的個人號:atstudy-js

      即可加入領取 ??????

      轉行、入門、提升、需要的各種干貨資料

      內含AI測試、 車載測試、AI大模型開發、BI數據分析、銀行測試、游戲測試、AIGC

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      歐冠4強:拜仁巴黎巔峰碰撞,槍手地獄賽程苦戰馬競

      歐冠4強:拜仁巴黎巔峰碰撞,槍手地獄賽程苦戰馬競

      體壇周報
      2026-04-16 07:03:15
      姆巴佩連續2年四大皆空,或再目送大巴黎奪冠,恩里克預言太準了

      姆巴佩連續2年四大皆空,或再目送大巴黎奪冠,恩里克預言太準了

      夏侯看英超
      2026-04-16 11:16:10
      白宮:正在討論美伊再次會談 伊朗:是否延長停火不確定

      白宮:正在討論美伊再次會談 伊朗:是否延長停火不確定

      新華社
      2026-04-16 08:11:54
      教皇在安全時勇敢,川普:他不知道伊朗殺了4.2萬抗議者

      教皇在安全時勇敢,川普:他不知道伊朗殺了4.2萬抗議者

      移光幻影
      2026-04-15 08:41:27
      6-4血戰出局皇馬創歐冠最快進球仍崩盤,拜仁14年后再斬銀河戰艦

      6-4血戰出局皇馬創歐冠最快進球仍崩盤,拜仁14年后再斬銀河戰艦

      阿晞體育
      2026-04-16 11:29:32
      大疆致命失誤!29個核心元老被裁,親手培養出全球最大勁敵

      大疆致命失誤!29個核心元老被裁,親手培養出全球最大勁敵

      北緯的咖啡豆
      2026-04-15 19:56:47
      越南中央軍委書記、副書記、常委名單

      越南中央軍委書記、副書記、常委名單

      汲古知新
      2026-04-14 21:58:41
      演員王星自曝被騙緬甸時手機被刷高額網貸,回應不結婚原因,至今無力還清女友借款

      演員王星自曝被騙緬甸時手機被刷高額網貸,回應不結婚原因,至今無力還清女友借款

      大風新聞
      2026-04-15 22:58:05
      傳戒法會相關短視頻引發網絡炒作,杭州靈隱寺嚴正聲明

      傳戒法會相關短視頻引發網絡炒作,杭州靈隱寺嚴正聲明

      澎湃新聞
      2026-04-15 16:50:04
      事實證明,被奶奶“雪藏”的神童王恒屹,如今已走上另一條大道

      事實證明,被奶奶“雪藏”的神童王恒屹,如今已走上另一條大道

      云景侃記
      2026-04-15 19:45:04
      法國全票通過!“將不義之財歸還中國”

      法國全票通過!“將不義之財歸還中國”

      澎湃新聞
      2026-04-15 21:05:12
      Lululemon“避孕門”曝光!3億中產天塌了!

      Lululemon“避孕門”曝光!3億中產天塌了!

      廣告案例精選
      2026-04-16 08:28:23
      22中7,3分5中0,生死戰徹底拉胯!這筆7換1交易也驗證失敗了

      22中7,3分5中0,生死戰徹底拉胯!這筆7換1交易也驗證失敗了

      毒舌NBA
      2026-04-16 10:29:20
      女人愛到極致是脫光,男人愛到極致是窩囊:這才是人生最狠的真相

      女人愛到極致是脫光,男人愛到極致是窩囊:這才是人生最狠的真相

      青蘋果sht
      2026-04-07 05:45:55
      印度慘遭羞辱:250萬噸尿素全球招標,竟無人問津,中企集體缺席

      印度慘遭羞辱:250萬噸尿素全球招標,竟無人問津,中企集體缺席

      通鑒史智
      2026-04-15 11:43:12
      反轉反轉再反轉,發明附加賽的人是天才

      反轉反轉再反轉,發明附加賽的人是天才

      只關于籃球
      2026-04-15 12:44:10
      去年全球消失12家航空公司,中國4家上榜

      去年全球消失12家航空公司,中國4家上榜

      新浪財經
      2026-04-16 01:16:08
      越南人來北京旅游,回國后搖頭感慨:中國已經是超一等國家了

      越南人來北京旅游,回國后搖頭感慨:中國已經是超一等國家了

      幾人盡棄
      2026-04-15 18:51:55
      天后麥當娜:一生交往一百多猛男,與自己保鏢歡愛視頻,還被拍賣

      天后麥當娜:一生交往一百多猛男,與自己保鏢歡愛視頻,還被拍賣

      七阿姨愛八卦
      2026-04-09 09:32:37
      一集飆出8.8,全球現象級神劇,終于來了

      一集飆出8.8,全球現象級神劇,終于來了

      獨立魚
      2026-04-15 21:11:02
      2026-04-16 12:03:00
      51Testing軟件測試網 incentive-icons
      51Testing軟件測試網
      中國軟件測試人的精神家園
      1556文章數 13260關注度
      往期回顧 全部

      科技要聞

      39.98萬!小鵬GX預售“純電增程同價”

      頭條要聞

      上海阿姨向親生兒子索要36萬"帶孫費" 兒子當庭喊冤

      頭條要聞

      上海阿姨向親生兒子索要36萬"帶孫費" 兒子當庭喊冤

      體育要聞

      WNBA史上最大合同!阿賈3年500萬超級頂薪留隊

      娛樂要聞

      黃景瑜王玉雯否認戀情!聚會細節被扒

      財經要聞

      一季度GDP,5.0%!

      汽車要聞

      空間大五個乘客都滿意?體驗嵐圖泰山X8

      態度原創

      教育
      旅游
      藝術
      房產
      公開課

      教育要聞

      官方通知!招生計劃向理工農醫類傾斜

      旅游要聞

      “帶寵物入園可免門票” 遼寧一景區推出免門票活動 游客腦洞大開 于是雞、鴨、鵝、羊、孔雀也都來了

      藝術要聞

      張大千『 花菓薈萃冊』

      房產要聞

      業主狂喜!海口二手房價,終于漲了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版