<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      告別Flaky Tests:AI測試中的評分卡實戰技巧

      0
      分享至

      在AI測試中使用評分卡沒你想的那么糟

      誰不喜歡斷言(asserts)呢?



      我們有個壞習慣,把"簡單"和"容易"混為一談。在傳統自動化中,定義質量很簡單。它是二元的。要么匹配,要么不匹配。綠色或紅色。

      `Assert.AreEqual(expected, actual)`

      但在AI領域,"好"不是二元的。它很復雜。有五十種正確說"你好"的方式,也有五十種粗魯說它的方式。作為人類,我們憑直覺處理這種復雜性。我們讀到一個不完美但抓住了主要思想的輸出,會想:"嗯,夠好了。"

      但當我們試圖自動化這種感覺時,問題就開始了。自動化討厭"差不多對"。自動化想要精確。而當我們試圖將一個非確定性的、創造性的AI塞進一個僵化的、二元的盒子里時,我們得到的不是質量。相反,我們得到的是不穩定的測試(flaky tests)。



      僵化數學的問題

      讓我們看一個真實世界的例子:我的API 分析智能體(An API Analysis Agent)。

      這是一個設計用來分析API端點的AI智能體。你給它一個提示詞:"分析這個端點,給我3個有效輸入的建議、3個無效輸入的建議,以及3個邊界情況的建議。"

      在傳統測試中,你的斷言邏輯大概長這樣:

      assert len(suggestions.valid)== 3assert len(suggestions.invalid) == 3assert len(suggestions.edge_cases)== 3

      現在,假設 AI 返回了:

      ● 3個有效建議。

      ● 3個無效建議。

      ● 2個邊界情況。

      總計:完成了9個請求中的8個

      在傳統自動化的二元世界里,這個測試失敗了。報告變紅。流水線停止。你在Slack上收到告警。你看著失敗說:"蠢 AI。"(當然,別在麥克風附近說,它可能會聽見)。

      但等等,看看數據。它給了你 8 個扎實的建議。它找到了有效輸入和無效輸入。它甚至找到了兩個棘手的邊界情況。它只是漏了一個邊界情況。這是一個"失敗"的結果嗎?還是這是一個非常有用的結果,只是沒達到一個arbitrary(隨意設定)的計數?

      通過把這個標記為失敗,你在扔掉價值。你在用一個二元的"壞"標簽,掩蓋一個"夠好"的結果。



      解決方案:評分卡

      為了解決這個問題,我們必須停止測試相等性(Equality),開始測試實用性(Utility)。我們需要從二元斷言轉向評分卡(Scorecard)。

      評分卡將"夠好"量化。它將結果分解成加權的概念并把它們加起來。

      讓我們把我們之前的API結果翻譯成使用評分卡的方法:

      評分標準

      ● 有效輸入:每個 1 分(最多 3 分)

      ● 無效輸入:每個 1 分(最多 3 分)

      ● 邊界情況:每個 1 分(最多 3 分)

      通過閾值

      ● 及格分數:> 6

      執行過程:AI 返回了 3 個有效、3 個無效和 2 個邊界情況。

      ● 分數:3 + 3 + 2 = 8

      ● 閾值:6

      ● 結果:通過

      突然之間,你的測試套件不是紅的了。它是綠的。為什么?因為產品完成了它的工作。它提供了價值。評分卡反映的是質量的現實,而不僅僅是提示詞的嚴格性。

      進化:評分卡是活的代碼

      關鍵來了:這個評分卡不是靜態的。今天6分的閾值可能是可接受的。但隨著你的模型改進,或者你優化提示詞工程,你可能會把閾值提高到8。或者你可能給"有效案例"加個乘數,因為它們更重要。

      這不是"維護負擔",這是質量工程(Quality Engineering)。你在主動決定"夠好"長什么樣,并把它編碼進你的套件。



      結論

      測試基于AI的產品或智能體,需要我們在如何看待自動化上進行根本性轉變。我們正在從檢查字符串轉向評分行為。我們正在從"通過/失敗"轉向"夠好"。

      如果你還在試圖對LLM 輸出使用`Assert.Equals`,那你將會在 2026 年和你自己的測試套件打架。而且你會輸。

      `Assert.Equals`

      這種從二元到評分的轉變,正是我們想鼓勵人們開始使用的戰略性思考。這就是我的Captain's Bridge(艦長橋)的用武之地。讓我們停止與我們的工具對抗,開始領導我們的質量——來自戰壕的戰略原則或實踐。

      ??轉崗軟件測試/野路子技能提升

      ??想了解更多漲薪技能提升方法

      ??可以到我的個人號:atstudy-js

      即可加入領取 ??????

      轉行、入門、提升、需要的各種干貨資料

      內含AI測試、 車載測試、AI大模型開發、BI數據分析、銀行測試、游戲測試、AIGC

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      剛剛!馬略卡2-1絕殺皇馬,掀翻銀河戰艦的竟是這位阿根廷名宿?

      剛剛!馬略卡2-1絕殺皇馬,掀翻銀河戰艦的竟是這位阿根廷名宿?

      仰臥撐FTUer
      2026-04-05 00:53:02
      官宣!34歲奧斯卡因病正式退役 放棄6647萬薪水 中超8年賺16億

      官宣!34歲奧斯卡因病正式退役 放棄6647萬薪水 中超8年賺16億

      念洲
      2026-04-04 21:52:19
      拋棄中國,伊朗為何選擇日本作為中間調停者

      拋棄中國,伊朗為何選擇日本作為中間調停者

      民間胡扯老哥
      2026-04-03 02:20:49
      家暴打死老婆,他在行刑前尿了褲子:終于怕了

      家暴打死老婆,他在行刑前尿了褲子:終于怕了

      大道微言
      2026-04-04 14:49:29
      1.5億巨頭失良機,小將99分鐘絕殺!0-2到3-2,拜仁向皇馬宣戰

      1.5億巨頭失良機,小將99分鐘絕殺!0-2到3-2,拜仁向皇馬宣戰

      我的護球最獨特
      2026-04-04 23:37:17
      王曼昱半決賽不妙!累到請馬琳扔毛巾,郭焱透露壞消息質疑不合理

      王曼昱半決賽不妙!累到請馬琳扔毛巾,郭焱透露壞消息質疑不合理

      三十年萊斯特城球迷
      2026-04-04 22:52:08
      伊朗官方確認:翼龍-2首次參戰即被擊落,海灣國家反應強烈

      伊朗官方確認:翼龍-2首次參戰即被擊落,海灣國家反應強烈

      衣服固元膏
      2026-04-04 15:53:17
      斯諾克最新戰報!希金斯啞火僅8分,趙心童大逆轉,半決賽連贏3局

      斯諾克最新戰報!希金斯啞火僅8分,趙心童大逆轉,半決賽連贏3局

      劉姚堯的文字城堡
      2026-04-04 21:02:56
      從1-3到4-3!王楚欽重壓下完成大逆轉,艱難晉級世界杯四強

      從1-3到4-3!王楚欽重壓下完成大逆轉,艱難晉級世界杯四強

      全景體育V
      2026-04-04 20:09:01
      別什么東西都往豆包上發了,男子發私照讓豆包評價身材,賬號遭封禁:會有人審核,別亂發亂聊天

      別什么東西都往豆包上發了,男子發私照讓豆包評價身材,賬號遭封禁:會有人審核,別亂發亂聊天

      觀威海
      2026-04-04 16:15:03
      金昊,已被執行死刑

      金昊,已被執行死刑

      中國新聞周刊
      2026-04-03 23:17:17
      爆雷了!知名電商平臺總部人去樓空,大量供應商被欠款

      爆雷了!知名電商平臺總部人去樓空,大量供應商被欠款

      鳳凰網財經
      2026-04-04 20:41:42
      澳門世界杯捷報:4強全出爐,衛冕冠軍4:3晉級,王楚欽壓力陡增

      澳門世界杯捷報:4強全出爐,衛冕冠軍4:3晉級,王楚欽壓力陡增

      順靜自然
      2026-04-04 16:47:33
      造價7.5億美元,貝克漢姆展示邁阿密國際新主場:我們的新家

      造價7.5億美元,貝克漢姆展示邁阿密國際新主場:我們的新家

      懂球帝
      2026-04-04 10:59:09
      美軍為何大白天冒險深入伊朗腹地救大兵?若其被俘或直接改變戰事結局

      美軍為何大白天冒險深入伊朗腹地救大兵?若其被俘或直接改變戰事結局

      紅星新聞
      2026-04-04 13:29:21
      調查!存儲價格“急漲急跌”背后:國內現貨一周跌去25%,海外合約價為何暴漲70%

      調查!存儲價格“急漲急跌”背后:國內現貨一周跌去25%,海外合約價為何暴漲70%

      華夏時報
      2026-04-03 17:31:03
      “美軍特種部隊已進入伊朗”

      “美軍特種部隊已進入伊朗”

      觀察者網
      2026-04-04 20:03:27
      “麻豆傳媒·關停”:黃色產業,居然也有寒冬!?

      “麻豆傳媒·關停”:黃色產業,居然也有寒冬!?

      辰星雜談
      2026-04-04 13:38:22
      阿爾忒彌斯二號拍攝令人驚嘆的地球照片

      阿爾忒彌斯二號拍攝令人驚嘆的地球照片

      一半杯
      2026-04-03 23:33:48
      “5G基站”施工時被執法部門叫停,發現紅頭文件為偽造,有公司墊資近200萬;陜西省通信管理局:沒有此“合作”項目;警方正在調查

      “5G基站”施工時被執法部門叫停,發現紅頭文件為偽造,有公司墊資近200萬;陜西省通信管理局:沒有此“合作”項目;警方正在調查

      大象新聞
      2026-04-04 10:45:12
      2026-04-05 01:08:49
      51Testing軟件測試網 incentive-icons
      51Testing軟件測試網
      中國軟件測試人的精神家園
      1549文章數 13258關注度
      往期回顧 全部

      科技要聞

      內存一年漲四倍!國產手機廠商集體漲價

      頭條要聞

      特朗普發文:距離一切災難降臨在伊朗頭上僅剩48小時

      頭條要聞

      特朗普發文:距離一切災難降臨在伊朗頭上僅剩48小時

      體育要聞

      剎不住的泰格·伍茲,口袋里的兩粒藥丸

      娛樂要聞

      Q女士反擊,否認逼宋寧峰張婉婷離婚

      財經要聞

      中微董事長,給半導體潑點冷水

      汽車要聞

      17萬級海豹07EV 不僅續航長還有9分鐘滿電的快樂

      態度原創

      游戲
      藝術
      本地
      旅游
      公開課

      好玩還上頭!創新與傳統并存的戰棋黑馬《永鈴回響》值不值得玩?

      藝術要聞

      你絕對不能錯過的夢幻性感攝影作品!

      本地新聞

      跟著歌聲游安徽,聽古村回響

      旅游要聞

      櫻郵聯動!郵輪游客赴顧村公園賞櫻,解鎖“一票雙享”新玩法

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版