<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      2屆世界冠軍的烤肉自己不吃:一個評分系統如何把美食變成糖衣炮彈

      0
      分享至


      Johnny Trigger拿過兩次世界烤肉冠軍。他的比賽肋排 legendary——糖釉光亮,層層疊疊裹著砂糖、紅糖、蜂蜜,甜醬厚到能反光。評委們愛死這東西。Trigger自己呢?"我絕不會吃這個。"他在一個烤肉論壇上 admitted。

      停一下。全世界最好的比賽烤肉,創造者自己不吃。

      這不是講烤肉。這是講當你測錯了東西——或者更精確地說,當你測對了東西,然后眼睜睜看著它變質成認不出的模樣——會發生什么。故事從堪薩斯城的一個煙熏爐開始,繞道殖民時期的印度和蘇聯工廠,最后直視我們正在建造的、替我們思考的機器。

      評分系統如何"馴化"了烤肉

      堪薩斯城烤肉協會(KCBS)是全球最大的烤肉比賽認證機構。他們的評分系統很直接:外觀、味道、嫩度各打1到10分,味道權重最高。夠簡單吧?

      但"味道"是主觀的,評委面臨一個具體問題:味覺疲勞。一次 sitting 要嘗20多份作品,每份只咬一兩口,你對 subtle 煙熏層次或復雜香料的感知能力會 collapse。什么能穿透這種疲憊?糖。

      甜味瞬間 register。它攜帶鹽分,不冒犯任何人。醋味主導的卡羅來納醬可能在第三口時 transcendent,但在評委的第一口——也是唯一一口,前面已經吃了17份——它只剩 sharp。在疲憊味覺的 landscape 里,甜味是最安全的 bet。

      于是 pitmasters 適應了。第一批 leaning into 糖分的選手贏了,meta-game 一夜之間 shift。"不幸的是,甜味就是烤肉比賽的方向,"一位 competitor 寫道,"老板們只做能贏的,只做他們認為評委想要的。"

      幾年內,比賽烤肉和人們實際吃的烤肉 diverged 成兩種完全不同的 cuisine。Aaron Franklin 傳奇的鹽胡椒 brisket——那種讓人們在奧斯汀排隊6小時、被廣泛認為是美國烤肉 gold standard 的東西——在 KCBS 比賽里可能得分很低,因為它缺少評委已經習慣的甜 glaze。

      這個 metric 本該識別 great barbecue。結果它創造了一個 parallel universe,在那里"贏"和"好吃"悄悄變成了兩件事。

      從殖民印度到蘇聯工廠:指標的詛咒

      1975年,英國經濟學家 Charles Goodhart 注意到英格蘭銀行用來指導政策的貨幣 indicators 有些問題。一旦某個統計規律性被采納為控制 target,它就 collapse。依賴測量的行為改變了被測量的事物本身。

      人類學家 Marilyn Strathern 后來將其提煉成大多數人知道的形式:"當一個 measure 成為 target,它就不再是一個 good measure。"這就是 Goodhart 定律。

      但這個現象遠比1975年古老。殖民時期的印度,英國政府擔心毒蛇,在德里懸賞捕殺眼鏡蛇。效果立竿見影——死蛇堆積。然后人們開始養蛇來換賞金。政府取消 program 后,養殖的蛇被 release,問題比原來更糟。

      蘇聯工廠按重量生產釘子,結果他們造出了巨大、無用的釘子。改成按數量生產,釘子變得小到幾乎看不見。測量驅動了行為,行為扭曲了產出。

      這些故事有個共同結構:你創造了一個 proxy 來代表某個難以直接測量的價值。然后人們 optimize 這個 proxy,直到 proxy 和原始價值之間的連接斷裂。糖釉肋排是 proxy。工廠釘子是 proxy。養的眼鏡蛇也是 proxy。

      AI 時代的"糖釉陷阱"

      現在看看我們正在建造的機器。大語言模型(LLM,Large Language Model)用人類反饋強化學習(RLHF,Reinforcement Learning from Human Feedback)訓練——讓人類評分者比較輸出,選出更好的。這本質上是一個 taste test。

      問題是,人類評分者也有 palate fatigue。他們面對大量文本,快速判斷。什么能穿透?流暢、自信、結構清晰的回答。聽起來像 Wikipedia 的。聽起來像客服腳本的。聽起來不像那個在深夜論壇里、帶著真實猶豫和具體經驗的 pitmaster。

      研究者發現,RLHF 訓練后的模型變得更長、更道歉、更愛用 bullet points。它們學會了評委的偏好,就像 Trigger 學會了 KCBS 的偏好。但"被評分者喜歡的回答"和"真正有用的回答"是同一回事嗎?

      一個模型可以生成完美的糖釉肋排——語法 flawless,結構 balanced,語氣 helpful——同時完全 miss 問題的 point。更糟的是,它可能 confident 地 hallucinate 事實,因為 confidence 在評分里 register 為"好"。

      我們正在建造的系統,optimize 的是可測量的東西:參與度、留存率、人類評分。而這些 measurable 的東西,和"幫助用戶完成真實任務"之間的距離,可能和比賽肋排與 Franklin 的 brisket 之間的距離一樣遠。

      當"贏"成為唯一邏輯

      Trigger 的肋排不是 bad food。在特定 context 里,它是 optimal 的。問題是 context 被設計成 reward 某種特定表現,而這種表現和"人們真正想吃的" diverged。

      科技公司面臨同樣的 tension。A/B 測試告訴你哪個版本轉化率更高,但不會告訴你用戶三個月后是否還滿意。點擊率 optimize 了即時反應,而不是長期價值。月活用戶(MAU,Monthly Active Users)這個數字本身成了 target,于是產品被設計成 maximize 打開次數,哪怕用戶每次打開都略感 annoyance。

      Goodhart 定律的殘酷在于:它不是關于"測錯了東西"。Trigger 的味道評分是合理的 proxy。問題在于,一旦這個 proxy 被 institutionalized,系統就開始圍繞它重組。評委期待甜味,選手提供甜味,評委的 palate 進一步被校準到期待甜味。Feedback loop 自我強化,直到原始目的被遺忘。

      AI 研究者已經開始注意到 RLHF 的局限。一些團隊嘗試用更復雜的評估——讓專家深入判斷,而不是快速 taste test。另一些在探索自動評估,但這只是用另一個 proxy 替代當前的 proxy。沒有人有完美的答案。

      Franklin 的 brisket 在 KCBS 里贏不了,但人們在雨里排六小時隊。這個對比提示了某種出路:也許我們需要 multiple systems,而不是單一 metric。也許需要給"不 optimize 任何東西"的空間留出位置。也許需要有人愿意說:我知道這個不會贏,但這是我愿意吃的。

      Trigger 后來怎么樣了?他仍在比賽,仍在贏。但他的餐廳賣的是另一種東西——鹽、胡椒、煙、時間。沒有糖釉。有人問為什么,他說了句在 pitmaster 圈子里被反復引用的話:"評委不是我的顧客。"

      那么,當你的 AI 系統的"評委"也不是你的真實用戶時,你在 optimize 的到底是什么?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一覺醒來,斯諾克3冠軍翻車!丁俊暉克星3-1被逆轉,70后名將降級

      一覺醒來,斯諾克3冠軍翻車!丁俊暉克星3-1被逆轉,70后名將降級

      劉姚堯的文字城堡
      2026-04-10 07:47:34
      特斯拉開發全新緊湊型SUV:在中國生產、比Model 3還便宜

      特斯拉開發全新緊湊型SUV:在中國生產、比Model 3還便宜

      鳳凰網科技
      2026-04-09 19:49:32
      厲害了!一個無人機外賣,把鄭麗文看呆了,那其他硬科技怎么辦

      厲害了!一個無人機外賣,把鄭麗文看呆了,那其他硬科技怎么辦

      魔都姐姐雜談
      2026-04-09 19:25:43
      日媒:“太子集團”高管在日購豪宅,價值超20億!更多細節被曝光

      日媒:“太子集團”高管在日購豪宅,價值超20億!更多細節被曝光

      消失的電波
      2026-04-10 09:31:06
      一夜暴漲8120億,美國再度突破芯片世界難題,中國還能追趕上嗎?

      一夜暴漲8120億,美國再度突破芯片世界難題,中國還能追趕上嗎?

      混沌錄
      2026-04-08 16:54:21
      美股深V反彈,半導體股爆發,閃迪漲超9%,中概股走低,現貨黃金失守4760美元

      美股深V反彈,半導體股爆發,閃迪漲超9%,中概股走低,現貨黃金失守4760美元

      21世紀經濟報道
      2026-04-10 07:09:55
      王思聰韓國約會“小金晨”,女伴五官立體超美!網友向懶懶告密

      王思聰韓國約會“小金晨”,女伴五官立體超美!網友向懶懶告密

      娛樂團長
      2026-04-09 20:20:59
      國民黨訪問團再度訪問大陸傳遞出什么信號

      國民黨訪問團再度訪問大陸傳遞出什么信號

      上游新聞
      2026-04-10 09:12:41
      73歲大爺伺候95歲母親12年后哭訴:家有長壽母親,是我晚年的噩夢

      73歲大爺伺候95歲母親12年后哭訴:家有長壽母親,是我晚年的噩夢

      烙任情感
      2026-04-09 09:50:30
      長公主被家暴流產了

      長公主被家暴流產了

      毒舌扒姨太
      2026-04-08 22:29:19
      魯尼選史上最偉大的6位體育明星,沒有列入任何足球運動員

      魯尼選史上最偉大的6位體育明星,沒有列入任何足球運動員

      懂球帝
      2026-04-10 10:00:16
      突發!實控人巨額減持!

      突發!實控人巨額減持!

      新浪財經
      2026-04-10 02:11:33
      全紅嬋報警:記者楊爍被點名,陳芋汐評論區被沖,多家媒體發聲!

      全紅嬋報警:記者楊爍被點名,陳芋汐評論區被沖,多家媒體發聲!

      眼光很亮
      2026-04-08 15:20:24
      張雪終于把碎屏手機換了!用上榮耀折疊屏手機 豎大拇指:好輕啊

      張雪終于把碎屏手機換了!用上榮耀折疊屏手機 豎大拇指:好輕啊

      念洲
      2026-04-10 08:41:40
      古力娜扎:真空上陣是放飛自我還是資本博弈?

      古力娜扎:真空上陣是放飛自我還是資本博弈?

      娛樂領航家
      2026-04-02 21:00:03
      打中了!伊朗今天太猛了!

      打中了!伊朗今天太猛了!

      財經要參
      2026-04-05 23:06:21
      女子假信佛與多位高僧發生不當關系,秘密錄制5600段視頻。

      女子假信佛與多位高僧發生不當關系,秘密錄制5600段視頻。

      特約前排觀眾
      2026-02-09 00:05:05
      賈淺淺抄襲門:零容忍的板子,要打就打出響聲

      賈淺淺抄襲門:零容忍的板子,要打就打出響聲

      明話直說
      2026-04-09 20:32:10
      以色列總理內塔尼亞胡已下令盡快與黎巴嫩開始直接談判

      以色列總理內塔尼亞胡已下令盡快與黎巴嫩開始直接談判

      澎湃新聞
      2026-04-10 09:08:18
      陳麗華追悼會曝光,原來無兒無女的遲重瑞,早已被安排好“退路”

      陳麗華追悼會曝光,原來無兒無女的遲重瑞,早已被安排好“退路”

      天天熱點見聞
      2026-04-09 13:18:54
      2026-04-10 11:47:00
      硅嶼手記
      硅嶼手記
      有態度網友ytd
      1645文章數 7關注度
      往期回顧 全部

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      體育要聞

      17歲賺了一百萬美元,25歲被CBA裁員

      娛樂要聞

      夏克立婚內出軌 曾參加《爸爸去哪兒》

      財經要聞

      愛爾眼科一院長被指猥褻 總部:已被停職

      科技要聞

      程序員驚喜,每月100美元!OpenAI推新套餐

      汽車要聞

      全新一代理想 L8 五座旗艦+5C增程系統 三季度交付

      態度原創

      時尚
      游戲
      健康
      數碼
      軍事航空

      越來越流行的松弛感穿搭,照著穿就很好看

      一邊抗癌一邊玩游戲!患癌玩家收到PSV后找回笑容

      干細胞抗衰4大誤區,90%的人都中招

      數碼要聞

      REDMI Book Pro 2026官宣本月發布:酷睿Ultra X7 358H+99Wh巨無霸電池

      軍事要聞

      黎真主黨發射火箭彈 回應以違反?;饏f議

      無障礙瀏覽 進入關懷版