<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Pinterest 96% OOM故障消失背后

      0
      分享至


      2023年,Pinterest的工程師們還在凌晨3點(diǎn)被警報(bào)驚醒。某個(gè)推薦系統(tǒng)的Spark作業(yè)跑了4小時(shí),在收尾階段內(nèi)存溢出,一切歸零。這種戲碼每周上演數(shù)十次,團(tuán)隊(duì)疲于救火,卻找不到根治辦法。

      三年后,同樣的團(tuán)隊(duì)交出了截然不同的成績(jī)單:內(nèi)存溢出(OOM)故障下降96%,夜間告警銳減,工程師終于能睡個(gè)整覺。轉(zhuǎn)變的關(guān)鍵,藏在Spark一個(gè)幾乎沒人用的參數(shù)里。

      凌晨的警報(bào)與"薛定諤的內(nèi)存"

      Pinterest的數(shù)據(jù)平臺(tái)支撐著每月數(shù)億用戶的個(gè)性化推薦。這些推薦背后,是數(shù)千個(gè)Spark作業(yè)在日夜運(yùn)轉(zhuǎn),處理PB級(jí)的用戶行為數(shù)據(jù)、圖像特征和實(shí)時(shí)交互日志。

      但內(nèi)存管理一直是Spark的阿喀琉斯之踵。OOM錯(cuò)誤像慢性病一樣纏繞著工程團(tuán)隊(duì)——作業(yè)可能在任何階段崩潰,尤其是在Shuffle階段或聚合操作的高峰期。最折磨人的是不確定性:同樣的配置,昨天能跑完,今天就可能炸掉。

      「我們像是在黑暗中射箭,」一位參與優(yōu)化的工程師回憶,「你知道內(nèi)存不夠,但不知道具體哪里不夠,更不知道什么時(shí)候會(huì)爆。」

      傳統(tǒng)的應(yīng)對(duì)方式笨拙而耗時(shí):作業(yè)失敗后,工程師手動(dòng)調(diào)高executor內(nèi)存或并行度,重新提交,祈禱這次能撐過去。這種"試錯(cuò)式調(diào)參"不僅消耗人力,還造成資源浪費(fèi)——為了避免再次失敗,團(tuán)隊(duì)往往過度配置內(nèi)存,導(dǎo)致集群利用率低下。

      2023年的內(nèi)部統(tǒng)計(jì)顯示,OOM相關(guān)故障占所有Spark作業(yè)失敗的23%,平均每個(gè)故障需要47分鐘的人工介入。對(duì)于需要小時(shí)級(jí)延遲的實(shí)時(shí)推薦管道,這意味著用戶體驗(yàn)的直接損失。

      問題的根源比表面更深層。Spark的內(nèi)存模型將堆內(nèi)存劃分為執(zhí)行內(nèi)存和存儲(chǔ)內(nèi)存,但兩者的動(dòng)態(tài)邊界在實(shí)際運(yùn)行中難以預(yù)測(cè)。當(dāng)執(zhí)行內(nèi)存需求突增時(shí),存儲(chǔ)內(nèi)存的回收機(jī)制往往來不及響應(yīng),導(dǎo)致OOM。

      從"救火"到"防火":三步改造

      Pinterest的解決方案不是單點(diǎn)突破,而是一套組合拳。團(tuán)隊(duì)將其總結(jié)為三個(gè)遞進(jìn)階段:看清問題、預(yù)防崩潰、自動(dòng)恢復(fù)。

      第一階段是構(gòu)建細(xì)粒度的內(nèi)存可觀測(cè)性。工程師們開發(fā)了自定義的內(nèi)存剖析工具,能夠追蹤每個(gè)executor在不同執(zhí)行階段的內(nèi)存占用曲線。這些指標(biāo)被實(shí)時(shí)采集到監(jiān)控系統(tǒng),形成"內(nèi)存熱力圖"——哪些操作是內(nèi)存黑洞,哪些階段的峰值可以被預(yù)測(cè),終于變得可見。

      數(shù)據(jù)揭示了幾個(gè)反直覺的發(fā)現(xiàn)。團(tuán)隊(duì)原以為Shuffle階段是OOM重災(zāi)區(qū),但監(jiān)控顯示,超過60%的OOM發(fā)生在用戶自定義的聚合函數(shù)(UDAF)執(zhí)行期間。這些函數(shù)由業(yè)務(wù)團(tuán)隊(duì)編寫,內(nèi)存效率參差不齊,卻長(zhǎng)期缺乏審查機(jī)制。

      第二階段是針對(duì)性調(diào)優(yōu)。基于觀測(cè)數(shù)據(jù),團(tuán)隊(duì)建立了一套配置模板庫(kù),按作業(yè)類型(ETL、機(jī)器學(xué)習(xí)訓(xùn)練、實(shí)時(shí)流處理)推薦初始資源配置。更關(guān)鍵的是引入了"內(nèi)存預(yù)算"概念——在作業(yè)提交時(shí)預(yù)估峰值內(nèi)存,超出預(yù)算的作業(yè)會(huì)被攔截,強(qiáng)制優(yōu)化后再上線。

      但前兩個(gè)階段仍有盲區(qū):無法覆蓋所有邊緣情況,也無法消除突發(fā)流量帶來的不確定性。真正的突破來自第三階段——自動(dòng)內(nèi)存重試機(jī)制。

      這個(gè)機(jī)制的核心是Spark的spark.executor.memoryOverhead參數(shù),以及一個(gè)被長(zhǎng)期忽視的動(dòng)態(tài):當(dāng)executor因OOM被殺死時(shí),YARN或Kubernetes可以自動(dòng)重新調(diào)度,但默認(rèn)情況下不會(huì)調(diào)整資源配置。

      Pinterest的工程師修改了這一行為。他們?cè)谡{(diào)度層植入邏輯:檢測(cè)到OOM失敗后,自動(dòng)增加memoryOverhead(堆外內(nèi)存)并重試作業(yè),重試次數(shù)和增量幅度可配置。第一次OOM后增加10%,第二次增加20%,第三次觸發(fā)人工介入。

      「這有點(diǎn)像給汽車裝自動(dòng)換擋,」項(xiàng)目負(fù)責(zé)人解釋,「上坡時(shí)動(dòng)力不足,系統(tǒng)自動(dòng)降檔,而不是讓車熄火。」

      96%背后的數(shù)字游戲

      自動(dòng)重試上線后的效果超出預(yù)期。2024年Q3的數(shù)據(jù)顯示,OOM故障從每周平均127起降至5起,降幅96%。更隱蔽的收益是資源效率——由于不再需要為"以防萬一"而過度配置,集群整體內(nèi)存利用率提升了18%。

      但這個(gè)數(shù)字需要拆解理解。96%的降幅針對(duì)的是"因內(nèi)存不足導(dǎo)致的作業(yè)失敗",而非所有OOM事件。部分OOM由代碼缺陷(如無限循環(huán)遞歸)引起,這類問題仍需人工修復(fù)。此外,自動(dòng)重試增加了約3%的計(jì)算資源消耗(重試作業(yè)的額外開銷),但相比人工介入成本和延遲損失,這筆賬明顯劃算。

      團(tuán)隊(duì)還發(fā)現(xiàn)了意外的副作用。自動(dòng)重試機(jī)制暴露了之前被掩蓋的代碼質(zhì)量問題——某些作業(yè)反復(fù)觸發(fā)重試,成為"重試釘子戶"。這些作業(yè)被標(biāo)記出來,推動(dòng)業(yè)務(wù)團(tuán)隊(duì)重構(gòu)了12個(gè)核心管道,從根本上消除了內(nèi)存泄漏。

      「我們?cè)局幌胫寡Y(jié)果順便做了體檢,」工程師總結(jié),「自動(dòng)重試像是一個(gè)探針,把隱藏的技術(shù)債照了出來。」

      這套方案的另一價(jià)值在于可遷移性。Pinterest將核心邏輯抽象為開源插件,適配了YARN和Kubernetes兩種部署模式。社區(qū)反饋顯示,類似的重試機(jī)制在Netflix和Uber的Spark集群中也有獨(dú)立實(shí)現(xiàn),但Pinterest的版本在策略靈活性(支持自定義重試曲線)和觀測(cè)集成上更為成熟。

      行業(yè)鏡像:為什么大廠都在"修Spark"

      Pinterest的案例并非孤例。過去兩年,Spark的內(nèi)存管理成為數(shù)據(jù)工程領(lǐng)域的熱門議題。Databricks推出了自適應(yīng)查詢執(zhí)行(AQE)的內(nèi)存優(yōu)化版,Apple在VLDB論文中披露了基于機(jī)器學(xué)習(xí)的Spark資源預(yù)測(cè)系統(tǒng),字節(jié)跳動(dòng)則開源了針對(duì)Shuffle的列式存儲(chǔ)優(yōu)化。

      這背后的共同壓力是:數(shù)據(jù)規(guī)模的增長(zhǎng)速度超過了硬件成本的下降速度。Pinterest的推薦模型參數(shù)量三年增長(zhǎng)了17倍,但單節(jié)點(diǎn)內(nèi)存容量?jī)H翻倍。在成本約束下,"榨干現(xiàn)有資源"比"堆機(jī)器"更具商業(yè)合理性。

      但優(yōu)化Spark的門檻正在抬高。早期的調(diào)優(yōu)依賴個(gè)人經(jīng)驗(yàn),現(xiàn)在則需要系統(tǒng)性的方法論。Pinterest的團(tuán)隊(duì)花了8個(gè)月才完成全套改造,其中5個(gè)月用于構(gòu)建可觀測(cè)性基礎(chǔ)設(shè)施——沒有數(shù)據(jù),連問題邊界都說不清。

      「很多團(tuán)隊(duì)想抄作業(yè),直接復(fù)制我們的重試配置,」項(xiàng)目負(fù)責(zé)人透露,「但如果不先解決'看不見'的問題,自動(dòng)重試只會(huì)把系統(tǒng)拖入無限循環(huán)。」

      這也解釋了為什么Spark社區(qū)至今沒有內(nèi)置類似的自動(dòng)重試機(jī)制——它太依賴具體環(huán)境的觀測(cè)數(shù)據(jù),難以做成通用方案。Pinterest的插件提供了框架,但每個(gè)公司仍需填入自己的指標(biāo)體系和策略偏好。

      一個(gè)值得玩味的細(xì)節(jié)是:自動(dòng)重試機(jī)制上線后,Pinterest的Spark作業(yè)平均執(zhí)行時(shí)間反而增加了4%。這不是性能倒退,而是資源分配更貼近實(shí)際需求的結(jié)果——之前為了規(guī)避OOM而預(yù)留的"安全余量"被釋放出來,作業(yè)以更緊湊的配置運(yùn)行,整體吞吐量提升。

      這有點(diǎn)像交通規(guī)劃:拓寬道路未必緩解擁堵,精確的信號(hào)燈調(diào)度反而更有效。

      2025年初,Pinterest將這套方案推廣到實(shí)時(shí)流處理場(chǎng)景(Spark Structured Streaming),OOM故障率同樣下降90%以上。但流作業(yè)的優(yōu)化更具挑戰(zhàn)——延遲敏感,重試窗口以秒計(jì),容錯(cuò)機(jī)制需要與水位線管理深度耦合。

      團(tuán)隊(duì)正在實(shí)驗(yàn)的下一步,是將內(nèi)存預(yù)測(cè)模型與自動(dòng)擴(kuò)縮容結(jié)合:在OOM發(fā)生前主動(dòng)調(diào)整資源,而非事后補(bǔ)救。這要求更細(xì)粒度的時(shí)間序列預(yù)測(cè),技術(shù)難度呈指數(shù)級(jí)上升。

      「我們現(xiàn)在能回答'作業(yè)會(huì)不會(huì)OOM',」工程師說,「下一步要回答的是'什么時(shí)候會(huì)OOM,提前多久干預(yù)最有效'。」

      當(dāng)96%的故障消失后,剩下的4%成了最難啃的骨頭——它們往往涉及復(fù)雜的業(yè)務(wù)邏輯和跨系統(tǒng)交互,無法通過配置調(diào)整解決。Pinterest的做法是將這些案例沉淀為知識(shí)庫(kù),用模式匹配輔助人工診斷。

      這套系統(tǒng)的最終形態(tài),可能不是"消滅OOM",而是"OOM可控"——像現(xiàn)代航空業(yè)對(duì)待故障一樣,承認(rèn)其不可避免,但將風(fēng)險(xiǎn)壓縮到可接受的區(qū)間。

      對(duì)于那些仍在凌晨處理Spark告警的團(tuán)隊(duì),Pinterest的經(jīng)驗(yàn)提供了一條可行路徑:先讓自己"看見",再讓自己"偷懶",最后讓系統(tǒng)"自愈"。代價(jià)是8個(gè)月的工程投入,和對(duì)一個(gè)被忽視參數(shù)的重新理解。

      如果你的Spark集群今晚又OOM了,你會(huì)選擇手動(dòng)調(diào)參,還是開始建監(jiān)控儀表盤?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      原來陳麗華長(zhǎng)子是他,北大畢業(yè),31歲接手家業(yè),他才是富華掌舵人

      原來陳麗華長(zhǎng)子是他,北大畢業(yè),31歲接手家業(yè),他才是富華掌舵人

      冷紫葉
      2026-04-07 15:26:07
      瑞幸咖啡緊急撤下羅永浩代言廣告,網(wǎng)友:數(shù)據(jù)影響下的現(xiàn)實(shí)切割!

      瑞幸咖啡緊急撤下羅永浩代言廣告,網(wǎng)友:數(shù)據(jù)影響下的現(xiàn)實(shí)切割!

      玖宇維
      2026-04-07 15:12:41
      伊媒稱伊朗已關(guān)閉與美所有外交和間接溝通渠道

      伊媒稱伊朗已關(guān)閉與美所有外交和間接溝通渠道

      看看新聞Knews
      2026-04-07 23:03:03
      更多細(xì)節(jié)補(bǔ)充昨日文章:耗費(fèi)數(shù)億美元救一個(gè)飛行員,到底值不值得

      更多細(xì)節(jié)補(bǔ)充昨日文章:耗費(fèi)數(shù)億美元救一個(gè)飛行員,到底值不值得

      鷹眼Defence
      2026-04-06 18:52:13
      美伊停火協(xié)議細(xì)節(jié)公布!黃金直線拉升,國(guó)際油價(jià)大跳水,股市巨震

      美伊停火協(xié)議細(xì)節(jié)公布!黃金直線拉升,國(guó)際油價(jià)大跳水,股市巨震

      魯中晨報(bào)
      2026-04-07 07:21:14
      最新!以軍聲明:大規(guī)模襲擊

      最新!以軍聲明:大規(guī)模襲擊

      環(huán)球時(shí)報(bào)國(guó)際
      2026-04-07 20:05:22
      美媒:“無法無天的世界代價(jià)高昂”

      美媒:“無法無天的世界代價(jià)高昂”

      參考消息
      2026-04-07 16:50:06
      55歲鐘麗緹被指穿著不得體,太過暴露,在直播中大膽跳操被指不雅

      55歲鐘麗緹被指穿著不得體,太過暴露,在直播中大膽跳操被指不雅

      手工制作阿殲
      2026-04-06 19:20:47
      張雪峰前妻首發(fā)文:透露余生會(huì)照顧好女兒,全文曝光信息量大

      張雪峰前妻首發(fā)文:透露余生會(huì)照顧好女兒,全文曝光信息量大

      娛樂圈圈圓
      2026-04-07 16:43:36
      67歲王朔現(xiàn)狀:定居北京半隱居,持續(xù)出新書,與美國(guó)女兒很少聯(lián)系

      67歲王朔現(xiàn)狀:定居北京半隱居,持續(xù)出新書,與美國(guó)女兒很少聯(lián)系

      攬星河的筆記
      2026-04-07 18:47:31
      哈登打了17年,他能實(shí)現(xiàn)1000勝的偉大紀(jì)錄嗎?結(jié)果很意外

      哈登打了17年,他能實(shí)現(xiàn)1000勝的偉大紀(jì)錄嗎?結(jié)果很意外

      大西體育
      2026-04-07 21:36:02
      一個(gè)飛行員,美國(guó)為什么下這么大血本?1979年的教訓(xùn),至今不敢忘

      一個(gè)飛行員,美國(guó)為什么下這么大血本?1979年的教訓(xùn),至今不敢忘

      文史達(dá)觀
      2026-04-07 06:45:06
      零緩沖!全國(guó)一刀切!6月1日起,車主自己去車管所“橫著走”!

      零緩沖!全國(guó)一刀切!6月1日起,車主自己去車管所“橫著走”!

      混沌錄
      2026-04-07 22:00:19
      標(biāo)價(jià)近20萬的紅寶石戒指,上海老夫妻花了不到3萬買下,卻被店主尾隨跟蹤并告上法庭!法院判了→

      標(biāo)價(jià)近20萬的紅寶石戒指,上海老夫妻花了不到3萬買下,卻被店主尾隨跟蹤并告上法庭!法院判了→

      縱相新聞
      2026-04-07 08:40:07
      張?zhí)m生日!情緒低落發(fā)文,兒子兒媳沒送祝福,只有一人記得她生日

      張?zhí)m生日!情緒低落發(fā)文,兒子兒媳沒送祝福,只有一人記得她生日

      好賢觀史記
      2026-04-07 16:41:38
      海河牛奶直播間被指涉黃,市監(jiān)部門:正在核實(shí)處理

      海河牛奶直播間被指涉黃,市監(jiān)部門:正在核實(shí)處理

      現(xiàn)代快報(bào)
      2026-04-07 21:17:05
      吃了20年才知道,它竟是“天然葉酸”,現(xiàn)在正當(dāng)季,常吃身體棒

      吃了20年才知道,它竟是“天然葉酸”,現(xiàn)在正當(dāng)季,常吃身體棒

      阿龍美食記
      2026-04-07 10:42:05
      以軍說襲擊了伊朗數(shù)十個(gè)基礎(chǔ)設(shè)施

      以軍說襲擊了伊朗數(shù)十個(gè)基礎(chǔ)設(shè)施

      財(cái)聯(lián)社
      2026-04-07 19:04:04
      研究表明:性生活越頻繁,射精和勃起問題越少!

      研究表明:性生活越頻繁,射精和勃起問題越少!

      黯泉
      2026-04-05 20:40:12
      中朝邊境鴨綠江口現(xiàn)狀:朝鮮領(lǐng)土正在不斷增加,中方卻在逐漸減少

      中朝邊境鴨綠江口現(xiàn)狀:朝鮮領(lǐng)土正在不斷增加,中方卻在逐漸減少

      普覽
      2026-02-26 21:29:19
      2026-04-07 23:55:00
      野生運(yùn)營(yíng)
      野生運(yùn)營(yíng)
      懂點(diǎn)產(chǎn)品,懂點(diǎn)AI,正在努力給平淡日子搞點(diǎn)新花樣。
      881文章數(shù) 10關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普恐嚇4小時(shí)摧毀伊朗 伊朗稱"打穿"海法未見攔截

      頭條要聞

      特朗普恐嚇4小時(shí)摧毀伊朗 伊朗稱"打穿"海法未見攔截

      體育要聞

      官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財(cái)經(jīng)要聞

      10萬億財(cái)政轉(zhuǎn)移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗(yàn)

      態(tài)度原創(chuàng)

      藝術(shù)
      房產(chǎn)
      教育
      數(shù)碼
      公開課

      藝術(shù)要聞

      美麗風(fēng)光看不盡

      房產(chǎn)要聞

      重磅!三亞擬出安居房新政!

      教育要聞

      好的親子關(guān)系,父母只需做好這幾點(diǎn) #家長(zhǎng)必讀 #孩子教育

      數(shù)碼要聞

      OPPO ColorOS共創(chuàng)者星球2026年第1期高票建議采納情況公布

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版