網易首頁 > 網易號 > 正文申請入駐

CSV加載慢13倍被踢出生產線，Parquet用0.06秒完成逆

2026-04-05 21:04:19　來源: 像素與芯片

北京舉報

分享至

0.78秒 vs 0.06秒。這不是什么實驗室數據，是Sakshaleni在處理時間序列數據時真實測出來的差距。CSV用了將近1秒，Parquet眨眼就完事。文件體積更夸張，同樣一份數據，Parquet能壓縮到CSV的幾分之一。

這事聽起來像老生常談——"換格式能快多少？"但真踩過坑的人知道，當數據量從MB滾到GB，加載時間從"等一杯咖啡"變成"等外賣送達"，整個分析流程就癱了。Saksheni的經歷很典型：初期CSV完美夠用，數據膨脹后成了瓶頸。

為什么CSV會越跑越慢

CSV是行式存儲（row-based format），讀數據時得整行掃描。你想查某一列？先把整行拖進內存，再挑出要的字段。數據量小的時候無所謂，百萬行以后這就是災難。

Parquet玩的是列式存儲（columnar storage）。數據按列存，查詢只讀需要的列，I/O直接砍半再砍半。更狠的是它內置的壓縮和編碼——同一列的數據類型一致，壓縮率比行式高出一個數量級。

Sakshaleni的測試代碼很直白：pd.read_parquet()和pd.read_csv()各跑一遍，時間差擺在臺面上。13倍的速度差距，沒有玄學，就是存儲結構決定的。

Parquet的隱藏技能：不只是快

很多人把Parquet當"壓縮包"用，其實它是個查詢優化器。列式存儲配合謂詞下推（predicate pushdown），能在文件層面過濾數據，不用等全表進內存。

PyArrow是背后的關鍵工具。這個Python庫封裝了Apache Arrow的列式內存格式，讓Parquet的讀寫效率能真正落地到日常代碼里。Sakshaleni沒提具體壓縮算法，但Parquet默認支持的Snappy、GZIP、ZSTD都是工業級方案，選哪個看你要速度還是要體積。

時間序列數據有個特點：時間戳一列、數值一列、標簽一列，列之間關聯性弱但列內重復度高。這種結構簡直是給Parquet送分——時間戳用Delta編碼，重復標簽用字典編碼，壓縮率能再往上躥。

遷移成本：比你想象的低

Pandas用戶換Parquet幾乎無痛。to_parquet()和read_parquet()的API設計跟CSV保持一致，代碼改動量以行計。真正的門檻在思維轉換：從"打開文件"變成"設計查詢模式"。

Parquet不是萬能藥。小文件場景下，它的元數據開銷反而拖后腿；頻繁隨機寫的工作負載，列式格式也不擅長。但時間序列分析通常是"一次寫入、多次讀取、列式查詢"，正好踩中Parquet的甜點區。

Sakshaleni沒公布具體的數據集規模，但從MB級CSV的加載時間反推，大概是幾十萬到百萬行的量級。這個區間很多人還在硬撐CSV，覺得"不至于換格式"——直到某天數據翻倍，腳本跑崩了才后悔。

一個值得追問的細節

測試里Parquet的0.06秒是冷啟動還是熱緩存？文件有沒有分區？這些Sakshaleni沒展開，但生產環境里的性能差距往往比實驗室更極端——或者更微妙。你手上的時間序列數據，現在多大體積了？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

不上云、不租卡，如何優雅地在本地微調Qwen-VL-30B？

機器之心Pro 2026-01-13 12:57:27
30 跟貼 30
Claude Code一周份額，一天燒完一半？有人逆向工程發現了7個bug

機器之心Pro 2026-04-07 17:34:08
0 跟貼 0

“Claude Code更新廢了”！思考深度降67%，無法勝任復雜工程任務

量子位 2026-04-07 14:07:07
0 跟貼 0

PMDformer：一個簡單減法實現長時序預測注意力機制糾偏

機器之心Pro 2026-04-07 13:31:21
0 跟貼 0
鬼手想點誰就點誰？LaSM讓GUI智能體把注意力「收回來」

機器之心Pro 2026-04-07 14:27:35
0 跟貼 0

Excel把2000條數據藏了3年，程序員發現后集體破防

Ping值焦慮 2026-04-07 06:10:43
0 跟貼 0

AI編程：“全民狂歡” vs“屎山危機”

華爾街見聞官方 2026-04-07 08:51:53
0 跟貼 0
Meta員工空轉AI只為浪費token！燒的多掙的多，日均消耗2萬億

量子位 2026-04-07 17:13:17
0 跟貼 0

《十年不給升職，我帶走了全部代碼》短劇免費在線觀看完整版

短劇影視達人2025 2026-04-06 11:42:19
37 跟貼 37
1020的代碼

表弟看車 2026-04-06 18:12:51
0 跟貼 0
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
WCL boss戰代碼篩除合集 (已經更新至NAXX)

山西三炮 2026-04-07 08:33:46
0 跟貼 0
誰說文科生不懂AI？不懂代碼反而更強，這才是降維打擊！

未來圖靈 2026-04-07 10:26:27
0 跟貼 0
男子理發付款，魔鬼算法把老板娘繞進去，最后竟然還賺錢了

企鵝愛聊生活 2026-04-04 09:15:52
0 跟貼 0
易中天，獲獎勵20萬元

極目新聞 2026-04-06 21:04:19
25149 跟貼 25149
陳麗華47歲倒追遲重瑞財富傳承披露：1兒2女均在富華

極目新聞 2026-04-07 12:39:33
1721 跟貼 1721
告別昂貴賬單，Token直降68%，多智能體動態協作編程來了

機器之心Pro 2026-04-07 13:16:40
0 跟貼 0
女生手機咖啡取餐標簽，有個連號還想要888，最后一下才發現！

搞笑大蘿莉 2026-04-05 13:11:53
0 跟貼 0
“祖先給的特權”，河南網友稱祖墳在景區祭祖免票，景區回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
2008 跟貼 2008
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2610 跟貼 2610
紫牛頭條｜對話張雪師父“牙哥：賽車夢想托付張雪，我的夢想是為中國飛機出份力

揚子晚報 2026-04-06 22:26:58
177 跟貼 177
趙心童創“三冠”新紀錄，英媒直呼：其統治力“令對手膽寒”

環球網資訊 2026-04-07 06:56:17
124 跟貼 124
鄭麗文率團抵達上海開啟大陸參訪行程

環球網資訊 2026-04-07 13:18:07
41 跟貼 41
完球了，GPT-4o之母宣布離職OpenAI

量子位 2026-04-07 17:19:50
1 跟貼 1
深圳樓市3月突然狂飆？五大真相揭秘，別被數據沖昏頭！

房探科技 2026-04-06 15:34:11
0 跟貼 0
女子假裝命令小狗，隨后拿藥片獎勵給它，網友：觸發底層代碼了

星沙時報 2026-04-05 08:37:12
0 跟貼 0
甜可傾城，韌可破局；章若楠：八年磨一劍，標簽皆云煙

我要做我自己 2026-04-07 13:54:17
0 跟貼 0
這黑社會不砍人改敲代碼，霆哥帶路玩真大

二虎撩劇 2026-04-04 09:47:12
1 跟貼 1
風箏-交通員叛變，竟帶著機密文件投誠，看鄭耀先如何應對

龍耀影視 2026-04-07 08:15:51
1 跟貼 1
玩家3年流失率翻倍，不是游戲死了是體驗崩了

薛定諤的BUG 2026-04-05 06:15:20
1 跟貼 1
你的異地戀女友日常報備：代碼跑起來+茶室學習+牛肉煎包

YYz 2026-04-05 06:06:19
0 跟貼 0
預測下一個像素還需要幾年？谷歌：五年夠了

機器之心Pro 2025-11-26 15:48:35
0 跟貼 0
女孩去送文件無意間看到董事長全家福竟是失散多年的爺爺

山雞看劇 2026-04-04 17:52:07
1 跟貼 1
3臺掌機同時跑剪輯，我發現云主機最狠的用法

固件更新中 2026-04-06 21:35:12
2 跟貼 2
買游戲不怕帶不動了！Steam新功能曝光：根據配置預估幀數

快科技 2026-04-07 17:33:06
0 跟貼 0
升仕要發力，703RR停產是要升級發動機？

騎士網 2026-04-07 17:23:31
0 跟貼 0
個稅改革邁向“大綜合” 平衡不同項目間稅負差異

證券時報 2026-04-07 06:26:06
68 跟貼 68
美國眾議院民主黨議員推動彈劾防長赫格塞思

新京報 2026-04-07 12:30:07
54 跟貼 54
力控與運控的融合，共話具身智能“小腦”進化的破局之道

鈦媒體APP 2026-04-07 16:50:38
0 跟貼 0

手機 / 數碼

房產 / 家居

CSV加載慢13倍被踢出生產線，Parquet用0.06秒完成逆

為什么CSV會越跑越慢

Parquet的隱藏技能：不只是快

遷移成本：比你想象的低

一個值得追問的細節

滿嘴謊言！OpenAI奧特曼黑料大起底

開車致女友胸部以下高位截癱后失聯 男子首發聲

開車致女友胸部以下高位截癱后失聯 男子首發聲

官宣簽約“AI球員”，這支球隊被罵慘了...

張藝上浪姐惹爭議 黃景瑜前妻發文內涵

10萬億財政轉移支付，被誰拿走了？

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

干細胞抗衰4大誤區,90%的人都中招

2026年清明節假期國內出游1.35億人次

雅致愜意 感知生活之美

美麗風光看不盡

跟著歌聲游安徽，聽古村回響

開車致女友胸部以下高位截癱后失聯男子首發聲

開車致女友胸部以下高位截癱后失聯男子首發聲

張藝上浪姐惹爭議黃景瑜前妻發文內涵

不止是大極狐首款MPV問道V9靜態體驗

雅致愜意感知生活之美