上個(gè)月接了個(gè)活,甲方給了兩份客戶(hù)名單,一份是上個(gè)季度的,一份是這個(gè)季度的,都是TXT文件,每行一個(gè)客戶(hù)編號(hào)。
甲方的需求很簡(jiǎn)單:找出這個(gè)季度新增了哪些客戶(hù)。
聽(tīng)起來(lái)不難對(duì)吧?我也這么覺(jué)得。然后我打開(kāi)文件一看——上季度那份一萬(wàn)八千多行,這季度兩萬(wàn)三千多行。
最開(kāi)始的笨辦法
我第一反應(yīng)是用Excel。把兩個(gè)文件的內(nèi)容分別粘貼到兩列里,然后用VLOOKUP去匹配。
問(wèn)題來(lái)了:兩萬(wàn)多行的VLOOKUP,Excel直接卡了好幾秒才算完。更麻煩的是,兩份名單的行數(shù)不一樣,VLOOKUP拉公式的時(shí)候還得注意范圍,稍不留神就出錯(cuò)。
折騰了半個(gè)多小時(shí),總算弄出來(lái)了。但我心里清楚,這個(gè)方法太笨了,下次再來(lái)一份三萬(wàn)行的怎么辦?
后來(lái)的做法
在群里吐槽這事的時(shí)候,有人說(shuō)可以用個(gè)叫「兩TXT文檔對(duì)比工具」的東西,專(zhuān)門(mén)干這個(gè)的。
我試了一下,確實(shí)簡(jiǎn)單。打開(kāi)軟件,把上季度的名單拖到A文件的框里,這季度的名單拖到B文件的框里,選了個(gè)"B比A多出的行"的模式,點(diǎn)開(kāi)始。
大概三四秒,結(jié)果就出來(lái)了。日志里顯示:A文件18000多行,B文件23000多行,結(jié)果5000多行。這5000多行就是新增的客戶(hù)編號(hào)。
我打開(kāi)結(jié)果文件抽查了幾個(gè),確實(shí)是新名單里有但舊名單里沒(méi)有的。
半小時(shí)的Excel操作,變成了不到一分鐘。
后來(lái)又用了幾次
第二次用是合并關(guān)鍵詞。我做內(nèi)容運(yùn)營(yíng),從兩個(gè)不同的工具里導(dǎo)出了關(guān)鍵詞列表,需要合并成一份。兩份加起來(lái)大概有三千多個(gè)關(guān)鍵詞,肯定有不少重復(fù)的。
我選了"合并并去重"那個(gè)模式,兩個(gè)文件一合并,三千多變成了兩千出頭,重復(fù)的全自動(dòng)去掉了。
第三次用是找兩份數(shù)據(jù)的共同部分。市場(chǎng)部給了一份參加過(guò)活動(dòng)的用戶(hù)列表,我手里有一份購(gòu)買(mǎi)過(guò)產(chǎn)品的用戶(hù)列表,想知道哪些用戶(hù)既參加了活動(dòng)又買(mǎi)了東西。選了"交集"模式,幾秒鐘就篩出來(lái)了。
還有一次比較特殊,甲方要求把兩份名單合并,但要標(biāo)注每個(gè)編號(hào)是來(lái)自哪份名單。軟件里剛好有個(gè)"合并并標(biāo)注來(lái)源"的模式,合并后每行后面會(huì)自動(dòng)加上"----A"或"----B",一目了然。
![]()
一些使用心得
文件拖拽這個(gè)功能挺方便的,不用每次都點(diǎn)瀏覽按鈕去找文件。直接把TXT文件拖到對(duì)應(yīng)的框里就行。
有個(gè)"保持原文件順序"的選項(xiàng),建議勾上。不然結(jié)果的行順序可能會(huì)被打亂,后續(xù)處理起來(lái)不方便。
還有個(gè)關(guān)鍵詞篩選的模式,可以從兩個(gè)文件里同時(shí)篩選包含某個(gè)關(guān)鍵詞的行。我用過(guò)一次,從兩份日志文件里篩選包含"失敗"的記錄,挺實(shí)用的。
唯一不太方便的是,結(jié)果文件的名字是固定的"處理結(jié)果.txt",每次處理完如果不改名,下次處理就會(huì)被覆蓋。所以我現(xiàn)在養(yǎng)成了習(xí)慣,處理完就把結(jié)果文件改個(gè)名。
回過(guò)頭來(lái)想
其實(shí)這類(lèi)需求說(shuō)白了就是集合運(yùn)算——差集、交集、并集。以前沒(méi)有趁手的工具,只能用Excel硬湊,費(fèi)時(shí)費(fèi)力還容易出錯(cuò)。
現(xiàn)在有了專(zhuān)門(mén)的工具,幾秒鐘搞定的事情,沒(méi)必要再花半小時(shí)去折騰公式了。做數(shù)據(jù)相關(guān)工作的朋友,如果經(jīng)常要對(duì)比文本文件,可以往這個(gè)方向找找解決方案。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.