她文獻(xiàn)筆記全打成 txt,堆在一個(gè)夾子里,導(dǎo)師讓「先看高頻主題詞」。她盯屏幕發(fā)呆,我說(shuō)你先把文件整理齊,別混進(jìn) Word 另存的那種怪格式,這工具只吃 txt。
我開(kāi)【批量文檔詞頻權(quán)重統(tǒng)計(jì)工具】,文件夾拖進(jìn)去,勾遍歷子目錄。詞頻默認(rèn)就有,她又想看點(diǎn)「不是爛大街虛詞」的,我順手勾了 TF-IDF,排序里就能切換。最小詞長(zhǎng)調(diào)到 2,省得滿屏單字。
停用詞她嫌默認(rèn)太狠,又從文件加載了她自己整理的一小份,再跑一輪順眼多了。導(dǎo)出 CSV 發(fā)她,她用表格軟件自己畫(huà)詞云去,我不管審美。
![]()
有一兩個(gè)文件讀失敗,日志里寫(xiě)了原因,她回去改編碼重存 utf-8 就好了。跑完底下那行摘要她截圖發(fā)導(dǎo)師,像那么回事。
若你也幫學(xué)生弄詞頻,先確認(rèn)全是 txt,再談分析,別上來(lái)就甩一整包 docx 問(wèn)我為啥不出結(jié)果。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.