大家好,我是波導(dǎo)終結(jié)者。
![]()
最近,我做帶字幕的視頻有點(diǎn)多,如何高效率地打時(shí)間軸就成了個(gè)問題。擱以前,剪映的語音識(shí)別和文稿匹配功能確實(shí)是實(shí)用的,但現(xiàn)在大家也都知道,功能全部要SSVIP才能用,會(huì)員也越來越貴。更關(guān)鍵的是很多核心功能仍然在向更高級(jí)的VIP遷移,說白了,你錢交了,事后跟你說這個(gè)不能用那個(gè)不能用,得交更多錢。所以最近我也是找了一圈最佳替代,最終敲定了卡卡字幕助手VideoCaptioner這款軟件,跟大家分享。
![]()
這是一款免費(fèi)開源的軟件,在Github上可以找到源代碼或者安裝包,一鍵安裝運(yùn)行。此處我以Windows版本為例,它的核心功能分為三塊,音視頻方面的東西自帶FFmpeg就略過了。第二塊是語音轉(zhuǎn)文字,提供了不少的提口供使用,這里推薦默認(rèn)的FasterWhisper,本地幾G的模型,在線下載即可,非常方便。藍(lán)圈部分是LLM配置,用于語言大模型處理斷句,字幕優(yōu)化甚至是翻譯等功能。
![]()
不過具體的設(shè)置和下載界面,并不在軟件的設(shè)置頁面,而在語音轉(zhuǎn)錄這個(gè)功能界面。目前FasterWhisper的程序和模型都能在界面里直接下載,免工具基本滿速,后續(xù)如果有變動(dòng)再另說。硬盤容量和配置夠的話,large-v2或者v3的模型是強(qiáng)烈推薦的,支持顯卡加速,效率挺不錯(cuò)的。
![]()
至于LLM語言大模型,之前跟大家分享過好幾期了,這里感覺就略過吧,反正DeepSeek本地用一用就挺夠的了。一般默認(rèn)參數(shù)下,識(shí)別的字幕就還挺可以的,如果要求不是特別高,直接用都沒問題。如果需要更深處的處理,可以選中“字幕校正”,并且把文稿貼到文稿提示的文本框里,再進(jìn)行處理。
![]()
這里的字幕校正,以及字幕是否分割,分割按句子分段還是按語義分段,以及中文最大字?jǐn)?shù),文稿提示等,都會(huì)對(duì)字幕最終的效果產(chǎn)生影響。當(dāng)前1.3.3版本,還沒辦法達(dá)到剪映文稿匹配的效果,也即文稿原文完全不修改,完全按照文稿進(jìn)行時(shí)間軸和字幕對(duì)齊。如果開了字幕校正,雖然可以對(duì)齊,但是有時(shí)候一些字眼會(huì)被大模型替換,如果不開校正,斷句有可能跟文稿出現(xiàn)部分錯(cuò)位。總之就是,差不多可以替代80-90%的功能,最后要求高的話,不管哪種方案都需要再檢查一遍;要求不高的話直接識(shí)別完就用,也沒有問題。
![]()
另外,剛才有提到過,這款軟件也集成了FFmpeg,如果要打硬字幕的話,也可以直接一起生成。在字幕樣式里,可以設(shè)置主副字幕的樣子,不過目前的款式比剪映少一些,像整個(gè)字幕背景用矩形填充,以及透明度這些選項(xiàng)暫時(shí)還沒有,但也夠用了。
![]()
最后輸出的效果還不錯(cuò),截圖如上。對(duì)于軟件內(nèi)打硬字幕,目前沒有提供編碼方式和質(zhì)量選項(xiàng),下一個(gè)Release應(yīng)該會(huì)加上。Github上也有其他作者修改的分支,已經(jīng)加上了這個(gè)功能,這就是開源軟件的好處。或者導(dǎo)出字幕,自己用其他軟件合成也沒有問題,就看每個(gè)人的工作流和需求了。
![]()
今天的分享先到這里。文章僅為拋磚引玉,這個(gè)免費(fèi)開源本地工作的方案是目前我發(fā)現(xiàn)的最好用的。如果小伙伴有發(fā)現(xiàn)更好的“文稿匹配”功能的替代方案,也歡迎一起分享。
感謝大家的觀看,點(diǎn)贊和關(guān)注,我們下期再見。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.