作為國內最受歡迎的視頻剪輯軟件之一,剪映中最具特色的功能就是其免費的字幕識別。
但是,自去年五月起,剪映開始削減免費有用戶所能白嫖的福利,其中字幕就是影響大的一項。
每月五次的免費額度,著實是少了點。哪怕不是專業視頻創作者,每月稍微多做幾條視頻,額度用完也是輕輕松松。
畢竟發視頻的頻率又不如專業視頻創作者高,如果每月花費開通會員,卻又無法通過視頻獲得收益,著實不劃算。
但隨著AI的普及和應用,需要更加好用、更加方便的字幕識別工具也紛紛問世,可有效提高視頻制作效率。
卡卡字幕助手
卡卡字幕助手是一款基于AI大模型開發的字幕識別工具,只要接入對應的大模型接口,或者下載本地模型,即可對視頻或者音頻中的字幕進行提取,并生成srt等格式的字幕文件。
軟件安裝流程比較常規,這里就不過多贅述了。
支持本地模型Whisper和LLM(大語言模型)API接入識別兩種方式,大家可以按需選擇。

先看本地的Whisper模型,使用前需要先根據配置安裝GPU+CPU使用或者CPU使用的模型底包,然后下載用于識別的模型。模型體積越大,識別效果也就越好,但對設備性能的要求也在提高。

小高為核顯,這里就下載CPU版版本的Faster Whisper,然后下載Medium模型。
下載完成后,打開Faster Whisper設置,選擇之前下載的模型、運行設備、音頻的語言即可。

軟件使用就比較簡單了,把需要識別的視頻或者音頻文件拖進來,點擊開始,就會對其進行自動處理,使用本地模型的情況下,速度快慢就看設備性能了。

Faster Whisper模型轉錄完成后,會利用AI,對識別結果進行優化,確認字幕嗚嗚后,點擊左上角的保存,即可導出srt、ass、vtt等格式的字幕文件。

如果優化后仍舊存在錯別字,可以手動點擊,進行修改。

然后,咱們再看在線大語言模型識別。可以填入OPENAI官方的API接口或者使用第三方提供的接口,接入各種開放API接口的大語言模型。
填入API Key、Base URL后,點擊檢查連接,當彈出模型獲取成功、LLM連接成功的提示時,就說明大模型接入成功!

使用LLM模型時,需要在首頁將轉錄模型設置為B接口。

至于后面的操作,就和使用Faster Whisper模型一模一樣,直接抄前面的作業即可。
值得一提的是,得益于云端強大的計算能力,通過LLM API所進行的字幕識別,速度要遠遠高于本地識別(如果本地GPU算力比較強大,影響則可pass)。
在大模型加持之下,字幕翻譯也變得輕松,簡單幾步,就能制作外文視頻的中文版,簡直不要太爽!

軟件的字幕識別功能不局限于視頻創作,如果你是一位影視愛好者,它亦能幫你解決不少觀影中存在的語言障礙。