剪映的自動識別字幕要付費,其他幾種中文語音轉文字替代方案

剪映有一個好用的功能,把影片或語音檔放進去,就可以識別中英文語音、直接在剪接時間軸內加好字幕,還可以導出 SRT 字幕檔。語音辨識的準確率還不錯。

然而,這功能現在變成要付費專業版才能使用了…

剪映的字幕識別變成VIP付費功能

五星評論家麥克阿瑟表示:用過這種功能,誰還要人工聽打逐字稿? 手工打字或打開錢包選一個吧。

本文來找一些其他可以幫影片辨識語音人聲,自動轉字幕的工具。

影片人聲語音轉文字,聽起來就短短幾個字,實務上這種需求可能很細,例如:

  • 做摘要用的,只需要純文字,沒有 timecode 也沒關係。
  • 作影片字幕用的,需要有文字和 timecode。
  • 字幕要能自動插入到剪接軟體的時間軸,不要先轉 mp3,開另一個軟體操作,處理完再自己手動匯入、一句一句手工插入...等一大堆步驟。
  • 字幕要能另外匯出,存成 srt 或特定格式,YouTube 的 CC 字幕或其他地方要用。
  • 演講或直播用途,需要電腦接麥克風或某種音訊輸入源,然後即時產生字幕。
  • 要做卡拉 OK 字幕效果,需要更精準的單字時間標記。
  • 人聲是台語或其他比較冷門的語言,或是多種語言夾雜各種專有名詞,想找到一套好用的就不容易,像 Zoom、Google Meet、Teams 的自動字幕功能吹了這麼久,實際使用的成果還是很難令人滿意。
  • 需要的不只是字幕,而是生動活潑的字卡特效。

本文的產品也不一定通通都能做到,只是大概點出一些使用經驗或產品特色,至於符不符合需求,自己能不能順利安裝? 建議自己使用看看囉。

一、CapCut (剪映國際版) 目前還能免費轉字幕

網址: https://www.capcut.com/

剪映跟 CapCut 的關係,大概就跟抖音 vs. TikTok 一樣,一個是中國版本,付款方式或一些帳號認證方式都是中國人專屬的,而另一個是國際版。

CapCut 又有分兩個版本,目前都還可以免費產生字幕:

CapCut 線上版

點上面那個網站連結,進去之後右上角有一個「試用 CapCut 線上版」,裡面有一個類似 Canva 的東西,可以做圖片,也可以處理影片。

把影片丟上時間軸,然後左邊有一個「字幕」,選擇自動字幕,和影片的語言,再按產生,影片就有字幕了。

然後選擇匯出影片,還可以把字幕另外下載成 SRT 或 TXT,非常方便。

CapCut 線上版可以匯出字幕

CapCut 線上版的缺點,要等影片上傳完才能開始辨識,片長很長的話,要等老半天。

CapCut 電腦版

點上面那個網站連結,首頁另外有個下載連結,可以下載電腦版的 CapCut,就不需要等待什麼上傳步驟。

操作方式跟本來的剪映差不多,字幕辨識完會自動加到剪接時間軸。

缺點也不是沒有,等到要匯出字幕檔時…本來這邊應該有一個匯出字幕的選項,竟然消失了!

CapCut 本機版本

有些人可能是要用字幕檔轉成繁體、或是把字幕檔當成 YouTube 的 CC 字幕,
有時候可能是要處理語音訪談逐字稿,單純靠剪映把語音轉文字弄出 TXT 檔,
既然無法另存字幕檔,就比較尷尬…

二、使用 5.5 以下舊版本的剪映,不要升級到 6 以上

5.5 版本就開始一些功能升級到變成 VIP 方案才能用,到 5.9 都還有免費的字幕識別(語音轉文字)功能,自動字幕識別變 VIP/SVIP 是剪映 6.0 版本才加上的,聽說一些還沒升級到 6.x 版本的朋友還能繼續用。

以下提供兩種方式,一種是去找 5.x 的舊版本剪映來用,另一種是如果不小心升級了,把自己電腦裡的新版本刪掉,退回到舊版本。

下載安裝舊版本

所以如果有在用這個功能的,要嘛不要升級,或是找別人要安裝檔…

目前應該在網路上都還找到,像軟體王還有 5.7 版本的下載點 剪映專業版 5.7.0.11480 for Windows : 軟體王 2024 – 軟體資訊 (下載按鈕在頁面中間綠色的,要自己找一下)。

我也提供一個 5.2 版本的免安裝版 Mega 載點
https://mega.nz/file/pL5hBLaL#lHIfs1C_uc5t-Epnt0dndrA15e4lm8bQ5koDmXz-GPA

檔案大概有 1.3GB,我是從之前安裝過的 Windows VM 系統中複製出來的,預設安裝目錄在 C:\Users\使用者名稱\AppData\Local\JianyingPro\Apps,也可以找朋友拷貝。

解壓後點擊 JianyingPro.exe,等環境檢測完,應該就會正常啟動。
啟動時可能會跳版本更新提示,記得不要更新。
自動識別字幕功能,在文本>智能字幕>識別字幕。

移除新版本

另外還有一招,利用剪映的程式設計機制,如果有一台電腦用剪映用了很久,那每次更新時,舊版本都還會留在電腦裡。
到剛剛那個安裝目錄 C:\Users\使用者名稱\AppData\Local\JianyingPro\Apps,或是在捷徑選擇「開啟檔案位置」,應該會看到一堆用版本號 5.x 命名的資料夾。

先把剪映程式關掉,然後把 6.x 的資料夾都砍掉,重新打開剪映,應該會發現剪映變回舊版本了。

不過這招有個問題,用這招降版本後,打開新版本剪映編輯的專案,會提示「軟件版本需要升級 : 檢測到草稿版本較新,是否升級至最新版本打開草稿?」
這時候只能選擇升級剪映版本,或是取消。如果不升級,就不能打開那個新版本的剪映弄的草稿專案。

不過對這招舊版本大法不要太期待,
因為剪映的自動識別字幕,是在剪映官方的雲端伺服器處理的,而不是在使用者的自己電腦本機。
所以哪一天剪映官方在雲端稍微調整一下系統,直接把來自較低版本號的字幕識別的使用者請求封鎖,這招就不攻自破,大家就沒得用了,現在只是先偷著樂。

三、使用 DaVinci Resolve Studio 19 的 AI 语音轉文本功能

DaVinci Resolve 也是一個經典的影視慘業專業工具,它在 19 版本新增了一個語音自動轉字幕功能。

DaVinci Resolve 19 版本新增了一個語音自動轉字幕功能

AI语音到文本转录
转录功能能够自动转录视频和音频片段!只需在媒体池内选择片段,然后使用菜单选择音频转录功能即可开始转录。您可以标记入点和出点编辑或删除文本,生成子片段,添加标记,甚至移除无声部分。

這功能對於中文影片有沒有效呢?
DaVinci Resolve 有提供免費版本,可以試試看。

下載時可能會跳出一個註冊表單,選擇國家的時候,T 開頭跟 R 開頭可能都找不到台灣,要找 C 開頭的 Chinese Taipei…

安裝後,一旦點選上方選單中的 Timeline,然後選擇「從音頻創建字幕」,接著會看到…

DaVinci Resolve 19 進階功能付費提示

這功能要購買才能用啦。
想購買的可以從官網找到 Chinese Taipei 的經銷商Find a Reseller

如果不想買的,可以先看一下官方的操作範例:

從上述的影片可以看出有點麻煩,
DaVinci Resolve 會先把語音辨識出來的所有文本內容顯示在一個小視窗內,
然後使用者要一段一段從小視窗內選取文字、
再選取要放字幕的時間點,
最後按一個按鈕,把剛剛選取的那一句話加到字幕時間軸中。

跟剪映比起來,所費的工看起來還是多了些…

MacOS 上另一個知名的影片工具 Final Cut Pro 也終於在版本 11 出了自動上字幕(Transcribe to Captions)功能,必須要使用 macOS Sequoia 或版本更新的作業系統。不過因為我沒買,就留給有興趣的人自己研究。
Final Cut Pro User Guide for Mac - Use Transcribe to Captions to create captions automatically

四、使用訊連威力導演 365 的「AI 語音轉文字」

是的,就是大家小時候可能都聽過的威力導演。

長大後如果在相關慘業,可能會發現導演應該是負責創意方向、指導演員、協調各部門等,為什麼後製人員在用的東西要取名「導演」? 反正我們這些底層勞動人員不要想這麼多,阿影片是弄完了沒?

總之目前威力導演還是不斷在更新,新版本的威力導演也加上了不繳錢就不能用的訂閱制……啊,是加上了「AI 語音轉文字」的功能,還有一些短影片的人物描邊之類的罐頭特效。

訊連威力導演 365 的AI 語音轉文字

AI 語音轉文字功能基本上是要付費訂閱才能用的,免費版可以試用一次:

威力導演的語音轉字幕-試用提示

隨便去網路上抓一支 YT Shorts 來測試,轉檔之後的測試範例大概長得像這樣:

威力導演的語音轉字幕-測試

✅字幕會產生時間標記:有
✅自動加字在影片上:有

中文的辨識正確率可能還是有待加強… 像範例測試影片「18月3年」正確應為「113年」(口語:一百一十三年);「有點膽固」正確應為「有點唐突」,其他就不提了,反正還是要自行校對。

看資料上寫,威力導演的 AI 是用使用者電腦本機運算的,語言還有作業系統的差異:
Windows 版本: 英文、繁體中文、日文
Mac 版本: 英文、中文、日文、西班牙文、德文、法文、義大利文、韓文、荷蘭文
實際使用似乎沒有想像中那麼吃效能,使用 AI 功能時,電腦的顯卡風扇沒有狂轉,CPU 或 GPU 使用率沒有特別飆高。

更多使用說明可以參考 如何使用訊連科技威力導演 365 的「AI 語音轉文字」功能?

目前威力導演系列主要分成幾種版本:
– 威力導演旗艦版,買斷的,一次性付費版本,不是訂閱制,沒有 AI 功能
– 威力導演365,訂閱制,有 AI 功能,費用也沒有想像中的貴,平均一個月 100 多塊台幣。
– 創意導演365,訂閱制,有 AI 功能,包含4套軟體,涵蓋影片剪輯、照片編輯、影片調色、音樂剪輯。

五、使用 Adobe Premiere Pro 的 Speech to Text

Adobe Premiere Pro 裡面也有自動字幕的功能 Speech-to-text

這個語音轉文字功能是有支援中文的,Adobe 支援以下語言:英文、英文 (英國)、簡體中文 (國語)、繁體中文 (國語)、繁體粵語、西班牙文、德文、法文、日文、葡萄牙文、韓文、義大利文、俄文、印度文、荷蘭文、挪威文、瑞典文和丹麥文。

Adobe Premiere Pro 將影片轉錄為文字 官網介紹

缺點在於 Premiere 本身就不是免費的,需要訂閱 Adobe Creative Cloud 全家餐。或是單獨訂閱 Adobe Premiere Pro。

AI 運算要消耗 Adobe 伺服器的雲端資源嗎? 要另外買什麼 AI 點數嗎? 不需要,Speech to Text in Premiere Pro | FAQ 有說,2023/2 之後他們就關閉 cloud-based transcription 的功能了。

從 Premiere Pro 版本 22.2 開始,這個 Speech to Text 是在使用者電腦本機做運算,只要下載語言檔之後,不用連上網路也能影片轉字幕。

操作方式如上官方影片,
在匯入素材時就有一個 “automatic transcription” 的小開關,
也可以在工具面板中方便的產生 transcript ,還有根據 transcript 直接在剪接時間軸中一鍵插入字幕。

六、使用 Canva 的無障礙字幕或品牌字幕功能

Canva 不只能做圖、做簡報,還能做影片。
其中有一些無障礙友善的功能,其中一個是啟用影片和音訊輔助字幕,這跟其他剪接軟體的字幕功能不一樣,比較像是讓聽障人士知道影片語音在說什麼用的。但如果情況非不得已,還是勉強能用一下。

如何操作呢?
– 在 Canva 建立影片專案
– 將影片放在剪接時間軸
– 點選左上角的檔案>設定>在媒體上顯示說明文字

這時候再播放時間軸上的影片,會發現影片中跑出了黑底半透明方塊,上面有白色文字的字幕。

但因為這個是無障礙友善功能:
– 看到字幕有錯字,不能修改
– 這個「字幕」的樣式跟位置也不能自己設定,根本選不到
– 這個「字幕」只有在編輯模式下看得到
– 影片剪完要匯出,如果選擇下載影片,這個無障礙字幕不會跟著匯出。頂多只能靠錄螢幕,把編輯模式那個區域的畫面錄下來。

也許未來哪一天 Canva 會推出正經的影片自動上字幕的功能? 在那天還沒到來前,只能手動上字幕,或是用其他軟體。

2024/10/22 更新: 正經的影片自動上字幕功能來了,Canva 在 2024 年的產品發布會 Droptober當中介紹了一個「品牌字幕(branded captions)」的功能,看起來就是那種大家想要的,把影片自動轉成字幕的功能。

雖然 Canva 這個影片上字幕的功能沒有馬上開通,還在 Coming Soon。
可以先看官方的操作影片...

Canva 的 品牌字幕(branded captions) 操作範例

點了某個神奇小按鈕之後,字幕就自動加好了,而且可以自由編輯字幕的樣式。

但這樣看起來語音辨識字幕是包在「品牌工具組」裡面,而品牌工具組是付費的 Canva Pro 的功能,可能不是大家想要的免費語音轉字幕...

七、台灣的語音轉文字服務

這些不是影片後製編輯工具,而是專門做語音辨識服務的。

語音轉字幕是這類產品的其中一個功能,使用者可以把語音檔轉成帶時間標記的文字檔。
如果需要剪影片,可以導出字幕檔格式,再匯入到影片後製軟體裡面就好了。

這類產品普遍還有用語音檔產生會議紀錄逐字稿、整理重點摘要之類的功能。

如果想要反過來用,例如文字稿寫出來之後想要變成 podcast 或有聲書,部分廠商也有提供 TTS(文字轉語音)相關服務。

雅婷逐字稿
雅婷逐字稿是一款專為台灣口音優化的AI語音轉文字服務,標榜「無需有資料被傳出台灣的隱私和資安疑慮」,並保證不會將使用者的資料與紀錄出售給第三方廣告或組織。

AiMochi
由大數軟體有限公司開發,會員帳號使用 LINE 登入,特別的是還有做 LINE 版本的操作介面,只要把檔案丟到 AiMochi 的 LINE 官方帳號,就可以進行各種語音轉文字的處理。

MyEdit
由訊連開發,每天登入可以領 3 點數。

AI 語音轉文字工具只是其中一個功能,其他還有聲音檔編輯工具、AI 修復等服務。

Taption
Taption 是台灣新創,在一些新聞稿寫說由全台籍美籍開發團隊精心打造,其安全性與隱私保護措施受到政府機構、電信企業、大學及媒體業等多個領域的信任與青睞,成為宗教團體等敏感領域的首選。

如果是台灣的公司行號,要買這種語音轉字幕服務,還要有發票,這幾間可以考慮看看。

八、Microsoft Clipchamp

Microsoft Clipchamp

這是一個在 Windows 上的影片編輯器,在 2021 年被微軟收購,在 Windows Store 就可以免費下載並安裝,影片不會有軟體名稱浮水印什麼的,如果電腦只是偶爾要剪剪行車紀錄器影片,不需要太專業,也可以安裝這個。

Microsoft Clipchamp 也有付費版本,付費版有更多素材,還可以把影片輸出成 4K。

在免費版本就包含語音轉字幕的功能,叫做 CC 輔助字幕,把影片素材拉進剪輯時間軸之後,就可以在右手邊看到按鈕,點擊後會詢問影片是什麼語言的,然後在雲端進行辨識,背後是用 Azure AI 的技術。

它的 AI 語音辨識語系裡面有好幾種中文可以選,一般台灣人對話要選台灣的國語(簡稱台灣國語)...

microsoft-clipchamp-voice-to-text-option

辨識完之後就會自動幫影片加好字幕,我們可以編輯字幕樣式,有辨識錯誤可以自己改,也可以單獨存出 srt 字幕,基本的功能都有,沒有任何問題。

最大的問題是...因為一次只能選一種語言,如果對話是國台語夾雜,國語和英文夾雜,多種語言混合,辨識出來的結果會超級慘。

九、蘋果 macOS 的聽寫功能

有人可能會想到,macOS 或 iPhone 都有語音輸入法,有時候用嘴巴講一講,就能讓手機和電腦打好字,精準度還不錯,這是不是也能拿來產逐字稿,幫影片/語音檔轉出文字?
只能說…不太好用。

以 Macbook Air M1 筆電為例,系統裡的聽寫(Dictation)預設是關閉的,要先依照官方說明 在 Mac 上聽寫訊息和文件把設定打開。

  • 雙視窗聽寫:失敗
    一個視窗播影片,另一個視窗開文字編輯器(或直接開影片剪接軟體的輸入字幕文字模式),然後按下鍵盤 F5 的麥克風按鈕,這時候會發現…播放的影片會變成靜音,這時候自己講話是能成功聽寫,但根本無法直接聽寫影片的語音。聽寫功能的訊源也只能指定麥克風,不能直接指定某個影片播放 app 或瀏覽器視窗當聲音訊源。
  • 手機播影片給電腦聽:失敗機率很高
    首先要上網查筆電的麥克風位置在哪,接著電腦打開文字編輯器(或直接開影片剪接軟體的輸入字幕文字模式),然後按下鍵盤 F5 的麥克風按鈕,然後用手機對著電腦麥克風播影片,讓電腦聽寫。
    缺點是影片語速比較快的,就幾乎辨識不出來,而且沒有時間軸資訊。影片有多長,就要花 1:1 的時間播一遍,而且手機播放音量不能太小聲。限制非常多。
  • 使用虛擬麥克風:麻煩
    流程大致是這樣:
    1. 安裝第三方廠商的虛擬麥克風軟體
    2. 把指定的音檔放在虛擬麥克風軟體內
    3. 調整系統設定,讓聽寫去聽虛擬麥克風裡的音源,產生文字。

    虛擬麥克風軟體很多,例如BlackHole 或是 Loopback,網路上都有教學,但拿來聽寫可能是殺雞用牛刀。軟體通常要付費購買,而且設定時通常需要變更一些系統設定。

Loopback Mac Setting

如果不是經常需要製作逐字稿或上影片字幕,只是需處理一小段影片。可能會發現,光是設定和熟悉這些軟體的時間,就足以讓人手動完成整個逐字稿或字幕製作過程了。

MacOS 上另一個知名的影片工具 Final Cut Pro 也終於在 2024 年發布的版本 11 出了自動上字幕(Transcribe to Captions)功能,必須要使用 macOS Sequoia 或版本更新的作業系統。不過因為我沒買,就留給有興趣的人自己研究。
Final Cut Pro User Guide for Mac - Use Transcribe to Captions to create captions automatically

十、使用 OpenAI 的 ASR 開源模型 Whisper

想要實作語音辨識轉文字功能,其中一種的底層運作邏輯是自動語音辨識(Automatic Speech Recognition, ASR),不少研究室都有這類的 AI 神經網路模型和論文,這次我們會用到的是Whisper 是 OpenAI 開源出來的 ASR,最早釋出是在 2022/9,不只是能辨識歐美語系,竟然還有支援國語(中文普通話)、粵語。

Openai Whisper Wer Chart Large V3
圖表來源: https://github.com/openai/whisper

可能會隨 Whisper 模型更新而有新的圖表。圖表僅供參考,如果測出來錯誤率 WERs (word error rates) or CER (character error rates) 超過表上的標示,請自己乖乖吞下去,沒有人會出來負責的,不要財大氣粗地叫員工跟 OpenAI 要報價。

有了免費的開源模型,那就有幾種應用方向,讓一般人也能輕鬆使用 AI 模型完成自己的需求,常見的有三種:

  • 在電腦上分別下載 Whisper 的語言模型檔,與處理影片/音檔的 GUI 工具。
  • 有些語音辨識軟體提供比較簡單的操作方式,幫人自動下載開源模型。
  • 有些 AI 平台會把開源模型放在平台上給人用,使用者電腦本機不用安裝一堆東西。

以第一種為例,AI 模型可以到這邊下載 https://huggingface.co/ggerganov/whisper.cpp/tree/main
不用全部下載,要視自己的電腦配備等級量力而為,
有些模型是 English Only 的,中文效果很差,
有些比較小的 small 或 medium 也可以辨識中文,但效果很差。
這邊用 ggml-large-v2.bin 來做測試。

不過反正 AI 玄學有各種特色,模型容量2倍大,辨識成果的正確率也不一定2倍好就是了。一般使用者能做的就是把東西丟到一個黑盒子裡面,運氣好的話可以引導 AI 得到想要的成果。
各模型參數和支援語系資訊可參考 Model Card: Whisper

有了 AI 模型,還需要有一個程式能運作 AI 模型,把影片、音訊把檔案丟給 AI 模型,然後把運算結果顯示成像字幕的東西。

有了基礎觀念,以下來介紹一些使用 Whisper 模型來辨識語音或是自動產生字幕的工具,或是自己再去找使用這種概念衍生的新軟體。

WhisperDesktop

這是 Windows 系統上才能用的,有操作介面,使用上也非常簡單的 WhisperDesktop
下載 WhisperDesktop.zip,解壓縮之後有個 WhisperDesktop.exe。

whisper-desktop 操作介面

使用時第一步就是載入第一步下載的 bin 模型檔案,第二步就是選影片檔和輸出路徑,按下 Transcribe…就完成了。

缺點:

  • 寫文章的時候,WhisperDesktop 已經一年沒更新了(最後更新:2023/7),想要使用一些比較新的模型檔,會載入失敗。(還有人記得 pyTranscriber 嗎? 寫這篇的時候,pyTranscriber 最後一次更新已經是 2022 年底,快兩年了…)
  • 這個是 Windows 的,macOS 的要另外找。
  • 對一般人來說,操作步驟比較多,比較像是工程師在用的,不過 WhisperDesktop 已經非常親民了,還有其他像是 faster-whisper 才更像工程師在用的,能控制的地方也更多。
  • 電腦需要一定等級的設備,不是那種看 YouTube 都會卡的文書機。不過對於平常就用來剪接、打電動、搞 AI 的人來說,可能沒什麼特別的。
  • 影片過長,或是不明原因卡住,容易轉譯失敗,字幕檔會出現一句話一直重複的現象,最好把影片切短,或重新辨識。
  • 結尾或中間有時候會跑出「字幕製作/時間軸:秋月/AutumnMoon/貝爾」之類的文字,純屬正常現象,要自己刪掉。

最大的缺點大概就是用 AI 產生逐字稿或字幕後,還是要進影片後製軟體自行處理。畢竟這個不是影片後製軟體,不會自動產生上好字幕的影片。

如果是要幫影片上字幕的,而且是一個人一條龍作業的,建議直接使用本文其他內建自動語音辨識字幕的影片後製軟體,校對辨識的字幕時,可以直接對到影片畫面+聲音,用起來比較順手,以免多花時間處理。

Subtitle Edit

官網: Subtitle Edit
Github Release: SubtitleEdit/subtitleedit

這是 Windows 系統上才能用的,看名稱可能會以為這個是字幕編輯工具,官網視覺設計看起來就很工程介面,第一印象就感覺很難用,但其實用起來非常簡單

下載執行之後,在主選單 video>audio to text 中可以找到辨識影片中的人聲轉成字幕的功能。

需要安裝一些必要的元件,像是 FFMpeg、Faster Whisper 之類的,都是滑鼠點一點就好了,subtitleedit 都會直接提示下載安裝。
subtitleedit 軟體裡面也有一個 Whisper 模型清單,可以直接點選下載,中途完全不用自己開 cmd 視窗,複製貼上什麼 pip 指令跟自己 debug。

Subtitleedit

轉檔完成後會自動產生 srt 檔案在影片資料夾中。
使用 Whisper large-v3 之後辨識成功率有顯著的成長,以前 v2 會聽錯的中文字詞,v3 都能聽出來。

faster-whisper-GUI

下載: faster_whisper GUI with PySide6

同樣支援 whisper 的 large-v3,有批次轉檔功能,把一些細部選項都做成 UI 介面讓人點,還有簡單的時間軸編輯功能。

不過因為是對岸的開發者寫的,所以軟體的中文介面是簡體中文,不喜歡的可以不要用。

MacWhisper

可以從MacWhisper的 gumroad 免費下載試用。

這是 macOS 系統上才能用的,使用上非常簡單,有人性化的 UI 介面,打開程式,用滑鼠選擇模型,下載到本地電腦後,然後就可以選擇影片或聲音檔,轉出文字。

MacWhisper 免費版只支援 Tiny, Base and Small 等級的模型,Medium 跟 Large 的要付費升級到 Pro 版本才能使用。
小參數模型的好處是親測 8G RAM 的最低配備筆電也跑得動,缺點是辨識中文的效果可能沒這麼好。

想要載入更大的模型,或是使用一些雲端的 AI 模型,最低要花 $39 歐元(台幣大概1400塊)升級到 MacWhisper Pro(1 License (Personal Use))。

whisper.cpp

同樣是在電腦本機運算,whisper.cpp 除了可以使用 OpenAI Whisper 那些 ASR 模型 ,還支援 Apple Silicon 內建的 Core ML 機器學習框架,而且也是免費的,沒有什麼免費版只能限制使用某些模型的設計。

缺點是從載入模型、各種設定,通通都得在終端機中輸入指令來操作,想要駕馭它,最好是具有研究精神的人,安裝與設定方式可參考whisper.cpp

在瀏覽器上面跑小型 LLM

另外一些在本地端執行,可以處理影片轉字幕類似用途的工具,可以參考:

Whisper Web – ML-powered speech recognition directly in your browser
上傳影片或音檔後,記得要再選齒輪圖案:

  • Select the model to use 選擇表上最大的的模型,效果比較好
  • 如果影片不是英文,要勾 Multilingual
  • Select the source language 選擇 Chinese 或其他影片的語言
  • Select the task to perform. 選擇 Transcribe (語音轉換為文字)

在 Groq AI 平台上免費使用 Whisper 模型

上面介紹了幾種要在自己電腦本機跑 AI 大模型的,這個則是線上的 AI 平台。

Groq 是一個成立於 2016 年的 AI 技術新創公司,主要的服務像是提供各種企業端的 AI 應用基礎設施,像是 API、運算設備集群等等,而不是直接開發給消費者/末端使用者使用的產品。

Elon Musk 的其中一間公司 xAI,旗下有一個 AI 產品叫 Grok,名字可能很像,也都是搞 AI 的,但 Groq 跟 Grok 是不相干的,不要搞混,一個會拿推特上的貼文資料去訓練,一個不會。

Groq 提供了一個 Groq Cloud Playground,上面有一些開源大模型用來讓人體驗他們的基礎設施,裡面也提供了 whisper 模型,whisper-large-v3-turbo 和 whisper-large-v3 都有,有語音辨識需求的話,剛好可以讓我們來蹭一下。

groq-cloud 使用 whisper 和 llama 做語音轉字幕

whisper 模型名稱帶有 turbo 的,處理速度通常會比較快,但比較不精準,反正不滿意的話就兩種模型都試試看,目前暫時還是免費的,不會依照 API 呼叫次數或是語音分鐘數計費。

剛剛有說,這主要不要賣給一般消費者的,Playground 的介面上可以讓人上傳檔案,也可以讓瀏覽器用麥克風即時錄音,辨識後得到的是帶有文字和時間資訊的 JSON 資料,或是一大段沒有時間軸的純文字。

必須要再使用平台上其他 LLM,將剛剛的 JSON 資料貼上,然後輸入「請將 json 內容翻為 srt 字幕檔」之類的 prompt,最後再把 LLM 回答的東西複製到記事本,存成 srt 檔案。

十一、其他中港澳公司開發的

既然剪映都在用了,那其他對岸的工具也不排斥吧?
雖然我平常也不用剪映,本來還想要講小米監視器、華為手機之類的壞話,但是找到這篇文章的人,應該都不是為了看那些廢話的。
看到一些剪輯慘業的案件金額和薪資、再看到剪映各種方便體貼的小功能,這軟體這麼紅,實在是有道理的。

我的想法跟之前提過的一樣 GitHub Copilot AI 替代品,12 款不可錯過的程式開發秘密武器,例如員工可能老是聽資方各種大道理,這種慘業還是違反勞動法令事業單位的重災區之一,那麼員工會好心地把安全、隱私、資安、道德列入首要考慮因素,累死自己,還落得工作效率低落的名聲,還是挑一些便宜、甚至免費,但背後運作方式來路不明的東西,趕快交差就好?

軟體網路無國界? 最麻煩的是對岸的服務有中國網路實名制規定,甚至後來還推出網證(居民身份网络可信凭证,簡稱網證或 CTID),大部分線上服務要註冊會員、實名驗證。

然後會員驗證的手機號碼格式、證件號碼格式,都只能接受中國大陸本地的,如果該服務沒有另外一套海外版,外國人通常在註冊會員這關就卡住了。
就算好不容易註冊成功,想要付款的時候,可能又會被卡住,把信用卡綁上微信,不知道為啥就是驗證失敗,不然就是一些中國本土使用,外國人聽都沒聽過的付款方式,讓代付代儲業者發大財。

除了註冊與驗證之外,容易還有其他問題,像是:

  • 輸出的字幕只有簡體中文,不能選繁體中文
  • 還有政治敏感問題,影片中提到某些敏感關鍵字,字幕會辨識不出來...
  • 有些是專門設計在手機上使用,語音辨識準確度很強,但其他功能比較陽春,尷尬的是字幕還不能獨立匯出成單一檔案...

中港澳公司出的請看另一篇剪映的自動識別字幕要付費,其他中港澳公司出的中文語音轉文字替代方案,裡面介紹了一些方便好用的線上語音辨識和字幕編輯工具,還有能在手機上快速剪片上字幕的 app。

結語

聲音自動轉文字、自動上字幕是一種用過就回不去的功能,不只是這個,很多程式自動化都是這樣,雖然功能不可能做到完美,但是習慣之後,就不會想再回到完全由人工處理的模式。
不過講是這樣講,我們實務上在開發與導入這類東西,經常遇到各種阻礙,不只是預算問題、還有立場問題、人的問題,只適合給有緣人使用

如果是為了找免費的影片/語音檔轉字幕工具,那可能不好找。這種 AI 產品通常都是要付費的,這種產品的運作成本很高,光是在公有雲上弄一個可以同時讓至少千人上傳語音檔的線上平台,建立、維護&營運成本已經嚇死一堆人,更別說再加上什麼語音辨識功能。以前還可以免費給使用者用,除了拿投資人的錢之外,真是難以想像背後是怎麼支撐的。剪映後來開始養套殺收費也不意外。

海外地區的像 Good Tape、cSubtitle(香港公司)、Descript 這些,通常只有少少的免費試用額度,付費的話通常每 60 分鐘要台幣幾十~幾百塊不等,或是要付訂閱費。

留言:

近期熱門 Hot Posts

    Contact Me

    E-Mail

    Open Email Client

    LINE 私訊
    此為 LINE 官方帳號,僅用於連絡,不會群發訊息

    加 LINE 好友

    FB Messenger/Instagram 私訊

    FB Messenger IG 小盒子

    Telegram 私訊

    傳訊息到 Telegram