剪映的自動識別字幕要付費，其他幾種中文語音轉文字替代方案

2024/07/15

剪映有一個好用的功能，把影片或語音檔放進去，就可以識別中英文語音、直接在剪接時間軸內加好字幕，還可以導出 SRT 字幕檔。語音辨識的準確率還不錯。

然而，這功能現在變成要付費專業版才能使用了…

剪映的字幕識別變成VIP付費功能

五星評論家麥克阿瑟表示：用過這種功能，誰還要人工聽打逐字稿? 手工打字或打開錢包選一個吧。

本文來找一些其他可以幫影片辨識語音人聲，自動轉字幕的工具。

影片人聲語音轉文字，聽起來就短短幾個字，實務上這種需求可能很細，例如:

做摘要用的，只需要純文字，沒有 timecode 也沒關係。
作影片字幕用的，需要有文字和 timecode。
字幕要能自動插入到剪接軟體的時間軸，不要先轉 mp3，開另一個軟體操作，處理完再自己手動匯入、一句一句手工插入...等一大堆步驟。
字幕要能另外匯出，存成 srt 或特定格式，YouTube 的 CC 字幕或其他地方要用。
演講或直播用途，需要電腦接麥克風或某種音訊輸入源，然後即時產生字幕。
要做卡拉 OK 字幕效果，需要更精準的單字時間標記。
人聲是台語或其他比較冷門的語言，或是多種語言夾雜各種專有名詞，想找到一套好用的就不容易，像 Zoom、Google Meet、Teams 的自動字幕功能吹了這麼久，實際使用的成果還是很難令人滿意。
需要的不只是字幕，而是生動活潑的字卡特效。

本文的產品也不一定通通都能做到，只是大概點出一些使用經驗或產品特色，至於符不符合需求，自己能不能順利安裝? 建議自己使用看看囉。

一、CapCut (剪映國際版) 目前還能免費轉字幕

網址: https://www.capcut.com/

剪映跟 CapCut 的關係，大概就跟抖音 vs. TikTok 一樣，一個是中國版本，付款方式或一些帳號認證方式都是中國人專屬的，而另一個是國際版。

CapCut 又有分兩個版本，目前都還可以免費產生字幕:

CapCut 線上版

點上面那個網站連結，進去之後右上角有一個「試用 CapCut 線上版」，裡面有一個類似 Canva 的東西，可以做圖片，也可以處理影片。

把影片丟上時間軸，然後左邊有一個「字幕」，選擇自動字幕，和影片的語言，再按產生，影片就有字幕了。

然後選擇匯出影片，還可以把字幕另外下載成 SRT 或 TXT，非常方便。

CapCut 線上版可以匯出字幕

CapCut 線上版的缺點，要等影片上傳完才能開始辨識，片長很長的話，要等老半天。

CapCut 電腦版

點上面那個網站連結，首頁另外有個下載連結，可以下載電腦版的 CapCut，就不需要等待什麼上傳步驟。

操作方式跟本來的剪映差不多，字幕辨識完會自動加到剪接時間軸。

缺點也不是沒有，等到要匯出字幕檔時…本來這邊應該有一個匯出字幕的選項，竟然消失了!

CapCut 本機版本

有些人可能是要用字幕檔轉成繁體、或是把字幕檔當成 YouTube 的 CC 字幕，
有時候可能是要處理語音訪談逐字稿，單純靠剪映把語音轉文字弄出 TXT 檔，
既然無法另存字幕檔，就比較尷尬…

二、使用 5.5 以下舊版本的剪映，不要升級到 6 以上

5.5 版本就開始一些功能升級到變成 VIP 方案才能用，到 5.9 都還有免費的字幕識別(語音轉文字)功能，自動字幕識別變 VIP/SVIP 是剪映 6.0 版本才加上的，聽說一些還沒升級到 6.x 版本的朋友還能繼續用。

以下提供兩種方式，一種是去找 5.x 的舊版本剪映來用，另一種是如果不小心升級了，把自己電腦裡的新版本刪掉，退回到舊版本。

下載安裝舊版本

所以如果有在用這個功能的，要嘛不要升級，或是找別人要安裝檔…

目前應該在網路上都還找到，像軟體王還有 5.7 版本的下載點剪映專業版 5.7.0.11480 for Windows : 軟體王 2024 – 軟體資訊 (下載按鈕在頁面中間綠色的，要自己找一下)。

我也提供一個 5.2 版本的免安裝版 Mega 載點
https://mega.nz/file/pL5hBLaL#lHIfs1C_uc5t-Epnt0dndrA15e4lm8bQ5koDmXz-GPA

檔案大概有 1.3GB，我是從之前安裝過的 Windows VM 系統中複製出來的，預設安裝目錄在 C:\Users\使用者名稱\AppData\Local\JianyingPro\Apps，也可以找朋友拷貝。

解壓後點擊 JianyingPro.exe，等環境檢測完，應該就會正常啟動。
啟動時可能會跳版本更新提示，記得不要更新。
自動識別字幕功能，在文本>智能字幕>識別字幕。

移除新版本

另外還有一招，利用剪映的程式設計機制，如果有一台電腦用剪映用了很久，那每次更新時，舊版本都還會留在電腦裡。
到剛剛那個安裝目錄 C:\Users\使用者名稱\AppData\Local\JianyingPro\Apps，或是在捷徑選擇「開啟檔案位置」，應該會看到一堆用版本號 5.x 命名的資料夾。

先把剪映程式關掉，然後把 6.x 的資料夾都砍掉，重新打開剪映，應該會發現剪映變回舊版本了。

不過這招有個問題，用這招降版本後，打開新版本剪映編輯的專案，會提示「軟件版本需要升級 : 檢測到草稿版本較新，是否升級至最新版本打開草稿?」
這時候只能選擇升級剪映版本，或是取消。如果不升級，就不能打開那個新版本的剪映弄的草稿專案。

不過對這招舊版本大法不要太期待，
因為剪映的自動識別字幕，是在剪映官方的雲端伺服器處理的，而不是在使用者的自己電腦本機。
所以哪一天剪映官方在雲端稍微調整一下系統，直接把來自較低版本號的字幕識別的使用者請求封鎖，這招就不攻自破，大家就沒得用了，現在只是先偷著樂。

三、使用 DaVinci Resolve Studio 19 的 AI 语音轉文本功能

DaVinci Resolve 也是一個經典的影視慘業專業工具，它在 19 版本新增了一個語音自動轉字幕功能。

DaVinci Resolve 19 版本新增了一個語音自動轉字幕功能

AI语音到文本转录
转录功能能够自动转录视频和音频片段！只需在媒体池内选择片段，然后使用菜单选择音频转录功能即可开始转录。您可以标记入点和出点编辑或删除文本，生成子片段，添加标记，甚至移除无声部分。

這功能對於中文影片有沒有效呢?
DaVinci Resolve 有提供免費版本，可以試試看。

下載時可能會跳出一個註冊表單，選擇國家的時候，T 開頭跟 R 開頭可能都找不到台灣，要找 C 開頭的 Chinese Taipei…

安裝後，一旦點選上方選單中的 Timeline，然後選擇「從音頻創建字幕」，接著會看到…

DaVinci Resolve 19 進階功能付費提示

這功能要購買才能用啦。
想購買的可以從官網找到 Chinese Taipei 的經銷商Find a Reseller。

如果不想買的，可以先看一下官方的操作範例:

從上述的影片可以看出有點麻煩，
DaVinci Resolve 會先把語音辨識出來的所有文本內容顯示在一個小視窗內，
然後使用者要一段一段從小視窗內選取文字、
再選取要放字幕的時間點，
最後按一個按鈕，把剛剛選取的那一句話加到字幕時間軸中。

跟剪映比起來，所費的工看起來還是多了些…

MacOS 上另一個知名的影片工具 Final Cut Pro 也終於在版本 11 出了自動上字幕(Transcribe to Captions)功能，必須要使用 macOS Sequoia 或版本更新的作業系統。不過因為我沒買，就留給有興趣的人自己研究。
Final Cut Pro User Guide for Mac - Use Transcribe to Captions to create captions automatically

四、使用訊連威力導演 365 的「AI 語音轉文字」

是的，就是大家小時候可能都聽過的威力導演。

長大後如果在相關慘業，可能會發現導演應該是負責創意方向、指導演員、協調各部門等，為什麼後製人員在用的東西要取名「導演」? 反正我們這些底層勞動人員不要想這麼多，阿影片是弄完了沒?

總之目前威力導演還是不斷在更新，新版本的威力導演也加上了不繳錢就不能用的訂閱制……啊，是加上了「AI 語音轉文字」的功能，還有一些短影片的人物描邊之類的罐頭特效。

訊連威力導演 365 的AI 語音轉文字

AI 語音轉文字功能基本上是要付費訂閱才能用的，免費版可以試用一次:

威力導演的語音轉字幕-試用提示

隨便去網路上抓一支 YT Shorts 來測試，轉檔之後的測試範例大概長得像這樣:

威力導演的語音轉字幕-測試

✅字幕會產生時間標記:有
✅自動加字在影片上:有

中文的辨識正確率可能還是有待加強… 像範例測試影片「18月3年」正確應為「113年」(口語:一百一十三年)；「有點膽固」正確應為「有點唐突」，其他就不提了，反正還是要自行校對。

看資料上寫，威力導演的 AI 是用使用者電腦本機運算的，語言還有作業系統的差異:
Windows 版本：英文、繁體中文、日文
Mac 版本：英文、中文、日文、西班牙文、德文、法文、義大利文、韓文、荷蘭文
實際使用似乎沒有想像中那麼吃效能，使用 AI 功能時，電腦的顯卡風扇沒有狂轉，CPU 或 GPU 使用率沒有特別飆高。

目前威力導演系列主要分成幾種版本:
– 威力導演旗艦版，買斷的，一次性付費版本，不是訂閱制，沒有 AI 功能。
– 威力導演365，訂閱制，有 AI 功能，費用也沒有想像中的貴，平均一個月 100 多塊台幣。
– 創意導演365，訂閱制，有 AI 功能，包含4套軟體，涵蓋影片剪輯、照片編輯、影片調色、音樂剪輯。

五、使用 Adobe Premiere Pro 的 Speech to Text

Adobe Premiere Pro 裡面也有自動字幕的功能 Speech-to-text。

這個語音轉文字功能是有支援中文的，Adobe 支援以下語言：英文、英文 (英國)、簡體中文 (國語)、繁體中文 (國語)、繁體粵語、西班牙文、德文、法文、日文、葡萄牙文、韓文、義大利文、俄文、印度文、荷蘭文、挪威文、瑞典文和丹麥文。

Adobe Premiere Pro 將影片轉錄為文字官網介紹

缺點在於 Premiere 本身就不是免費的，需要訂閱 Adobe Creative Cloud 全家餐。或是單獨訂閱 Adobe Premiere Pro。

AI 運算要消耗 Adobe 伺服器的雲端資源嗎? 要另外買什麼 AI 點數嗎? 不需要，Speech to Text in Premiere Pro | FAQ 有說，2023/2 之後他們就關閉 cloud-based transcription 的功能了。

從 Premiere Pro 版本 22.2 開始，這個 Speech to Text 是在使用者電腦本機做運算，只要下載語言檔之後，不用連上網路也能影片轉字幕。

操作方式如上官方影片，
在匯入素材時就有一個 “automatic transcription” 的小開關，
也可以在工具面板中方便的產生 transcript ，還有根據 transcript 直接在剪接時間軸中一鍵插入字幕。

六、使用 Canva 的無障礙字幕或品牌字幕功能

Canva 不只能做圖、做簡報，還能做影片。
其中有一些無障礙友善的功能，其中一個是啟用影片和音訊輔助字幕，這跟其他剪接軟體的字幕功能不一樣，比較像是讓聽障人士知道影片語音在說什麼用的。但如果情況非不得已，還是勉強能用一下。

如何操作呢?
– 在 Canva 建立影片專案
– 將影片放在剪接時間軸
– 點選左上角的檔案>設定>在媒體上顯示說明文字

這時候再播放時間軸上的影片，會發現影片中跑出了黑底半透明方塊，上面有白色文字的字幕。

但因為這個是無障礙友善功能:
– 看到字幕有錯字，不能修改
– 這個「字幕」的樣式跟位置也不能自己設定，根本選不到
– 這個「字幕」只有在編輯模式下看得到
– 影片剪完要匯出，如果選擇下載影片，這個無障礙字幕不會跟著匯出。頂多只能靠錄螢幕，把編輯模式那個區域的畫面錄下來。

~~也許未來哪一天 Canva 會推出正經的影片自動上字幕的功能? 在那天還沒到來前，只能手動上字幕，或是用其他軟體。~~

2024/10/22 更新: 正經的影片自動上字幕功能來了，Canva 在 2024 年的產品發布會 Droptober當中介紹了一個「品牌字幕(branded captions)」的功能，看起來就是那種大家想要的，把影片自動轉成字幕的功能。

雖然 Canva 這個影片上字幕的功能沒有馬上開通，還在 Coming Soon。
可以先看官方的操作影片...

Canva 的品牌字幕(branded captions) 操作範例

點了某個神奇小按鈕之後，字幕就自動加好了，而且可以自由編輯字幕的樣式。

但這樣看起來語音辨識字幕是包在「品牌工具組」裡面，而品牌工具組是付費的 Canva Pro 的功能，可能不是大家想要的免費語音轉字幕...

七、台灣的語音轉文字服務

這些不是影片後製編輯工具，而是專門做語音辨識服務的。

語音轉字幕是這類產品的其中一個功能，使用者可以把語音檔轉成帶時間標記的文字檔。
如果需要剪影片，可以導出字幕檔格式，再匯入到影片後製軟體裡面就好了。

這類產品普遍還有用語音檔產生會議紀錄逐字稿、整理重點摘要之類的功能。

如果想要反過來用，例如文字稿寫出來之後想要變成 podcast 或有聲書，部分廠商也有提供 TTS(文字轉語音)相關服務。

雅婷逐字稿
雅婷逐字稿是一款專為台灣口音優化的AI語音轉文字服務，標榜「無需有資料被傳出台灣的隱私和資安疑慮」，並保證不會將使用者的資料與紀錄出售給第三方廣告或組織。

AiMochi
由大數軟體有限公司開發，會員帳號使用 LINE 登入，特別的是還有做 LINE 版本的操作介面，只要把檔案丟到 AiMochi 的 LINE 官方帳號，就可以進行各種語音轉文字的處理。

MyEdit
由訊連開發，每天登入可以領 3 點數。

AI 語音轉文字工具只是其中一個功能，其他還有聲音檔編輯工具、AI 修復等服務。

Taption
Taption 是台灣新創，在一些新聞稿寫說由全台籍美籍開發團隊精心打造，其安全性與隱私保護措施受到政府機構、電信企業、大學及媒體業等多個領域的信任與青睞，成為宗教團體等敏感領域的首選。

如果是台灣的公司行號，要買這種語音轉字幕服務，還要有發票，這幾間可以考慮看看。

八、Microsoft Clipchamp

Microsoft Clipchamp

這是一個在 Windows 上的影片編輯器，在 2021 年被微軟收購，在 Windows Store 就可以免費下載並安裝，影片不會有軟體名稱浮水印什麼的，如果電腦只是偶爾要剪剪行車紀錄器影片，不需要太專業，也可以安裝這個。

Microsoft Clipchamp 也有付費版本，付費版有更多素材，還可以把影片輸出成 4K。

在免費版本就包含語音轉字幕的功能，叫做 CC 輔助字幕，把影片素材拉進剪輯時間軸之後，就可以在右手邊看到按鈕，點擊後會詢問影片是什麼語言的，然後在雲端進行辨識，背後是用 Azure AI 的技術。

它的 AI 語音辨識語系裡面有好幾種中文可以選，一般台灣人對話要選台灣的國語(簡稱台灣國語)...

microsoft-clipchamp-voice-to-text-option

辨識完之後就會自動幫影片加好字幕，我們可以編輯字幕樣式，有辨識錯誤可以自己改，也可以單獨存出 srt 字幕，基本的功能都有，沒有任何問題。

最大的問題是...因為一次只能選一種語言，如果對話是國台語夾雜，國語和英文夾雜，多種語言混合，辨識出來的結果會超級慘。

九、蘋果 macOS 的聽寫功能

有人可能會想到，macOS 或 iPhone 都有語音輸入法，有時候用嘴巴講一講，就能讓手機和電腦打好字，精準度還不錯，這是不是也能拿來產逐字稿，幫影片/語音檔轉出文字?
只能說…不太好用。

以 Macbook Air M1 筆電為例，系統裡的聽寫(Dictation)預設是關閉的，要先依照官方說明在 Mac 上聽寫訊息和文件把設定打開。

雙視窗聽寫:失敗
一個視窗播影片，另一個視窗開文字編輯器(或直接開影片剪接軟體的輸入字幕文字模式)，然後按下鍵盤 F5 的麥克風按鈕，這時候會發現…播放的影片會變成靜音，這時候自己講話是能成功聽寫，但根本無法直接聽寫影片的語音。聽寫功能的訊源也只能指定麥克風，不能直接指定某個影片播放 app 或瀏覽器視窗當聲音訊源。
手機播影片給電腦聽:失敗機率很高
首先要上網查筆電的麥克風位置在哪，接著電腦打開文字編輯器(或直接開影片剪接軟體的輸入字幕文字模式)，然後按下鍵盤 F5 的麥克風按鈕，然後用手機對著電腦麥克風播影片，讓電腦聽寫。
缺點是影片語速比較快的，就幾乎辨識不出來，而且沒有時間軸資訊。影片有多長，就要花 1:1 的時間播一遍，而且手機播放音量不能太小聲。限制非常多。
使用虛擬麥克風:麻煩
流程大致是這樣:
1. 安裝第三方廠商的虛擬麥克風軟體
2. 把指定的音檔放在虛擬麥克風軟體內
3. 調整系統設定，讓聽寫去聽虛擬麥克風裡的音源，產生文字。
虛擬麥克風軟體很多，例如BlackHole 或是 Loopback，網路上都有教學，但拿來聽寫可能是殺雞用牛刀。軟體通常要付費購買，而且設定時通常需要變更一些系統設定。

Loopback Mac Setting

如果不是經常需要製作逐字稿或上影片字幕，只是需處理一小段影片。可能會發現，光是設定和熟悉這些軟體的時間，就足以讓人手動完成整個逐字稿或字幕製作過程了。

MacOS 上另一個知名的影片工具 Final Cut Pro 也終於在 2024 年發布的版本 11 出了自動上字幕(Transcribe to Captions)功能，必須要使用 macOS Sequoia 或版本更新的作業系統。不過因為我沒買，就留給有興趣的人自己研究。
Final Cut Pro User Guide for Mac - Use Transcribe to Captions to create captions automatically

十、使用 OpenAI 的 ASR 開源模型 Whisper 和其衍生產品

想要實作語音辨識轉文字功能，其中一種的底層運作邏輯是自動語音辨識(Automatic Speech Recognition, ASR)，不少研究室都有這類的 AI 神經網路模型和論文，這次我們會用到的是Whisper 是 OpenAI 開源出來的 ASR，最早釋出是在 2022/9，不只是能辨識歐美語系，竟然還有支援國語(中文普通話)、粵語。

Openai Whisper Wer Chart Large V3
圖表來源: https://github.com/openai/whisper

可能會隨 Whisper 模型更新而有新的圖表。圖表僅供參考，如果測出來錯誤率 WERs (word error rates) or CER (character error rates) 超過表上的標示，請自己乖乖吞下去，沒有人會出來負責的，不要財大氣粗地叫員工跟 OpenAI 要報價。

有了免費的開源模型，那就有幾種應用方向，讓一般人也能輕鬆使用 AI 模型完成自己的需求，常見的有三種:

在電腦上分別下載 Whisper 的語言模型檔，與處理影片/音檔的 GUI 工具。
有些語音辨識軟體/字幕工具提供比較簡單的操作方式，幫人自動下載開源模型。
有些 AI 平台會把開源模型放在平台上給人用，使用者電腦本機不用安裝一堆東西。

以第一種為例，AI 模型可以到這邊下載 https://huggingface.co/ggerganov/whisper.cpp/tree/main
不用全部下載，要視自己的電腦配備等級量力而為，
有些模型是 English Only 的，中文效果很差，
有些比較小的 small 或 medium 也可以辨識中文，但效果很差。
這邊用 ggml-large-v2.bin 來做測試。

不過反正 AI 玄學有各種特色，模型容量2倍大，辨識成果的正確率也不一定2倍好就是了。一般使用者能做的就是把東西丟到一個黑盒子裡面，運氣好的話可以引導 AI 得到想要的成果。
各模型參數和支援語系資訊可參考 Model Card: Whisper。

有了 AI 模型，還需要有一個程式能運作 AI 模型，把影片、音訊把檔案丟給 AI 模型，然後把運算結果顯示成像字幕的東西。

有了基礎觀念，以下來介紹一些使用 Whisper 模型來辨識語音或是自動產生字幕的工具，或是自己再去找使用這種概念衍生的新軟體。

WhisperDesktop

這是 Windows 系統上才能用的，有操作介面，使用上也非常簡單的 WhisperDesktop
下載 WhisperDesktop.zip，解壓縮之後有個 WhisperDesktop.exe。

whisper-desktop 操作介面

使用時第一步就是載入第一步下載的 bin 模型檔案，第二步就是選影片檔和輸出路徑，按下 Transcribe…就完成了。

缺點:

寫文章的時候，WhisperDesktop 已經一年沒更新了(最後更新:2023/7)，想要使用一些比較新的模型檔，會載入失敗。(還有人記得 pyTranscriber 嗎? 寫這篇的時候，pyTranscriber 最後一次更新已經是 2022 年底，快兩年了…)
這個是 Windows 的，macOS 的要另外找。
對一般人來說，操作步驟比較多，比較像是工程師在用的，不過 WhisperDesktop 已經非常親民了，還有其他像是 faster-whisper 才更像工程師在用的，能控制的地方也更多。
電腦需要一定等級的設備，不是那種看 YouTube 都會卡的文書機。不過對於平常就用來剪接、打電動、搞 AI 的人來說，可能沒什麼特別的。
影片過長，或是不明原因卡住，容易轉譯失敗，字幕檔會出現一句話一直重複的現象，最好把影片切短，或重新辨識。
結尾或中間有時候會跑出「字幕製作/時間軸:秋月/AutumnMoon/貝爾」之類的文字，純屬正常現象，要自己刪掉。

最大的缺點大概就是用 AI 產生逐字稿或字幕後，還是要進影片後製軟體自行處理。畢竟這個不是影片後製軟體，不會自動產生上好字幕的影片。

如果是要幫影片上字幕的，而且是一個人一條龍作業的，建議直接使用本文其他內建自動語音辨識字幕的影片後製軟體，校對辨識的字幕時，可以直接對到影片畫面+聲音，用起來比較順手，以免多花時間處理。

Subtitle Edit

官網: Subtitle Edit
Github Release: SubtitleEdit/subtitleedit

這是 Windows 系統上才能用的，看名稱可能會以為這個是字幕編輯工具，官網視覺設計看起來就很工程介面，第一印象就感覺很難用，但其實用起來非常簡單。

下載執行之後，在主選單的 video 項目中有我們要用的:

video>open video file，可以打開電腦本地的 mp3 音訊或 mp4 影片。
video>audio to text，把剛剛打開的影片/音訊中的人聲，轉錄成字幕。

語音轉字幕的過程需要安裝一些必要的元件，不要害怕，subtitleedit 都會直接提示下載安裝，像是 FFMpeg、Faster Whisper 之類的，都是直接滑鼠點一點就好了。

subtitleedit 軟體裡面也有一個 Whisper 模型清單，可以直接點選下載，中途完全不用自己開 cmd 視窗，複製貼上什麼 pip 指令跟自己 debug。

Subtitleedit

轉檔完成後會自動產生 srt 檔案在影片資料夾中。
使用 Whisper large-v3 之後辨識成功率有顯著的成長，以前 v2 會聽錯的中文字詞，v3 都能聽出來。

faster-whisper-GUI

下載: faster_whisper GUI with PySide6

同樣支援 whisper 的 large-v3，有批次轉檔功能，把一些細部選項都做成 UI 介面讓人點，還有簡單的時間軸編輯功能。

不過因為是對岸的開發者寫的，所以軟體的中文介面是簡體中文，不喜歡的可以不要用。

MacWhisper

可以從MacWhisper的 gumroad 免費下載試用。

這是 macOS 系統上才能用的，使用上非常簡單，有人性化的 UI 介面，打開程式，用滑鼠選擇模型，下載到本地電腦後，然後就可以選擇影片或聲音檔，轉出文字。

MacWhisper 免費版只支援 Tiny, Base and Small 等級的模型，Medium 跟 Large 的要付費升級到 Pro 版本才能使用。
小參數模型的好處是親測 8G RAM 的最低配備筆電也跑得動，缺點是辨識中文的效果可能沒這麼好。

想要載入更大的模型，或是使用一些雲端的 AI 模型，最低要花 $39 歐元(台幣大概1400塊)升級到 MacWhisper Pro(1 License (Personal Use))。

whisper.cpp

同樣是在電腦本機運算，whisper.cpp 除了可以使用 OpenAI Whisper 那些 ASR 模型，還支援 Apple Silicon 內建的 Core ML 機器學習框架，而且也是免費的，沒有什麼免費版只能限制使用某些模型的設計。

缺點是從載入模型、各種設定，通通都得在終端機中輸入指令來操作，想要駕馭它，最好是具有研究精神的人，安裝與設定方式可參考whisper.cpp。

在瀏覽器上面跑小型 LLM

另外一些在本地端執行，可以處理影片轉字幕類似用途的工具，可以參考:

Whisper Web – ML-powered speech recognition directly in your browser
上傳影片或音檔後，記得要再選齒輪圖案:

Select the model to use 選擇表上最大的的模型，效果比較好
如果影片不是英文，要勾 Multilingual
Select the source language 選擇 Chinese 或其他影片的語言
Select the task to perform. 選擇 Transcribe (語音轉換為文字)

在 Groq AI 平台上免費使用 Whisper 模型

上面介紹了幾種要在自己電腦本機跑 AI 大模型的，這個則是線上的 AI 平台。

Groq 是一個成立於 2016 年的 AI 技術新創公司，主要的服務像是提供各種企業端的 AI 應用基礎設施，像是 API、運算設備集群等等，而不是直接開發給消費者/末端使用者使用的產品。

Elon Musk 的其中一間公司 xAI，旗下有一個 AI 產品叫 Grok，名字可能很像，也都是搞 AI 的，但 Groq 跟 Grok 是不相干的，不要搞混，一個會拿推特上的貼文資料去訓練，一個不會。

Groq 提供了一個 Groq Cloud Playground，上面有一些開源大模型用來讓人體驗他們的基礎設施，裡面也提供了 whisper 模型，whisper-large-v3-turbo 和 whisper-large-v3 都有，有語音辨識需求的話，剛好可以讓我們來蹭一下。

groq-cloud 使用 whisper 和 llama 做語音轉字幕

Whisper 模型名稱帶有 turbo 的，處理速度通常會比較快，但比較不精準，反正不滿意的話就兩種模型都試試看，目前暫時還是免費的，不會依照 API 呼叫次數或是語音分鐘數計費。

我們能利用 Groq Playground 的介面上提供的功能，把音訊檔案傳上去，或是讓瀏覽器使用麥克風即時錄音，AI 辨識後得到的是帶有文字和時間資訊的 JSON 資料，或是一大段沒有時間軸的純文字。

缺點也顯而易見，剛剛有說，這不是賣給一般消費者的，也不是專門的影片上字幕工具，只是一個賣鏟子的機構，向客戶展示他的鏟子有多棒，所以除了運作 AI 模型，基本上都不要奢望它會提供其他的工具。

每次轉錄的檔案大小是有限制的，只有給幾十MB，影片最好自己先轉成 mp3 純音訊，檔案還是太大必須要自己切分。

然後 Playground 的操作介面上只能選一種語言，如果影片中的聲音有多種語言，通常辨識出來會漏掉，多半需要重新指定語言再辨識。

如果我們想要得到 SRT 字幕檔，必須要再使用 Groq AI 平台上其他 LLM，將剛剛的 JSON 資料貼上，然後輸入「請將 json 內容翻為 srt 字幕檔」之類的 prompt，最後再把 LLM 回答的東西複製到記事本，存成 srt 檔案。

同樣這種跑在雲端環境+火力展示的，還可以去 Hugging Face Hub 上面找免費的來蹭一下，例如 Whisper JAX 是一個比較有名的語音轉錄範例。不過在它的 repo 有說高峰時可能需要排隊，可以參考 Creating an Endpoint 的說明，自己在其他地方運作 AI 模型。

在 Google Colab 平台上使用 Whisper 模型

Google Colab (Google Colaboratory) 讓使用者可以在瀏覽器上撰寫程式碼，然後在 Google 雲端的運算資源來執行。以本文主題，我們可以利用 Google Colab 跑開源的 Whisper 模型，如此一來，自己的電腦不需要安裝特別高級的 AI 運算設備，也不用設定程式環境設老半天。

聽起來很好，不過這不是一個包好專門讓人做字幕的影視工具，打開 Google Colab 網頁，只會看到一個空空的 Jupyter 筆記本環境，需要寫程式來載入模型、使用模型、處理影音檔案。

當然大家可以在網路上找到 N 種別人寫好的 Google Colab + Whisper large v3 筆記本檔案，或是請 ChatGPT 寫，最簡單的版本都大同小異，通常是寫死一個 mp3 音訊檔案路徑，然後把辨識結果輸出成文字，要自己尋找與嘗試，總有機會找到一個可以用的。

畢竟是在雲端處理檔案，接著要把自己的影音檔上傳到 Google 雲端硬碟，讓 Colab 可以使用檔案，一般網路的上傳頻寬都不大，或是雲端硬碟空間不夠，都會讓人充滿挫折、失去耐心。

Google Colab 有免費版本，但 GPU 不可能讓人無限使用，有各種資源限制、運算時間限制，影音內容稍微長一點都可能導致運算中斷，需要付費比較保險。目前最低的 Colab Pro 每月 US$10.49，每月可使用 100 個運算單元；Colab Pro+ 每月 US$52.49，每月可使用 500 個運算單元，也有用多少付多少的計價方案，不同的 GPU 等級，依照運算時長，會有不同的運算單元額度消耗。

當然這還是 Whisper 模型，別人有的問題 Google Colab 也可能有，辨識效果不好還是要自己修。

Pinokio + Whisper-WebUI

Pinokio是一個標榜讓人一鍵安裝的工具，有 Windows/Mac/Linux 三種系統的版本，裡面有個工具市集，有各種整合好的影像、聲音、繪圖的 AI 工具，開源的 Whisper 模型當然也被整合進去了，都可以一鍵安裝。

必須要先從上面的連結下載 Pinokio，把 Pinokio 主程式裝好，接著再點 Whisper-WebUI頁面上的 One-Click Install with Pinokio，經過漫長的安裝程序，就能看到 Whisper-WebUI 的操作畫面:

因為是在本機進行處理，減少了一些檔案上傳的等待時間。Pinokio 上面還有很多腳本可以裝，可以裝起來玩玩。

十一、其他中港澳公司開發的

既然剪映都在用了，那其他對岸的工具也不排斥吧?
雖然我平常也不用剪映，本來還想要講小米監視器、華為手機之類的壞話，但是找到這篇文章的人，應該都不是為了看那些廢話的。
看到一些剪輯慘業的案件金額和薪資、再看到剪映各種方便體貼的小功能，這軟體這麼紅，實在是有道理的。

我的想法跟之前提過的一樣 GitHub Copilot AI 替代品，12 款不可錯過的程式開發秘密武器，例如基層人員可能老是聽上面各種大道理，這種慘業還是違反勞動法令事業單位的重災區之一，那麼基層執行人員會好心地把安全、隱私、資安、道德列入首要考慮因素，累死自己，還落得工作效率低落的名聲，還是挑一些便宜、甚至免費，但背後運作方式來路不明的東西，趕快交差就好?

軟體網路無國界? 最麻煩的是對岸的服務有中國網路實名制規定，甚至後來還推出網證(居民身份网络可信凭证，簡稱網證或 CTID)，大部分線上服務要註冊會員、實名驗證。

然後會員驗證的手機號碼格式、證件號碼格式，都只能接受中國大陸本地的，如果該服務沒有另外一套海外版，外國人通常在註冊會員這關就卡住了。
就算好不容易註冊成功，想要付款的時候，可能又會被卡住，把信用卡綁上微信，不知道為啥就是驗證失敗，不然就是一些中國本土使用，外國人聽都沒聽過的付款方式，讓代付代儲業者發大財。

除了註冊與驗證之外，容易還有其他問題，像是:

輸出的字幕只有簡體中文，不能選繁體中文
還有政治敏感問題，影片中提到某些敏感關鍵字，字幕會辨識不出來...
有些是專門設計在手機上使用，語音辨識準確度很強，但其他功能比較陽春，尷尬的是字幕還不能獨立匯出成單一檔案...

中港澳公司出的請看另一篇剪映的自動識別字幕要付費，其他中港澳公司出的中文語音轉文字替代方案，裡面介紹了一些方便好用的線上語音辨識和字幕編輯工具，還有能在手機上快速剪片上字幕的 app。

結語

聲音自動轉文字、自動上字幕是一種用過就回不去的功能，不只是這個，很多程式自動化都是這樣，雖然功能不可能做到完美，但是習慣之後，就不會想再回到完全由人工處理的模式。
不過講是這樣講，我們實務上在開發與導入這類東西，經常遇到各種阻礙，不只是預算問題、還有立場問題、人的問題，只適合給有緣人使用。

如果一開始學線性剪輯、基本後製之類的影視工具，是用 Adobe 的軟體，後來用剪映，某些用途下一定覺得剪映便宜又好用。

但這個過程反過來就不一樣了，一開始用剪映免費版，然後等剪映稍微收一點費用肯定會受不了，跳到其他專業軟體，一定覺得超貴又難用，大大的不習慣。有人可能會騙自己繼續用那些複雜的專業軟體「這個調色比較專業」「哪個知名的團隊或大師也都用這套」，至於換軟體之後有沒有把工作/作品做得更好，複雜的專業軟體用了幾年之後有沒有獲得更好的工作機會，只有自己知道了。

如果是為了找免費的影片/語音檔轉字幕工具，那可能不好找。這種 AI 產品通常都是要付費的，這種產品的運作成本很高，光是在公有雲上弄一個可以同時讓至少千人上傳語音檔的線上平台，建立、維護&營運成本已經嚇死一堆人，更別說再加上什麼語音辨識功能。以前還可以免費給使用者用，除了拿投資人的錢之外，真是難以想像背後是怎麼支撐的。剪映後來開始養套殺收費也不意外。

海外地區的像 Good Tape、cSubtitle(香港公司)、Descript 這些，通常只有少少的免費試用額度，付費的話通常每 60 分鐘要台幣幾十~幾百塊不等，或是要付訂閱費。

Tags: #ai #api #video

分類: 文書小幫手軟體產品體驗

留言:

剪映的自動識別字幕要付費，其他幾種中文語音轉文字替代方案

一、CapCut (剪映國際版) 目前還能免費轉字幕

CapCut 線上版

CapCut 電腦版

二、使用 5.5 以下舊版本的剪映，不要升級到 6 以上

下載安裝舊版本

移除新版本

三、使用 DaVinci Resolve Studio 19 的 AI 语音轉文本功能

四、使用訊連威力導演 365 的「AI 語音轉文字」

五、使用 Adobe Premiere Pro 的 Speech to Text

六、使用 Canva 的無障礙字幕或品牌字幕功能

七、台灣的語音轉文字服務

八、Microsoft Clipchamp

九、蘋果 macOS 的聽寫功能

十、使用 OpenAI 的 ASR 開源模型 Whisper 和其衍生產品

WhisperDesktop

Subtitle Edit

faster-whisper-GUI

MacWhisper

whisper.cpp

在瀏覽器上面跑小型 LLM

在 Groq AI 平台上免費使用 Whisper 模型

在 Google Colab 平台上使用 Whisper 模型

Pinokio + Whisper-WebUI

十一、其他中港澳公司開發的

結語

相關推薦文章

剪映的自動識別字幕要付費，其他中港澳公司出的中文語音轉文字替代方案

中小企業行銷利器！Edimakor AI 影片編輯器，提升品牌形象

近期熱門 Hot Posts

中華郵政專用信箱使用心得分享

近期常見的11種平面設計中文字型

看完搞不好會放棄 TrueNAS 自組 NAS 的 10 個經驗(含WOL喚醒與AWS雲端備份)

8種英文和中文的 Wordle 猜字遊戲 打發時間真好用

8 個 Affinity Designer 無法完全取代 Adobe illustrator 的問題

增強商品吸引力！試用多款AI繪圖工具生成電商商品情境圖

你從什麼時候開始產生了這個 QR Code 產生器是免費的錯覺？

從 API 串接角度評估電子發票存摺 APP 可以怎樣出賣使用者個資

GitHub Copilot AI 替代品，12 款不可錯過的程式開發秘密武器

Apple Vision Pro 內的 Safari 前端與 UI 設計雷區大公開

最新發布 New Posts

更新了 iOS 26 Safari 之後，打開網頁直呼 WTF

Figma Sites 從設計到網站上線一條龍，不需要寫程式碼?

PDF文件忘記密碼？懶人解決方法與工具推薦

AI 親吻的溫柔魔法：靜態照片變溫暖影片

Apple Invites APP 的 Progressive Blur 漸進式模糊效果

簡訊打詐政策可以促進資訊產業經濟發展

Google Maps API 的每個月 $200 美元免費折抵額度沒了

使用 n8n 輕鬆獲得 SEO 關鍵字清單很好，但新手不要學一半

竟然有人在 Google Ads 下廣告，投放假的 Google Ads 釣魚網站

中小企業行銷利器！Edimakor AI 影片編輯器，提升品牌形象

8種英文和中文的 Wordle 猜字遊戲打發時間真好用