剪映的自動識別字幕要付費,其他幾種中文語音轉文字替代方案
然而,這功能現在變成要付費專業版才能使用了…
五星評論家麥克阿瑟表示:用過這種功能,誰還要人工聽打逐字稿? 手工打字或打開錢包選一個吧。
本文來找一些其他可以幫影片辨識語音人聲,自動轉字幕的工具。
影片人聲語音轉文字,聽起來就短短幾個字,實務上這種需求可能很細,例如:
- 做摘要用的,只需要純文字,沒有 timecode 也沒關係。
- 作影片字幕用的,需要有文字和 timecode。
- 字幕要能自動插入到剪接軟體的時間軸,不要先轉 mp3,開另一個軟體操作,處理完再自己手動匯入、一句一句手工插入...等一大堆步驟。
- 字幕要能另外匯出,存成 srt 或特定格式,YouTube 的 CC 字幕或其他地方要用。
- 演講或直播用途,需要電腦接麥克風或某種音訊輸入源,然後即時產生字幕。
- 要做卡拉 OK 字幕效果,需要更精準的單字時間標記。
- 人聲是台語或其他比較冷門的語言,或是多種語言夾雜各種專有名詞,想找到一套好用的就不容易,像 Zoom、Google Meet、Teams 的自動字幕功能吹了這麼久,實際使用的成果還是很難令人滿意。
- 需要的不只是字幕,而是生動活潑的字卡特效。
本文的產品也不一定通通都能做到,只是大概點出一些使用經驗或產品特色,至於符不符合需求,自己能不能順利安裝? 建議自己使用看看囉。
一、CapCut (剪映國際版) 目前還能免費轉字幕
剪映跟 CapCut 的關係,大概就跟抖音 vs. TikTok 一樣,一個是中國版本,付款方式或一些帳號認證方式都是中國人專屬的,而另一個是國際版。
CapCut 又有分兩個版本,目前都還可以免費產生字幕:
CapCut 線上版
點上面那個網站連結,進去之後右上角有一個「試用 CapCut 線上版」,裡面有一個類似 Canva 的東西,可以做圖片,也可以處理影片。
把影片丟上時間軸,然後左邊有一個「字幕」,選擇自動字幕,和影片的語言,再按產生,影片就有字幕了。
然後選擇匯出影片,還可以把字幕另外下載成 SRT 或 TXT,非常方便。
CapCut 線上版的缺點,要等影片上傳完才能開始辨識,片長很長的話,要等老半天。
CapCut 電腦版
點上面那個網站連結,首頁另外有個下載連結,可以下載電腦版的 CapCut,就不需要等待什麼上傳步驟。
操作方式跟本來的剪映差不多,字幕辨識完會自動加到剪接時間軸。
缺點也不是沒有,等到要匯出字幕檔時…本來這邊應該有一個匯出字幕的選項,竟然消失了!
有些人可能是要用字幕檔轉成繁體、或是把字幕檔當成 YouTube 的 CC 字幕,
有時候可能是要處理語音訪談逐字稿,單純靠剪映把語音轉文字弄出 TXT 檔,
既然無法另存字幕檔,就比較尷尬…
二、使用 5.5 以下舊版本的剪映,不要升級到 6 以上
5.5 版本就開始一些功能升級到變成 VIP 方案才能用,到 5.9 都還有免費的字幕識別(語音轉文字)功能,自動字幕識別變 VIP/SVIP 是剪映 6.0 版本才加上的,聽說一些還沒升級到 6.x 版本的朋友還能繼續用。
以下提供兩種方式,一種是去找 5.x 的舊版本剪映來用,另一種是如果不小心升級了,把自己電腦裡的新版本刪掉,退回到舊版本。
下載安裝舊版本
所以如果有在用這個功能的,要嘛不要升級,或是找別人要安裝檔…
目前應該在網路上都還找到,像軟體王還有 5.7 版本的下載點 剪映專業版 5.7.0.11480 for Windows : 軟體王 2024 – 軟體資訊 (下載按鈕在頁面中間綠色的,要自己找一下)。
我也提供一個 5.2 版本的免安裝版 Mega 載點
https://mega.nz/file/pL5hBLaL#lHIfs1C_uc5t-Epnt0dndrA15e4lm8bQ5koDmXz-GPA
檔案大概有 1.3GB,我是從之前安裝過的 Windows VM 系統中複製出來的,預設安裝目錄在 C:\Users\使用者名稱\AppData\Local\JianyingPro\Apps
,也可以找朋友拷貝。
解壓後點擊 JianyingPro.exe,等環境檢測完,應該就會正常啟動。
啟動時可能會跳版本更新提示,記得不要更新。
自動識別字幕功能,在文本>智能字幕>識別字幕。
移除新版本
另外還有一招,利用剪映的程式設計機制,如果有一台電腦用剪映用了很久,那每次更新時,舊版本都還會留在電腦裡。
到剛剛那個安裝目錄 C:\Users\使用者名稱\AppData\Local\JianyingPro\Apps
,或是在捷徑選擇「開啟檔案位置」,應該會看到一堆用版本號 5.x 命名的資料夾。
先把剪映程式關掉,然後把 6.x 的資料夾都砍掉,重新打開剪映,應該會發現剪映變回舊版本了。
不過這招有個問題,用這招降版本後,打開新版本剪映編輯的專案,會提示「軟件版本需要升級 : 檢測到草稿版本較新,是否升級至最新版本打開草稿?」
這時候只能選擇升級剪映版本,或是取消。如果不升級,就不能打開那個新版本的剪映弄的草稿專案。
不過對這招舊版本大法不要太期待,
因為剪映的自動識別字幕,是在剪映官方的雲端伺服器處理的,而不是在使用者的自己電腦本機。
所以哪一天剪映官方在雲端稍微調整一下系統,直接把來自較低版本號的字幕識別的使用者請求封鎖,這招就不攻自破,大家就沒得用了,現在只是先偷著樂。
三、使用 DaVinci Resolve Studio 19 的 AI 语音轉文本功能
DaVinci Resolve 也是一個經典的影視慘業專業工具,它在 19 版本新增了一個語音自動轉字幕功能。
AI语音到文本转录
转录功能能够自动转录视频和音频片段!只需在媒体池内选择片段,然后使用菜单选择音频转录功能即可开始转录。您可以标记入点和出点编辑或删除文本,生成子片段,添加标记,甚至移除无声部分。
這功能對於中文影片有沒有效呢?
DaVinci Resolve 有提供免費版本,可以試試看。
下載時可能會跳出一個註冊表單,選擇國家的時候,T 開頭跟 R 開頭可能都找不到台灣,要找 C 開頭的 Chinese Taipei…
安裝後,一旦點選上方選單中的 Timeline,然後選擇「從音頻創建字幕」,接著會看到…
這功能要購買才能用啦。
想購買的可以從官網找到 Chinese Taipei 的經銷商Find a Reseller。
如果不想買的,可以先看一下官方的操作範例:
從上述的影片可以看出有點麻煩,
DaVinci Resolve 會先把語音辨識出來的所有文本內容顯示在一個小視窗內,
然後使用者要一段一段從小視窗內選取文字、
再選取要放字幕的時間點,
最後按一個按鈕,把剛剛選取的那一句話加到字幕時間軸中。
跟剪映比起來,所費的工看起來還是多了些…
MacOS 上另一個知名的影片工具 Final Cut Pro 也終於在版本 11 出了自動上字幕(Transcribe to Captions)功能,必須要使用 macOS Sequoia 或版本更新的作業系統。不過因為我沒買,就留給有興趣的人自己研究。
Final Cut Pro User Guide for Mac - Use Transcribe to Captions to create captions automatically
四、使用訊連威力導演 365 的「AI 語音轉文字」
是的,就是大家小時候可能都聽過的威力導演。
長大後如果在相關慘業,可能會發現導演應該是負責創意方向、指導演員、協調各部門等,為什麼後製人員在用的東西要取名「導演」? 反正我們這些底層勞動人員不要想這麼多,阿影片是弄完了沒?
總之目前威力導演還是不斷在更新,新版本的威力導演也加上了不繳錢就不能用的訂閱制……啊,是加上了「AI 語音轉文字」的功能,還有一些短影片的人物描邊之類的罐頭特效。
AI 語音轉文字功能基本上是要付費訂閱才能用的,免費版可以試用一次:
隨便去網路上抓一支 YT Shorts 來測試,轉檔之後的測試範例大概長得像這樣:
✅字幕會產生時間標記:有
✅自動加字在影片上:有
中文的辨識正確率可能還是有待加強… 像範例測試影片「18月3年」正確應為「113年」(口語:一百一十三年);「有點膽固」正確應為「有點唐突」,其他就不提了,反正還是要自行校對。
看資料上寫,威力導演的 AI 是用使用者電腦本機運算的,語言還有作業系統的差異:
Windows 版本: 英文、繁體中文、日文
Mac 版本: 英文、中文、日文、西班牙文、德文、法文、義大利文、韓文、荷蘭文
實際使用似乎沒有想像中那麼吃效能,使用 AI 功能時,電腦的顯卡風扇沒有狂轉,CPU 或 GPU 使用率沒有特別飆高。
更多使用說明可以參考 如何使用訊連科技威力導演 365 的「AI 語音轉文字」功能?
目前威力導演系列主要分成幾種版本:
– 威力導演旗艦版,買斷的,一次性付費版本,不是訂閱制,沒有 AI 功能。
– 威力導演365,訂閱制,有 AI 功能,費用也沒有想像中的貴,平均一個月 100 多塊台幣。
– 創意導演365,訂閱制,有 AI 功能,包含4套軟體,涵蓋影片剪輯、照片編輯、影片調色、音樂剪輯。
五、使用 Adobe Premiere Pro 的 Speech to Text
Adobe Premiere Pro 裡面也有自動字幕的功能 Speech-to-text。
這個語音轉文字功能是有支援中文的,Adobe 支援以下語言:英文、英文 (英國)、簡體中文 (國語)、繁體中文 (國語)、繁體粵語、西班牙文、德文、法文、日文、葡萄牙文、韓文、義大利文、俄文、印度文、荷蘭文、挪威文、瑞典文和丹麥文。
缺點在於 Premiere 本身就不是免費的,需要訂閱 Adobe Creative Cloud 全家餐。或是單獨訂閱 Adobe Premiere Pro。
AI 運算要消耗 Adobe 伺服器的雲端資源嗎? 要另外買什麼 AI 點數嗎? 不需要,Speech to Text in Premiere Pro | FAQ 有說,2023/2 之後他們就關閉 cloud-based transcription 的功能了。
從 Premiere Pro 版本 22.2 開始,這個 Speech to Text 是在使用者電腦本機做運算,只要下載語言檔之後,不用連上網路也能影片轉字幕。
操作方式如上官方影片,
在匯入素材時就有一個 “automatic transcription” 的小開關,
也可以在工具面板中方便的產生 transcript ,還有根據 transcript 直接在剪接時間軸中一鍵插入字幕。
六、使用 Canva 的無障礙字幕或品牌字幕功能
Canva 不只能做圖、做簡報,還能做影片。
其中有一些無障礙友善的功能,其中一個是啟用影片和音訊輔助字幕,這跟其他剪接軟體的字幕功能不一樣,比較像是讓聽障人士知道影片語音在說什麼用的。但如果情況非不得已,還是勉強能用一下。
如何操作呢?
– 在 Canva 建立影片專案
– 將影片放在剪接時間軸
– 點選左上角的檔案>設定>在媒體上顯示說明文字
這時候再播放時間軸上的影片,會發現影片中跑出了黑底半透明方塊,上面有白色文字的字幕。
但因為這個是無障礙友善功能:
– 看到字幕有錯字,不能修改
– 這個「字幕」的樣式跟位置也不能自己設定,根本選不到
– 這個「字幕」只有在編輯模式下看得到
– 影片剪完要匯出,如果選擇下載影片,這個無障礙字幕不會跟著匯出。頂多只能靠錄螢幕,把編輯模式那個區域的畫面錄下來。
也許未來哪一天 Canva 會推出正經的影片自動上字幕的功能? 在那天還沒到來前,只能手動上字幕,或是用其他軟體。
2024/10/22 更新: 正經的影片自動上字幕功能來了,Canva 在 2024 年的產品發布會 Droptober當中介紹了一個「品牌字幕(branded captions)」的功能,看起來就是那種大家想要的,把影片自動轉成字幕的功能。
雖然 Canva 這個影片上字幕的功能沒有馬上開通,還在 Coming Soon。
可以先看官方的操作影片...
點了某個神奇小按鈕之後,字幕就自動加好了,而且可以自由編輯字幕的樣式。
但這樣看起來語音辨識字幕是包在「品牌工具組」裡面,而品牌工具組是付費的 Canva Pro 的功能,可能不是大家想要的免費語音轉字幕...
七、台灣的語音轉文字服務
這些不是影片後製編輯工具,而是專門做語音辨識服務的。
語音轉字幕是這類產品的其中一個功能,使用者可以把語音檔轉成帶時間標記的文字檔。
如果需要剪影片,可以導出字幕檔格式,再匯入到影片後製軟體裡面就好了。
這類產品普遍還有用語音檔產生會議紀錄逐字稿、整理重點摘要之類的功能。
如果想要反過來用,例如文字稿寫出來之後想要變成 podcast 或有聲書,部分廠商也有提供 TTS(文字轉語音)相關服務。
雅婷逐字稿
雅婷逐字稿是一款專為台灣口音優化的AI語音轉文字服務,標榜「無需有資料被傳出台灣的隱私和資安疑慮」,並保證不會將使用者的資料與紀錄出售給第三方廣告或組織。
AiMochi
由大數軟體有限公司開發,會員帳號使用 LINE 登入,特別的是還有做 LINE 版本的操作介面,只要把檔案丟到 AiMochi 的 LINE 官方帳號,就可以進行各種語音轉文字的處理。
MyEdit
由訊連開發,每天登入可以領 3 點數。
AI 語音轉文字工具只是其中一個功能,其他還有聲音檔編輯工具、AI 修復等服務。
Taption
Taption 是台灣新創,在一些新聞稿寫說由全台籍美籍開發團隊精心打造,其安全性與隱私保護措施受到政府機構、電信企業、大學及媒體業等多個領域的信任與青睞,成為宗教團體等敏感領域的首選。
如果是台灣的公司行號,要買這種語音轉字幕服務,還要有發票,這幾間可以考慮看看。
八、Microsoft Clipchamp
這是一個在 Windows 上的影片編輯器,在 2021 年被微軟收購,在 Windows Store 就可以免費下載並安裝,影片不會有軟體名稱浮水印什麼的,如果電腦只是偶爾要剪剪行車紀錄器影片,不需要太專業,也可以安裝這個。
Microsoft Clipchamp 也有付費版本,付費版有更多素材,還可以把影片輸出成 4K。
在免費版本就包含語音轉字幕的功能,叫做 CC 輔助字幕,把影片素材拉進剪輯時間軸之後,就可以在右手邊看到按鈕,點擊後會詢問影片是什麼語言的,然後在雲端進行辨識,背後是用 Azure AI 的技術。
它的 AI 語音辨識語系裡面有好幾種中文可以選,一般台灣人對話要選台灣的國語(簡稱台灣國語)...
辨識完之後就會自動幫影片加好字幕,我們可以編輯字幕樣式,有辨識錯誤可以自己改,也可以單獨存出 srt 字幕,基本的功能都有,沒有任何問題。
最大的問題是...因為一次只能選一種語言,如果對話是國台語夾雜,國語和英文夾雜,多種語言混合,辨識出來的結果會超級慘。
九、蘋果 macOS 的聽寫功能
有人可能會想到,macOS 或 iPhone 都有語音輸入法,有時候用嘴巴講一講,就能讓手機和電腦打好字,精準度還不錯,這是不是也能拿來產逐字稿,幫影片/語音檔轉出文字?
只能說…不太好用。
以 Macbook Air M1 筆電為例,系統裡的聽寫(Dictation)預設是關閉的,要先依照官方說明 在 Mac 上聽寫訊息和文件把設定打開。
- 雙視窗聽寫:失敗
一個視窗播影片,另一個視窗開文字編輯器(或直接開影片剪接軟體的輸入字幕文字模式),然後按下鍵盤 F5 的麥克風按鈕,這時候會發現…播放的影片會變成靜音,這時候自己講話是能成功聽寫,但根本無法直接聽寫影片的語音。聽寫功能的訊源也只能指定麥克風,不能直接指定某個影片播放 app 或瀏覽器視窗當聲音訊源。 - 手機播影片給電腦聽:失敗機率很高
首先要上網查筆電的麥克風位置在哪,接著電腦打開文字編輯器(或直接開影片剪接軟體的輸入字幕文字模式),然後按下鍵盤 F5 的麥克風按鈕,然後用手機對著電腦麥克風播影片,讓電腦聽寫。
缺點是影片語速比較快的,就幾乎辨識不出來,而且沒有時間軸資訊。影片有多長,就要花 1:1 的時間播一遍,而且手機播放音量不能太小聲。限制非常多。 - 使用虛擬麥克風:麻煩
流程大致是這樣:- 安裝第三方廠商的虛擬麥克風軟體
- 把指定的音檔放在虛擬麥克風軟體內
- 調整系統設定,讓聽寫去聽虛擬麥克風裡的音源,產生文字。
虛擬麥克風軟體很多,例如BlackHole 或是 Loopback,網路上都有教學,但拿來聽寫可能是殺雞用牛刀。軟體通常要付費購買,而且設定時通常需要變更一些系統設定。
如果不是經常需要製作逐字稿或上影片字幕,只是需處理一小段影片。可能會發現,光是設定和熟悉這些軟體的時間,就足以讓人手動完成整個逐字稿或字幕製作過程了。
MacOS 上另一個知名的影片工具 Final Cut Pro 也終於在 2024 年發布的版本 11 出了自動上字幕(Transcribe to Captions)功能,必須要使用 macOS Sequoia 或版本更新的作業系統。不過因為我沒買,就留給有興趣的人自己研究。
Final Cut Pro User Guide for Mac - Use Transcribe to Captions to create captions automatically
十、使用 OpenAI 的 ASR 開源模型 Whisper
想要實作語音辨識轉文字功能,其中一種的底層運作邏輯是自動語音辨識(Automatic Speech Recognition, ASR),不少研究室都有這類的 AI 神經網路模型和論文,這次我們會用到的是Whisper 是 OpenAI 開源出來的 ASR,最早釋出是在 2022/9,不只是能辨識歐美語系,竟然還有支援國語(中文普通話)、粵語。
圖表來源: https://github.com/openai/whisper
可能會隨 Whisper 模型更新而有新的圖表。圖表僅供參考,如果測出來錯誤率 WERs (word error rates) or CER (character error rates) 超過表上的標示,請自己乖乖吞下去,沒有人會出來負責的,不要財大氣粗地叫員工跟 OpenAI 要報價。
有了免費的開源模型,那就有幾種應用方向,讓一般人也能輕鬆使用 AI 模型完成自己的需求,常見的有三種:
- 在電腦上分別下載 Whisper 的語言模型檔,與處理影片/音檔的 GUI 工具。
- 有些語音辨識軟體提供比較簡單的操作方式,幫人自動下載開源模型。
- 有些 AI 平台會把開源模型放在平台上給人用,使用者電腦本機不用安裝一堆東西。
以第一種為例,AI 模型可以到這邊下載 https://huggingface.co/ggerganov/whisper.cpp/tree/main
不用全部下載,要視自己的電腦配備等級量力而為,
有些模型是 English Only 的,中文效果很差,
有些比較小的 small 或 medium 也可以辨識中文,但效果很差。
這邊用 ggml-large-v2.bin 來做測試。
不過反正 AI 玄學有各種特色,模型容量2倍大,辨識成果的正確率也不一定2倍好就是了。一般使用者能做的就是把東西丟到一個黑盒子裡面,運氣好的話可以引導 AI 得到想要的成果。
各模型參數和支援語系資訊可參考 Model Card: Whisper。
有了 AI 模型,還需要有一個程式能運作 AI 模型,把影片、音訊把檔案丟給 AI 模型,然後把運算結果顯示成像字幕的東西。
有了基礎觀念,以下來介紹一些使用 Whisper 模型來辨識語音或是自動產生字幕的工具,或是自己再去找使用這種概念衍生的新軟體。
WhisperDesktop
這是 Windows 系統上才能用的,有操作介面,使用上也非常簡單的 WhisperDesktop
下載 WhisperDesktop.zip,解壓縮之後有個 WhisperDesktop.exe。
使用時第一步就是載入第一步下載的 bin 模型檔案,第二步就是選影片檔和輸出路徑,按下 Transcribe…就完成了。
缺點:
- 寫文章的時候,WhisperDesktop 已經一年沒更新了(最後更新:2023/7),想要使用一些比較新的模型檔,會載入失敗。(還有人記得 pyTranscriber 嗎? 寫這篇的時候,pyTranscriber 最後一次更新已經是 2022 年底,快兩年了…)
- 這個是 Windows 的,macOS 的要另外找。
- 對一般人來說,操作步驟比較多,比較像是工程師在用的,不過 WhisperDesktop 已經非常親民了,還有其他像是 faster-whisper 才更像工程師在用的,能控制的地方也更多。
- 電腦需要一定等級的設備,不是那種看 YouTube 都會卡的文書機。不過對於平常就用來剪接、打電動、搞 AI 的人來說,可能沒什麼特別的。
- 影片過長,或是不明原因卡住,容易轉譯失敗,字幕檔會出現一句話一直重複的現象,最好把影片切短,或重新辨識。
- 結尾或中間有時候會跑出「字幕製作/時間軸:秋月/AutumnMoon/貝爾」之類的文字,純屬正常現象,要自己刪掉。
最大的缺點大概就是用 AI 產生逐字稿或字幕後,還是要進影片後製軟體自行處理。畢竟這個不是影片後製軟體,不會自動產生上好字幕的影片。
如果是要幫影片上字幕的,而且是一個人一條龍作業的,建議直接使用本文其他內建自動語音辨識字幕的影片後製軟體,校對辨識的字幕時,可以直接對到影片畫面+聲音,用起來比較順手,以免多花時間處理。
Subtitle Edit
官網: Subtitle Edit
Github Release: SubtitleEdit/subtitleedit
這是 Windows 系統上才能用的,看名稱可能會以為這個是字幕編輯工具,官網視覺設計看起來就很工程介面,第一印象就感覺很難用,但其實用起來非常簡單。
下載執行之後,在主選單 video>audio to text 中可以找到辨識影片中的人聲轉成字幕的功能。
需要安裝一些必要的元件,像是 FFMpeg、Faster Whisper 之類的,都是滑鼠點一點就好了,subtitleedit 都會直接提示下載安裝。
subtitleedit 軟體裡面也有一個 Whisper 模型清單,可以直接點選下載,中途完全不用自己開 cmd 視窗,複製貼上什麼 pip 指令跟自己 debug。
轉檔完成後會自動產生 srt 檔案在影片資料夾中。
使用 Whisper large-v3 之後辨識成功率有顯著的成長,以前 v2 會聽錯的中文字詞,v3 都能聽出來。
faster-whisper-GUI
下載: faster_whisper GUI with PySide6
同樣支援 whisper 的 large-v3,有批次轉檔功能,把一些細部選項都做成 UI 介面讓人點,還有簡單的時間軸編輯功能。
不過因為是對岸的開發者寫的,所以軟體的中文介面是簡體中文,不喜歡的可以不要用。
MacWhisper
可以從MacWhisper的 gumroad 免費下載試用。
這是 macOS 系統上才能用的,使用上非常簡單,有人性化的 UI 介面,打開程式,用滑鼠選擇模型,下載到本地電腦後,然後就可以選擇影片或聲音檔,轉出文字。
MacWhisper 免費版只支援 Tiny, Base and Small 等級的模型,Medium 跟 Large 的要付費升級到 Pro 版本才能使用。
小參數模型的好處是親測 8G RAM 的最低配備筆電也跑得動,缺點是辨識中文的效果可能沒這麼好。
想要載入更大的模型,或是使用一些雲端的 AI 模型,最低要花 $39 歐元(台幣大概1400塊)升級到 MacWhisper Pro(1 License (Personal Use))。
whisper.cpp
同樣是在電腦本機運算,whisper.cpp 除了可以使用 OpenAI Whisper 那些 ASR 模型 ,還支援 Apple Silicon 內建的 Core ML 機器學習框架,而且也是免費的,沒有什麼免費版只能限制使用某些模型的設計。
缺點是從載入模型、各種設定,通通都得在終端機中輸入指令來操作,想要駕馭它,最好是具有研究精神的人,安裝與設定方式可參考whisper.cpp。
在瀏覽器上面跑小型 LLM
另外一些在本地端執行,可以處理影片轉字幕類似用途的工具,可以參考:
Whisper Web – ML-powered speech recognition directly in your browser
上傳影片或音檔後,記得要再選齒輪圖案:
- Select the model to use 選擇表上最大的的模型,效果比較好
- 如果影片不是英文,要勾 Multilingual
- Select the source language 選擇 Chinese 或其他影片的語言
- Select the task to perform. 選擇 Transcribe (語音轉換為文字)
在 Groq AI 平台上免費使用 Whisper 模型
上面介紹了幾種要在自己電腦本機跑 AI 大模型的,這個則是線上的 AI 平台。
Groq 是一個成立於 2016 年的 AI 技術新創公司,主要的服務像是提供各種企業端的 AI 應用基礎設施,像是 API、運算設備集群等等,而不是直接開發給消費者/末端使用者使用的產品。
Elon Musk 的其中一間公司 xAI,旗下有一個 AI 產品叫 Grok,名字可能很像,也都是搞 AI 的,但 Groq 跟 Grok 是不相干的,不要搞混,一個會拿推特上的貼文資料去訓練,一個不會。
Groq 提供了一個 Groq Cloud Playground,上面有一些開源大模型用來讓人體驗他們的基礎設施,裡面也提供了 whisper 模型,whisper-large-v3-turbo 和 whisper-large-v3 都有,有語音辨識需求的話,剛好可以讓我們來蹭一下。
whisper 模型名稱帶有 turbo 的,處理速度通常會比較快,但比較不精準,反正不滿意的話就兩種模型都試試看,目前暫時還是免費的,不會依照 API 呼叫次數或是語音分鐘數計費。
剛剛有說,這主要不要賣給一般消費者的,Playground 的介面上可以讓人上傳檔案,也可以讓瀏覽器用麥克風即時錄音,辨識後得到的是帶有文字和時間資訊的 JSON 資料,或是一大段沒有時間軸的純文字。
必須要再使用平台上其他 LLM,將剛剛的 JSON 資料貼上,然後輸入「請將 json 內容翻為 srt 字幕檔」之類的 prompt,最後再把 LLM 回答的東西複製到記事本,存成 srt 檔案。
十一、其他中港澳公司開發的
既然剪映都在用了,那其他對岸的工具也不排斥吧?
雖然我平常也不用剪映,本來還想要講小米監視器、華為手機之類的壞話,但是找到這篇文章的人,應該都不是為了看那些廢話的。
看到一些剪輯慘業的案件金額和薪資、再看到剪映各種方便體貼的小功能,這軟體這麼紅,實在是有道理的。
我的想法跟之前提過的一樣 GitHub Copilot AI 替代品,12 款不可錯過的程式開發秘密武器,例如員工可能老是聽資方各種大道理,這種慘業還是違反勞動法令事業單位的重災區之一,那麼員工會好心地把安全、隱私、資安、道德列入首要考慮因素,累死自己,還落得工作效率低落的名聲,還是挑一些便宜、甚至免費,但背後運作方式來路不明的東西,趕快交差就好?
軟體網路無國界? 最麻煩的是對岸的服務有中國網路實名制規定,甚至後來還推出網證(居民身份网络可信凭证,簡稱網證或 CTID),大部分線上服務要註冊會員、實名驗證。
然後會員驗證的手機號碼格式、證件號碼格式,都只能接受中國大陸本地的,如果該服務沒有另外一套海外版,外國人通常在註冊會員這關就卡住了。
就算好不容易註冊成功,想要付款的時候,可能又會被卡住,把信用卡綁上微信,不知道為啥就是驗證失敗,不然就是一些中國本土使用,外國人聽都沒聽過的付款方式,讓代付代儲業者發大財。
除了註冊與驗證之外,容易還有其他問題,像是:
- 輸出的字幕只有簡體中文,不能選繁體中文
- 還有政治敏感問題,影片中提到某些敏感關鍵字,字幕會辨識不出來...
- 有些是專門設計在手機上使用,語音辨識準確度很強,但其他功能比較陽春,尷尬的是字幕還不能獨立匯出成單一檔案...
中港澳公司出的請看另一篇剪映的自動識別字幕要付費,其他中港澳公司出的中文語音轉文字替代方案,裡面介紹了一些方便好用的線上語音辨識和字幕編輯工具,還有能在手機上快速剪片上字幕的 app。
結語
聲音自動轉文字、自動上字幕是一種用過就回不去的功能,不只是這個,很多程式自動化都是這樣,雖然功能不可能做到完美,但是習慣之後,就不會想再回到完全由人工處理的模式。
不過講是這樣講,我們實務上在開發與導入這類東西,經常遇到各種阻礙,不只是預算問題、還有立場問題、人的問題,只適合給有緣人使用。
如果是為了找免費的影片/語音檔轉字幕工具,那可能不好找。這種 AI 產品通常都是要付費的,這種產品的運作成本很高,光是在公有雲上弄一個可以同時讓至少千人上傳語音檔的線上平台,建立、維護&營運成本已經嚇死一堆人,更別說再加上什麼語音辨識功能。以前還可以免費給使用者用,除了拿投資人的錢之外,真是難以想像背後是怎麼支撐的。剪映後來開始養套殺收費也不意外。
海外地區的像 Good Tape、cSubtitle(香港公司)、Descript 這些,通常只有少少的免費試用額度,付費的話通常每 60 分鐘要台幣幾十~幾百塊不等,或是要付訂閱費。