剪映的自動識別字幕要付費,其他幾種中文語音轉文字替代方案
然而,這功能現在變成要付費專業版才能使用了…
五星評論家麥克阿瑟表示:用過這種功能,誰還要人工聽打逐字稿? 手工打字或打開錢包選一個吧。
本文來找一些其他可以幫影片辨識語音人聲,自動轉字幕的工具。
影片人聲語音轉文字,聽起來就短短幾個字,實務上這種需求可能很細,例如:
- 做摘要用的,只需要純文字,沒有 timecode 也沒關係。
- 作影片字幕用的,需要有文字和 timecode。
- 字幕要能自動插入到剪接軟體的時間軸,不要先轉 mp3,開另一個軟體操作,處理完再自己手動匯入、一句一句手工插入...等一大堆步驟。
- 字幕要能另外匯出,存成 srt 或特定格式,YouTube 的 CC 字幕或其他地方要用。
- 演講或直播用途,需要電腦接麥克風或某種音訊輸入源,然後即時產生字幕。
- 要做卡拉 OK 字幕效果,需要更精準的單字時間標記。
- 人聲是台語或其他比較冷門的語言,或是多種語言夾雜各種專有名詞,想找到一套好用的就不容易,像 Zoom、Google Meet、Teams 的自動字幕功能吹了這麼久,實際使用的成果還是很難令人滿意。
- 需要的不只是字幕,而是生動活潑的字卡特效。
本文的產品也不一定通通都能做到,只是大概點出一些使用經驗或產品特色,至於符不符合需求,自己能不能順利安裝? 建議自己使用看看囉。
一、CapCut (剪映國際版) 目前還能免費轉字幕
剪映跟 CapCut 的關係,大概就跟抖音 vs. TikTok 一樣,一個是中國版本,付款方式或一些帳號認證方式都是中國人專屬的,而另一個是國際版。
CapCut 又有分兩個版本,目前都還可以免費產生字幕:
CapCut 線上版
點上面那個網站連結,進去之後右上角有一個「試用 CapCut 線上版」,裡面有一個類似 Canva 的東西,可以做圖片,也可以處理影片。
把影片丟上時間軸,然後左邊有一個「字幕」,選擇自動字幕,和影片的語言,再按產生,影片就有字幕了。
然後選擇匯出影片,還可以把字幕另外下載成 SRT 或 TXT,非常方便。
CapCut 線上版的缺點,要等影片上傳完才能開始辨識,片長很長的話,要等老半天。
CapCut 電腦版
點上面那個網站連結,首頁另外有個下載連結,可以下載電腦版的 CapCut,就不需要等待什麼上傳步驟。
操作方式跟本來的剪映差不多,字幕辨識完會自動加到剪接時間軸。
缺點也不是沒有,等到要匯出字幕檔時…本來這邊應該有一個匯出字幕的選項,竟然消失了!
有些人可能是要用字幕檔轉成繁體、或是把字幕檔當成 YouTube 的 CC 字幕,
有時候可能是要處理語音訪談逐字稿,單純靠剪映把語音轉文字弄出 TXT 檔,
既然無法另存字幕檔,就比較尷尬…
二、使用 5.5 以下舊版本的剪映,不要升級到 6 以上
5.5 版本就開始一些功能升級到變成 VIP 方案才能用,到 5.9 都還有免費的字幕識別(語音轉文字)功能,自動字幕識別變 VIP/SVIP 是剪映 6.0 版本才加上的,聽說一些還沒升級到 6.x 版本的朋友還能繼續用。
以下提供兩種方式,一種是去找 5.x 的舊版本剪映來用,另一種是如果不小心升級了,把自己電腦裡的新版本刪掉,退回到舊版本。
下載安裝舊版本
所以如果有在用這個功能的,要嘛不要升級,或是找別人要安裝檔…
目前應該在網路上都還找到,像軟體王還有 5.7 版本的下載點 剪映專業版 5.7.0.11480 for Windows : 軟體王 2024 – 軟體資訊 (下載按鈕在頁面中間綠色的,要自己找一下)。
我也提供一個 5.2 版本的免安裝版 Mega 載點
https://mega.nz/file/pL5hBLaL#lHIfs1C_uc5t-Epnt0dndrA15e4lm8bQ5koDmXz-GPA
檔案大概有 1.3GB,我是從之前安裝過的 Windows VM 系統中複製出來的,預設安裝目錄在 C:\Users\使用者名稱\AppData\Local\JianyingPro\Apps
,也可以找朋友拷貝。
解壓後點擊 JianyingPro.exe,等環境檢測完,應該就會正常啟動。
啟動時可能會跳版本更新提示,記得不要更新。
自動識別字幕功能,在文本>智能字幕>識別字幕。
移除新版本
另外還有一招,利用剪映的程式設計機制,如果有一台電腦用剪映用了很久,那每次更新時,舊版本都還會留在電腦裡。
到剛剛那個安裝目錄 C:\Users\使用者名稱\AppData\Local\JianyingPro\Apps
,或是在捷徑選擇「開啟檔案位置」,應該會看到一堆用版本號 5.x 命名的資料夾。
先把剪映程式關掉,然後把 6.x 的資料夾都砍掉,重新打開剪映,應該會發現剪映變回舊版本了。
不過這招有個問題,用這招降版本後,打開新版本剪映編輯的專案,會提示「軟件版本需要升級 : 檢測到草稿版本較新,是否升級至最新版本打開草稿?」
這時候只能選擇升級剪映版本,或是取消。如果不升級,就不能打開那個新版本的剪映弄的草稿專案。
不過對這招舊版本大法不要太期待,
因為剪映的自動識別字幕,是在剪映官方的雲端伺服器處理的,而不是在使用者的自己電腦本機。
所以哪一天剪映官方在雲端稍微調整一下系統,直接把來自較低版本號的字幕識別的使用者請求封鎖,這招就不攻自破,大家就沒得用了,現在只是先偷著樂。
三、使用 DaVinci Resolve Studio 19 的 AI 语音轉文本功能
DaVinci Resolve 也是一個經典的影視慘業專業工具,它在 19 版本新增了一個語音自動轉字幕功能。
AI语音到文本转录
转录功能能够自动转录视频和音频片段!只需在媒体池内选择片段,然后使用菜单选择音频转录功能即可开始转录。您可以标记入点和出点编辑或删除文本,生成子片段,添加标记,甚至移除无声部分。
這功能對於中文影片有沒有效呢?
DaVinci Resolve 有提供免費版本,可以試試看。
下載時可能會跳出一個註冊表單,選擇國家的時候,T 開頭跟 R 開頭可能都找不到台灣,要找 C 開頭的 Chinese Taipei…
安裝後,一旦點選上方選單中的 Timeline,然後選擇「從音頻創建字幕」,接著會看到…
這功能要購買才能用啦。
想購買的可以從官網找到 Chinese Taipei 的經銷商Find a Reseller。
如果不想買的,可以先看一下官方的操作範例:
從上述的影片可以看出有點麻煩,
DaVinci Resolve 會先把語音辨識出來的所有文本內容顯示在一個小視窗內,
然後使用者要一段一段從小視窗內選取文字、
再選取要放字幕的時間點,
最後按一個按鈕,把字幕加到時間軸中。
跟剪映比起來,所費的工看起來還是多了些…
四、使用訊連威力導演 365 的「AI 語音轉文字」
是的,就是大家小時候可能都聽過的威力導演。
長大後如果在相關慘業,可能會發現導演應該是負責創意方向、指導演員、協調各部門等,為什麼後製人員在用的東西要取名「導演」? 反正我們這些底層勞動人員不要想這麼多,阿影片是弄完了沒?
總之目前威力導演還是不斷在更新,新版本的威力導演也加上了不繳錢就不能用的訂閱制……啊,是加上了「AI 語音轉文字」的功能,還有一些短影片的人物描邊之類的罐頭特效。
AI 語音轉文字功能基本上是要付費訂閱才能用的,免費版可以試用一次:
隨便去網路上抓一支 YT Shorts 來測試,轉檔之後的測試範例大概長得像這樣:
✅字幕會產生時間標記:有
✅自動加字在影片上:有
中文的辨識正確率可能還是有待加強… 像範例測試影片「18月3年」正確應為「113年」(口語:一百一十三年);「有點膽固」正確應為「有點唐突」,其他就不提了,反正還是要自行校對。
看資料上寫,威力導演的 AI 是用使用者電腦本機運算的,語言還有作業系統的差異:
Windows 版本: 英文、繁體中文、日文
Mac 版本: 英文、中文、日文、西班牙文、德文、法文、義大利文、韓文、荷蘭文
實際使用似乎沒有想像中那麼吃效能,使用 AI 功能時,電腦的顯卡風扇沒有狂轉,CPU 或 GPU 使用率沒有特別飆高。
更多使用說明可以參考 如何使用訊連科技威力導演 365 的「AI 語音轉文字」功能?
目前威力導演系列主要分成幾種版本:
– 威力導演旗艦版,買斷的,一次性付費版本,不是訂閱制,沒有 AI 功能。
– 威力導演365,訂閱制,有 AI 功能,費用也沒有想像中的貴,平均一個月 100 多塊台幣。
– 創意導演365,訂閱制,有 AI 功能,包含4套軟體,涵蓋影片剪輯、照片編輯、影片調色、音樂剪輯。
五、使用 Adobe Premiere Pro 的 Speech to Text
Adobe Premiere Pro 裡面也有自動字幕的功能 Speech-to-text)。
語音轉文字功能是有支援中文的,Adobe 說支援以下語言:英文、英文 (英國)、簡體中文 (國語)、繁體中文 (國語)、繁體粵語、西班牙文、德文、法文、日文、葡萄牙文、韓文、義大利文、俄文、印度文、荷蘭文、挪威文、瑞典文和丹麥文。
缺點在於 Premiere 本身就不是免費的,需要訂閱 Adobe Creative Cloud 全家餐。或是單獨訂閱 Adobe Premiere Pro。
AI 運算要消耗 Adobe 伺服器的雲端資源嗎? 不,Speech to Text in Premiere Pro | FAQ 有說,2023/2 之後他們就關閉 cloud-based transcription 的功能了。
從 Premiere Pro 版本 22.2 開始,這個 Speech to Text 是在使用者電腦本機做運算,只要下載語言檔之後,不用連上網路也能影片轉字幕。
操作方式如上官方影片,
在匯入素材時就有一個 “automatic transcription” 的小開關,
也可以在工具面板中方便的產生 transcript ,還有根據 transcript 直接在剪接時間軸中一鍵插入字幕。
六、使用 Canva 的無障礙字幕與品牌字幕功能
Canva 不只能做圖、做簡報,還能做影片。
其中有一些無障礙友善的功能,其中一個是啟用影片和音訊輔助字幕,這跟其他剪接軟體的字幕功能不一樣,比較像是讓聽障人士知道影片語音在說什麼用的。但如果情況非不得已,還是勉強能用一下。
如何操作呢?
– 在 Canva 建立影片專案
– 將影片放在剪接時間軸
– 點選左上角的檔案>設定>在媒體上顯示說明文字
這時候再播放時間軸上的影片,會發現影片中跑出了黑底半透明方塊,上面有白色文字的字幕。
但因為這個是無障礙友善功能:
– 看到字幕有錯字,不能修改
– 這個「字幕」的樣式跟位置也不能自己設定,根本選不到
– 這個「字幕」只有在編輯模式下看得到
– 影片剪完要匯出,如果選擇下載影片,這個無障礙字幕不會跟著匯出。頂多只能靠錄螢幕,把編輯模式那個區域的畫面錄下來。
也許未來哪一天 Canva 會推出正經的影片自動上字幕的功能? 在那天還沒到來前,只能手動上字幕,或是用其他軟體。
2024/10/22 更新: 正經的影片自動上字幕功能來了,Canva 在 2024 年的產品發布會 Droptober當中介紹了一個「品牌字幕(branded captions)」的功能,看起來就是那種大家想要的,把影片自動轉成字幕的功能。
雖然 Canva 這個影片上字幕的功能沒有馬上開通,還在 Coming Soon。
可以先看官方的操作影片...
點了某個神奇小按鈕之後,字幕就自動加好了,而且可以自由編輯字幕的樣式。
但這樣看起來語音辨識字幕是包在「品牌工具組」裡面,而品牌工具組是付費的 Canva Pro 的功能,可能不是大家想要的免費語音轉字幕...
七、台灣的語音轉文字服務
這些不是影片後製編輯工具,而是專門做語音辨識服務的。
語音轉字幕是這類產品的其中一個功能,使用者可以把語音檔轉成帶時間標記的文字檔。
如果需要剪影片,可以導出字幕檔格式,再匯入到影片後製軟體裡面就好了。
這類產品普遍還有用語音檔產生會議紀錄逐字稿、整理重點摘要之類的功能。
如果想要反過來用,例如文字稿寫出來之後想要變成 podcast 或有聲書,部分廠商也有提供 TTS(文字轉語音)相關服務。
雅婷逐字稿
雅婷逐字稿是一款專為台灣口音優化的AI語音轉文字服務,標榜「無需有資料被傳出台灣的隱私和資安疑慮」,並保證不會將使用者的資料與紀錄出售給第三方廣告或組織。
AiMochi
由大數軟體有限公司開發,會員帳號使用 LINE 登入,特別的是還有做 LINE 版本的操作介面,只要把檔案丟到 AiMochi 的 LINE 官方帳號,就可以進行各種語音轉文字的處理。
MyEdit
由訊連開發,每天登入可以領 3 點數。
AI 語音轉文字工具只是其中一個功能,其他還有聲音檔編輯工具、AI 修復等服務。
Taption
Taption 是台灣新創,在一些新聞稿寫說由全台籍美籍開發團隊精心打造,其安全性與隱私保護措施受到政府機構、電信企業、大學及媒體業等多個領域的信任與青睞,成為宗教團體等敏感領域的首選。
如果是台灣的公司行號,要買這種語音轉字幕服務,還要有發票,這幾間可以考慮看看。
八、Windows 系統使用 OpenAI 的 ASR 模型 Whisper 本地端辨識人聲
有不少研究室都有自動語音辨識(Automatic Speech Recognition, ASR)的 AI 神經網路模型,Whisper 是 OpenAI 開源出來的 ASR,最早釋出是在 2022/9,不只是能辨識歐美語系,竟然還有支援國語(中文普通話)、粵語。
圖表來源: https://github.com/openai/whisper
可能會隨 Whisper 模型更新而有新的圖表。圖表僅供參考,如果測出來錯誤率 WERs (word error rates) or CER (character error rates) 超過表上的標示,請自己乖乖吞下去,沒有人會出來負責的,不要財大氣粗地叫員工跟 OpenAI 要報價。
以下用 Windows 操作為例,邏輯上都主要分兩部份,下載 Whisper 的語言模型檔,與處理影片音檔的 GUI 工具。
AI 模型可以到這邊下載 https://huggingface.co/ggerganov/whisper.cpp/tree/main
不用全部下載,要視自己的電腦配備等級量力而為,
有些模型是 English Only 的,中文效果很差,
有些比較小的 small 或 medium 也可以辨識中文,但效果很差。
這邊用 ggml-large-v2.bin 來做測試。
不過反正 AI 玄學有各種特色,模型容量2倍大,辨識成果的正確率也不一定2倍好就是了。一般使用者能做的就是把東西丟到一個黑盒子裡面,運氣好的話可以引導 AI 得到想要的成果。
各模型參數和支援語系資訊可參考 Model Card: Whisper。
有了 AI 模型,還需要有一個程式能處理影片、音訊、字幕、運作 AI 模型,以下介紹幾款:
WhisperDesktop
有操作介面,使用上也非常簡單的 WhisperDesktop
下載 WhisperDesktop.zip,解壓縮之後有個 WhisperDesktop.exe。
使用時第一步就是載入第一步下載的 bin 模型檔案,第二步就是選影片檔和輸出路徑,按下 Transcribe…就完成了。
缺點:
- 寫文章的時候,WhisperDesktop 已經一年沒更新了(最後更新:2023/7),想要使用一些比較新的模型檔,會載入失敗。(還有人記得 pyTranscriber 嗎? 寫這篇的時候,pyTranscriber 最後一次更新已經是 2022 年底,快兩年了…)
- 這個是 Windows 的,macOS 的要另外找。
- 對一般人來說,操作步驟比較多,比較像是工程師在用的,不過 WhisperDesktop 已經非常親民了,還有其他像是 faster-whisper 才更像工程師在用的,能控制的地方也更多。
- 電腦需要一定等級的設備,不是那種看 YouTube 都會卡的文書機。不過對於平常就用來剪接、打電動、搞 AI 的人來說,可能沒什麼特別的。
- 影片過長,或是不明原因卡住,容易轉譯失敗,字幕檔會出現一句話一直重複的現象,最好把影片切短,或重新辨識。
- 結尾或中間有時候會跑出「字幕製作/時間軸:秋月/AutumnMoon/貝爾」之類的文字,純屬正常現象,要自己刪掉。
最大的缺點大概就是用 AI 產生逐字稿或字幕後,還是要進影片後製軟體自行處理。畢竟這個不是影片後製軟體,不會自動產生上好字幕的影片。
如果是要幫影片上字幕的,而且是一個人一條龍作業的,建議直接使用本文其他內建自動語音辨識字幕的影片後製軟體,校對辨識的字幕時,可以直接對到影片畫面+聲音,用起來比較順手,以免多花時間處理。
Subtitle Edit
官網: Subtitle Edit
Github Release: SubtitleEdit/subtitleedit
看名稱可能會以為這個是字幕編輯工具,官網視覺設計看起來就很工程介面,第一印象就感覺很難用,但其實用起來非常簡單。
下載執行之後,在主選單 video>audio to text 中可以找到辨識影片中的人聲轉成字幕的功能。
需要安裝一些必要的元件,像是 FFMpeg、Faster Whisper 之類的,都是滑鼠點一點就好了,subtitleedit 都會直接提示下載安裝。
subtitleedit 軟體裡面也有一個 Whisper 模型清單,可以直接點選下載,中途完全不用自己開 cmd 視窗,複製貼上什麼 pip 指令跟自己 debug。
轉檔完成後會自動產生 srt 檔案在影片資料夾中。
使用 Whisper large-v3 之後辨識成功率有顯著的成長,以前 v2 會聽錯的中文字詞,v3 都能聽出來。
faster-whisper-GUI
下載: faster_whisper GUI with PySide6
同樣支援 whisper 的 large-v3,有批次轉檔功能,把一些細部選項都做成 UI 介面讓人點,還有簡單的時間軸編輯功能。
不過因為是對岸的開發者寫的,所以軟體的中文介面是簡體中文,不喜歡的可以不要用。
Microsoft Clipchamp
這是一個在 Windows 上的影片編輯器,在 2021 年被微軟收購,在 Windows Store 就可以免費下載並安裝,也有付費版本,付費版有更多素材,還可以把影片輸出成 4K,如果電腦偶爾要剪剪行車紀錄器影片,也可以安裝這個。
免費版本裡面也有一個語音轉字幕的功能,叫做 CC 輔助字幕,把影片素材拉進剪輯時間軸之後,就可以在右手邊看到按鈕,點擊後會詢問影片是什麼語言的,然後在雲端進行辨識,背後是用 Azure AI 的技術。
它的 AI 語音辨識語系裡面有好幾種中文可以選,一般台灣人對話要選台灣的國語(簡稱台灣國語)...
辨識完之後就會自動幫影片加好字幕,我們可以編輯字幕樣式,有辨識錯誤可以自己改,也可以單獨存出 srt 字幕,基本的功能都有,沒有任何問題。
最大的問題是...因為一次只能選一種語言,如果對話是國台語夾雜,國語和英文夾雜,多種語言混合,辨識出來的結果會超級慘。
九、macOS 使用 MacWhisper 或其他工具
如果是使用蘋果電腦,同樣也能用類似 Windows 那種本機執行 Whisper 模型+GUI 工具的思維,找到幾款影片/語音轉文字的軟體可以使用,以下簡單介紹一些比較有名的:
MacWhisper
可以從MacWhisper的 gumroad 免費下載試用。
使用上非常簡單,有人性化的 UI 介面,打開程式,用滑鼠選擇模型,下載到本地電腦後,然後就可以選擇影片或聲音檔,轉出文字。
MacWhisper 免費版只支援 Tiny, Base and Small 等級的模型,Medium 跟 Large 的要付費升級到 Pro 版本才能使用。
小參數模型的好處是親測 8G RAM 的最低配備筆電也跑得動,缺點是辨識中文的效果可能沒這麼好。
想要載入更大的模型,或是使用一些雲端的 AI 模型,最低要花 $39 歐元(台幣大概1400塊)升級到 MacWhisper Pro(1 License (Personal Use))。
whisper.cpp
同樣是在電腦本機運算,whisper.cpp 除了可以使用 OpenAI Whisper 那些 ASR 模型 ,還支援 Apple Silicon 內建的 Core ML 機器學習框架,而且也是免費的,沒有什麼免費版只能限制使用某些模型的設計。
缺點是從載入模型、各種設定,通通都得在終端機中輸入指令來操作,想要駕馭它,最好是具有研究精神的人,安裝與設定方式可參考whisper.cpp。
macOS 的聽寫功能
有人可能會想到,macOS 或 iPhone 都有語音輸入法,是不是也能拿來產逐字稿,幫影片/語音檔轉出文字?
只能說…不太好用。
以 Macbook Air M1 為例,聽寫(Dictation)預設是關閉的,要先依照官方說明 在 Mac 上聽寫訊息和文件把設定打開。
- 雙視窗聽寫:失敗
一個視窗播影片,另一個視窗開文字編輯器(或直接開影片剪接軟體的輸入字幕文字模式),然後按下鍵盤 F5 的麥克風按鈕,這時候會發現…播放的影片會變成靜音,這時候自己講話是能成功聽寫,但根本無法直接聽寫影片的語音。聽寫功能的訊源也只能指定麥克風,不能直接指定某個影片播放 app 或瀏覽器視窗當聲音訊源。 - 手機播影片給電腦聽:失敗機率很高
首先要上網查筆電的麥克風位置在哪,接著電腦打開文字編輯器(或直接開影片剪接軟體的輸入字幕文字模式),然後按下鍵盤 F5 的麥克風按鈕,然後用手機對著電腦麥克風播影片,讓電腦聽寫。
缺點是影片語速比較快的,就幾乎辨識不出來,而且沒有時間軸資訊。影片有多長,就要花 1:1 的時間播一遍,而且手機播放音量不能太小聲。限制非常多。 - 使用虛擬麥克風:麻煩
流程大致是這樣:- 安裝第三方廠商的虛擬麥克風軟體
- 把指定的音檔放在虛擬麥克風軟體內
- 調整系統設定,讓聽寫去聽虛擬麥克風裡的音源,產生文字。
虛擬麥克風軟體很多,例如BlackHole 或是 Loopback,網路上都有教學,但拿來聽寫可能是殺雞用牛刀。軟體通常要付費購買,而且設定時通常需要變更一些系統設定。
如果不是經常需要製作逐字稿或上影片字幕,只是需處理一小段影片。可能會發現,光是設定和熟悉這些軟體的時間,就足以讓人手動完成整個逐字稿或字幕製作過程了。
在瀏覽器上面跑小型 LLM
另外一些在本地端執行,可以處理影片轉字幕類似用途的工具,可以參考:
Whisper Web – ML-powered speech recognition directly in your browser
上傳影片或音檔後,記得要再選齒輪圖案:
– Select the model to use 選擇表上最大的的模型,效果比較好
– 如果影片不是英文,要勾 Multilingual
– Select the source language 選擇 Chinese 或其他影片的語言
– Select the task to perform. 選擇 Transcribe (語音轉換為文字)
十、其他中港澳公司開發的
既然剪映都在用了,那其他對岸的工具也不排斥吧?
雖然我平常也不用剪映,本來還想要講小米監視器、華為手機之類的壞話,但是找到這篇文章的人,應該都不是為了看那些廢話的。
看到一些剪輯慘業的案件金額和薪資、再看到剪映各種方便體貼的小功能,這軟體這麼紅,實在是有道理的。
我的想法跟之前提過的一樣 GitHub Copilot AI 替代品,12 款不可錯過的程式開發秘密武器,例如員工可能老是聽資方各種大道理,這種慘業還是違反勞動法令事業單位的重災區之一,那麼員工會好心地把安全、隱私、資安、道德列入首要考慮因素,還是交差式挑一些便宜、甚至免費,但背後運作方式來路不明的東西?
先列出一些真的能用的自動字幕 app:
InShot(行動裝置影片剪輯軟體)
官方網站: InShot
這是一個 iOS/Android 系統上的剪輯 APP,下載之後有免費試用幾天的額度,每次打開 app 會詢問要每月訂閱,或是買終身版本?
InShot 也有自動辨識字幕功能,免費試用版只能試用 1 分鐘長度,而且每次辨識前都要看一段廣告。
這個免費版辨識長度限制是所有影片片段長度,例如把一段 10 分鐘的影片放進去,切成 10 幾段不到 1 分鐘的影片,這樣總長度還是 10 分鐘,是完全不給辨識的。
InShot 的開發公司 SHANTANU PTE. LTD. 看似是新加坡公司,但 Linkedin 上面有寫是杭州影笑科技的子公司(A subsidiary of Hangzhou YingXiao Keji (杭州影笑科技) and we have offices in Hangzhou, Shanghai and Zhengzhou)。
會不會有言論審查呢? 我隨便找了一期寶傑的節目【白紙革命】連「習近平下台」都敢喊! 中國15省79大學響應革命…成「政權破口」震撼世界?【關鍵時刻】20221128-4,把影片拿去辨識,習近平下台之類的台詞是可以正常辨識的,暫時沒遇到被消音之類的情形。
快影(行動裝置影片剪輯軟體)
官方網站: 快影
快影是一款 iOS/Android 系統上的剪輯 APP,由北京快手科技有限公司開發。
談到快手公司,堪稱是抖音在中國的最大對手,快手比抖音還早推出直播、短影音之類的東西,但現在還是只能當老二,也許是比較專注在各種多媒體應用? 也許是集中做中國市場,不像抖音還有 Tiktok 這種面向海外市場的產品? 技術肯定是有的,但如果是商業或政治問題,那真是不好說。
(上圖左是選擇語音轉文字之後,提供的設定選項;上圖右是辨識完之後自動加的字幕,因為跟本來的影片重疊,暫時移上去方便看漏字的地方)
快影 app 裡面也有語音轉文字的功能,並且還可以直接把字幕轉成繁體中文,不用像其他 app 一樣把字幕檔匯入匯出、替換字體檔案之類的。
快影目前很佛心,免費版也可以用爽爽,語音轉文字不像 InShot 有什麼影片分鐘數限制,30分鐘的影片也是一次完成。免費版轉出的影片也不會有浮水印。
中文辨識的效果還行,但還是要稍微人工校對修正就是了。
其他快影 app 的缺點:
– 以語音識別會把檔案上傳到雲端伺服器的產品來說,快影花的時間似乎比起剪映還長,網路慢或是影片很大的需要多花一點時間。
– 找不到地方單獨另存字幕或匯出 SRT 檔。
– 語音轉文字會過濾掉某些政治敏感關鍵字,打死都辨識不出來。
– 辨識出來常常一大串文字一起顯示,而不是一句一句的,要再用它的字幕編輯工具,自行拆分句子。
在隱私條款有提到在快影平台的使用資料可能會被當成個人化廣告推薦。
美圖秀秀&Wink
美圖秀秀是一款經典的拍照修圖 app,後來功能越來越強大,裡面也有影片編輯的功能。
以手機 app 版本為例,編輯影片時點到「文字」功能區,或是在 app 首頁的一堆功能清單,通常都可以找到語音辨識和上字幕的功能。
手機 app 版本:
美圖秀秀 跟 Wink 兩個 app 都直接有影片編輯、自動辨識字幕的功能,自動字幕的操作介面長得完全一模一樣。
電腦版:
美圖秀秀,安裝執行後點選影片編輯,又會叫人下載另一套 Wink Studio
至於語音辨識時會不會封鎖敏感字詞?
需要自己再手動轉成繁體嗎?
字幕可以另外單獨匯出嗎?
不知道,從沒成功過,也許是我一開始直接拿敏感的政治影片去試,已經被 shadow ban 了。
後來不管怎麼試,即使是不到一分鐘的普通影片,都是碰到「語音辨識中…」跑超級久,然後最後都是「您的網路有問題喔~」什麼字幕都沒有。
所以就留給有興趣的朋友去試,希望不要碰到這個影片有好幾小段,但偏偏其中一小段影片的字幕就是都辨識不出來的尷尬問題。
ps.免費的美圖秀秀 app 每次開啟時都會有廣告,然後還有 app 內購訂閱的畫面,不要按「14天免費試用」,按照慣例 14 天後就會開始收費,要直接按右上角的叉叉跳過。
開拍
美圖秀秀集團還有另一款 APP 叫開拍,有電腦網頁版跟手機 APP。
打開開拍 app,第一眼就會看到「AI 剪輯 免費加字幕」,點進去還會有 5 分鐘剪一支談話影片的宣傳 slogan。
操作方式比較沒有提供那麼多自訂選項,每次選擇影片素材之後,就會自動辨識語音,產生如上圖右側的字幕編輯器,
目前測試敏感詞可以正常辨識,還會自動變成繁體中文,
速度也不錯,半小時的影片一兩分鐘就可以處理完,但有時候滿多錯字。
手機 app 上面找不到額外另存字幕的方法。
開拍 app 的免費版很多功能都有使用次數或分鐘長度限制,免費能用的素材範本也比較少,要付費才能無限次使用。
可以直接 app 內購,或是另外註冊會員。但是語音產生字幕目前沒有在免費與 VIP 功能比較清單中,不知道會不會有什麼限制,現在就先當免費的來用。
開拍還有個電腦網頁版,其中的 AI 工具有個「口播剪輯」功能,但是一直登入失敗,只能用其他方式。
另外有個 文案提取 支持短视频、图文、音频提取文案,
可以直接使用微信掃碼註冊,不用手機號碼驗證什麼的(看到要綁手機號碼獲得更好體驗之類的,就按跳過)。
辨識出來是一大段文字,不是字幕那種帶時間的格式。而且免費版只有給10次免費次數,還常常碰到當前網路繁忙的錯誤。
畢竟這是文案提取,要剪輯用途還是乖乖用開拍的 app 比較方便。
AsrTools: 智能语音转文字工具
這是用 Python 寫的工具,要在電腦上使用。Windows 版本有 GUI 操作介面,macOS 只能下載專案檔回來透過終端機呼叫程式,或是等他未來出一版。
初期版本比較陽春,需要自己把影片先轉成聲音檔,才能放進去辨識,辨識完成後會產生 srt 字幕檔。
這套的好處是下載即用,不用申請什麼 API 或特別安裝高階顯示卡,調校環境老半天? AsrTools 裡面內建了剪映、快手、必剪三家的語音辨識 API 功能,可選擇使用B接口(必剪)、J接口(剪映)、K接口(快手),或是 Whisper 來做語音辨識。
實測一些影片,碰到一些政治敏感字也能正常轉出,覺得一個接口效果不好的話,就換另一個。
只是他轉出的 srt 字幕是簡體中文的,台灣人要用的話還要再多一層翻譯的工,一不小心就出現一堆令人啼笑皆非的簡繁轉換問題,像是頭發、天後、下麵...
因為是開源程式,所以能看到他的程式碼,有些看起來是把廠商在官網上讓人試玩 demo 用的 API endpoint 偷出來用,有些看起來像是偽裝第三方客戶端來處理檔案,非正規用途可能用不長久,能用的話就要偷笑了...
MemoAI
MemoAI 不是剪輯軟體,比較像是方便看外文影音媒體的工具,只能在 Windows/macOS 上使用。
剛好它也有影片/語音轉字幕、逐字稿、匯出字幕的功能,可能適合要上字幕或是做逐字稿的人使用。
簡單介紹一下 MemoAI 的功能:
- 主介面可以直接讓人貼上 YouTube 或 Podcast 網址,或是選擇本地的影片、聲音檔。
- MemoAI 裡面有個轉檔介面,可以可以幫影片/音檔/即時語音產生字幕
- MemoAI 裡面有一些資料整理工具,可以把剛剛產生的字幕翻譯成其他語言,或是產生 AI 摘要。
- AI 功能需要自己申請 OpenAI/Claude 等各種雲端的 API KEY,也可以下載 Whisper 模型在本地辨識。
起初我是把他當成看一些外文 YouTube 影片的工具,有時候像是碰到一些影片標題好像符合我想找的關鍵字,但是內容不是英語也不是中文,根本看不懂,或是像一些因為授權問題、沒有 CC 字幕、也沒有人翻譯、太多內梗的影片(如 HISHE),就能用這種工具把影片翻譯一下試試。
只要把 YT 影片網址貼進去,然後 MemoAI 會自動把影片抓下來,在本地做人聲辨識和翻譯,產生字幕。然後就可以直接在 MemoAI 裡面看影片,也可以直接用 AI 做摘要。
是真的有人聲辨識,不是像一些 YT 影片總結的 AI 工具,碰到影片沒有 CC 字幕的就破功。
例如隨便到 YT 找一期相對發音咬字非常清楚的知名 YouTuber 影片來示範,可以清楚知道這類 AI 產品的常見缺點:
- 免費版只能用參數較小的模型,語音辨識出來的東西就已經不對了,拿錯誤的字詞再去翻譯就是錯上加錯!錯王!
- 如果是用 OpenAI gpt-3.5,或其他一些免費開源的小模型,翻譯出來的東西真是罄竹難書。
- 像這種提到非常多專有名詞的影音(例如產品名叫 Humane,AI 都轉成 Human),準備校對修到手軟。
- 這種工具不會把影片轉成圖片來辨識,如果影片內容是非常視覺化的,光憑字幕中一堆「這個」「那個」「就像這樣」,想要光靠 AI 幫影片產出的文字摘要就能獲得知識? 是在說笑吧。
- 時間軸對不上、翻譯對不上、不明原因漏字、一句話一直重複、跑出XX字幕組之類原影片根本沒有的東西……等各種奇怪現象,都是使用這類產品的家常便飯,有時候重試又會正常。
當初有在社群上稍微 follow 到開發者的歷程,就是 AI 風潮那波出來的獨立開發者,一開始也是從 Whisper 套殼出發,弄個友善好用的介面。吸收了社群回饋後持續發展,產品定位不是走那種迷你小程式,也不跟其他大廠一起卷什麼影片剪輯工具,有自己的路。
一開始的中文只有簡體中文,在內測時還有提交過 bug,後來功能越來越多,越來越完整,後來中文也終於可以選簡體中文和繁體中文了。
但後來變成付費版,免費使用者只有 10 次試用次數,效能比較好的模型也鎖起來變成付費功能。內測送的幾組體驗序號也不能用了,於是我就沒再打開它了…。
聽腦 AI
聽腦 AI 需要綁定一組大陸的手機號碼,或是使用微信登錄,然後用它的小程序。
小程序是屬於即時錄音然後轉文本,不是丟影片、音檔給它。
Subeasy.ai
官方網站: https://www.subeasy.ai/(邀請連結,當朋友註冊後,可以獲得額外的 60 積分;朋友轉錄一個檔案後,可獲得 60 積分。)
這是一個線上工具,把影片或音檔上傳之後,網站上有個字幕編輯介面,生成式 AI 常見的總結、翻譯什麼的功能也都有,編輯完之後可以下載各種字幕格式檔案。
可以免費試用,註冊即享 10 點積分,每日免費轉錄 3 次 30 分鐘内文檔。
付費方案最低一年 $89 美金,有 200 分鐘的轉譯額度。
Subeasy.ai 的金流是使用 Stripe,公司名稱在隱私條款內是 Bikgo NetWork, LLC.,在使用者協議內又變成 Bikgo network Ltd.。鄧白氏認證名單上有一間韓國公司叫 Bikgo Ltd.,看起來只是剛好用到一樣的單字,不是同一間公司。
在 Subeasy.ai 的隱私條款內,中間下半部,有寫說他們是香港公司:
Bikgo, LLC is a HongKong company. Our primary data infrastructure is located in Hong Kong.
以下是找不到辨識字幕功能的,或是可能沒有像剪映這麼好用的。
也許有些人想說有某某 AI 工具很有名,那裏面有辨識字幕功能嗎? 我先幫大家試了。
- 文心一言 : 找不到視頻/音頻轉字幕相關的,上傳檔案仅支持.doc,.docx,.pdf,.jpg,.jpeg,.png。
- 豆包 : 一樣只能上傳文書檔案,不能上傳影片或聲音檔,從 发现 AI 智能搜尋字幕可以找到一堆什麼智能语音识别,实时翻译助手,但對話框根本無法上傳東西。下載 Windows 桌面版也是一樣,沒有特別多出什麼功能。
- 訊飛聽見- 轉文字 需要綁定一組大陸的手機號碼,然後收驗證碼才能開通,就算用微信登錄也一樣。然後星火那邊需要上傳一堆個人證件做審核。
- FunASR 阿里巴巴的 ASR 模型,有語音聽寫,語音轉文字的功能,號稱用了多少中文語料來訓練,但評價可以上網查查。
- 33字幕支援用 Whisper 模型本地端識別或雲端識別,有 Windows 和 macOS 版本。
- 幕译一樣使用 Whisper 模型,只有 Windows 版本,免費版只支援 10 分鐘字幕,也無法批次轉檔。
Monica.im
Monica 都是以文字為主,頂多只有用麥克風跟 AI 對話,目前沒有看到處理影片或音檔、產生字幕或逐字稿的功能,無法達成本文的語音轉字幕需求。
有在上網的可能常會看到這個 Monica AI 瘋狂打廣告,號稱什麼台灣 ChatGPT?
但 Monica 的畢竟是對岸一個出海的 AI 產品(出海是中國用語,向海外拓展的新創事業,不是只有在中國境內銷售),不少使用者對於創始人和中資背景有各種疑慮。
背景故事可參考:
– 插件、套壳、收购产品? Monica 从 0 到百万用户的 AI 助手之路 | 对谈 Monica 创始人肖弘
– 中國AI,全球掘金 | 科技 | 鉅亨號 | Anue鉅亨。
– Monica的誕生則是相反的過程,肖弘通過收購ChatGPT for Google,順勢將其升級為Monica
“ChatGPT for Google” 跟 OpenAI 的 ChatGPT 或 Google 毫無關係,就只是一個吃人家豆腐的產品名稱。跟 “ChatGTP” 這種刻意拼錯字來騙人的,同樣令人反感。
一開始在網路上搜尋 Monica 公司,可能會找到「蝴蝶效应国际集团」,還會找到對岸的一些公司簡介線上百科裡面寫「由退伍军人企业家发起成立」,內部人員具有解放軍背景之類的,令人有不安全感。
有一天在 Threads 上面看到 monica.gpt4 在回覆網友關於此類疑慮,內容大概如下:
感謝您對Monica AI的關注。對於您的疑慮,我想澄清一下:Monica AI是由香港蝴蝶效應有限公司運營的,而您提到的公司是香港蝴蝶效應國際集團。我們的公司名稱和您提到的公司只是名稱相似,實際上並無關聯。您可以訪問我們的官網底部monica.im/zh_TW查看詳細資訊,以及我們的隱私政策和用戶條款monica.im/priva…。我們始終嚴格保護用戶的隱私數據。
Monica 後來在台灣也有代理商,由某商會裡面的人拿到,看網路上放的個人經歷,2017~2023 年間還在北京、深圳等地工作當 PM (product manager),後來回台灣從事商業顧問。
Monica 產品營運團隊是中資背景,Monica 台灣代理商是曾在中國工作好幾年的人,面對網友的各種中資疑慮,同商會中的夥伴們當然是不會互相拆台啦! 要嘛直接不理,或是用「Google 跟 Meta 也會蒐集個資」「自己要注意不要在網路上輸入敏感內容」之類的概念來回應,有些商會夥伴還是大家常常在社群追蹤轉發的KOL。
資訊供大家參考,反正我是沒事不會去用,這邊也不會放什麼推薦碼。
Coze
Coze 是抖音集團旗下的產品,裡面其中一個功能是有類似 ChatGPT 的 GPTs,在 Coze 的線上市集搜尋別人建好的 bot,搜尋 transcribe、Voice to Text Transcriber 之類的關鍵字,就能找到一大堆,然後直接在線上使用,對話視窗內可以上傳音檔(不能上傳影片檔)。
但由於 Coze 在 2024/7 大改價格政策,開始收費,在對話視窗上傳音檔之後,多半就會提示 You’ve used up your message credits for today,免費版幾乎等於不能用的狀態。勉強找到能試的,AI 也會亂回覆出原始語音檔根本沒有的東西。
ChatGPT 的 GPTs 搜尋 transcribe 也能找到一堆類似語音轉文字用途的機器人。
但也都是幾乎不能用的狀態,常見的問題有:
- 對於上字幕,我們要的是一字不漏+自動斷句+有 timecode (每一句話起始和結束時間)的字幕格式,而有些 AI 語音辨識工具輸出的結果是整理過的項目條列式列重點,或是一整大段文字,用途不對。
- 有些 AI 碰到上傳 mp3 或 mp4 檔案,會回覆說「請先用 XX 軟體做語音辨識」……原來這是廣告 bot 嗎?
- 跟使用 LLM 本身的知識做文字對話相比,語音辨識是非常耗系統資源的東西,想光靠免費版的 ChatGPT 跟 Coze 完成任務就已經幾乎是不可能的事,真的花錢繳月費,也還是有一定的額度上限,除非是一個月才出一支 10 分鐘短片的,那就當我沒說。
- 那種打字聊天對話的生成式 AI 介面,跟字幕編輯,校對語音和字幕的工作流程,兩者八字明顯不合,彷彿就像拿吸管吃麵一樣。還有 token 數上限之類的技術限制,影音工作用途的軟體與 AI 結合才更好用。
最麻煩的是尤其是對岸的服務有中國網路實名制規定,甚至後來還推出網證(居民身份网络可信凭证,簡稱網證或 CTID),大部分線上服務要註冊會員,然後會員驗證的手機號碼格式、證件格式,都只能接受中國大陸本地的,如果沒有另外一套海外版,外國人通常在註冊會員這關就卡住了。
結語
聲音自動轉文字是一種用過就回不去的功能,不只是這個,很多程式自動化都是這樣,雖然功能不可能做到完美,但是習慣之後,就不會想再回到完全由人工處理的模式。
不過講是這樣講,我們實務上在開發與導入這類東西,經常遇到各種阻礙,不只是預算問題、還有立場問題、人的問題,只適合給有緣人使用。
如果是為了找免費的影片/語音檔轉字幕工具,那可能不好找。這種 AI 產品通常都是要付費的,這種產品的運作成本很高,光是在公有雲上弄一個可以同時讓至少千人上傳語音檔的線上平台,建立、維護&營運成本已經嚇死一堆人,更別說再加上什麼語音辨識功能。以前還可以免費給使用者用,除了拿投資人的錢之外,真是難以想像背後是怎麼支撐的。剪映後來開始養套殺收費也不意外。
海外地區的像 Good Tape、cSubtitle(香港公司)、Descript 這些,通常只有少少的免費試用額度,付費的話通常每 60 分鐘要台幣幾十~幾百塊不等,或是要付訂閱費。