剪映的自動識別字幕要付費,其他中港澳公司出的中文語音轉文字替代方案
然而,這功能現在變成要付費專業版才能使用了…
五星評論家麥克阿瑟表示:用過這種功能,誰還要人工聽打逐字稿? 手工打字或打開錢包選一個吧。
本文來找一些其他可以幫影片辨識語音人聲,自動轉字幕的工具。
本文主要是介紹一些中國、香港地區出的線上語音辨識和字幕編輯工具,還有能在手機上快速剪片上字幕的 app。
如果想找台灣或是其他歐美公司出的 AI 模型、影片自動上字幕工具、語音辨識服務,請參考剪映的自動識別字幕要付費,中文語音轉文字替代方案
SubEasy.ai
官方網站: https://www.subeasy.ai/
(此為邀請連結,當朋友註冊後,可以獲得額外的 60 積分;朋友轉錄一個檔案後,邀請人可獲得 60 積分。覺得好用的話可以分享給朋友賺積分)
這是一個線上工具,把影片或音檔上傳之後,會自動辨識,編輯完之後可以下載各種字幕格式檔案。
SubEasy.ai 是個為使用者著想的好軟體,針對了幾種常見的語音轉成文字用途,都設計了好用的功能。有幾大功能特色:
網頁線上版工具
要做影片字幕,網站上有個字幕編輯介面,可以非常方便同時看到畫面、聲音、字幕,檢查字幕有沒有出錯,方便的編輯修改字幕。
字幕修改好了,還要打開剪輯軟體嗎? SubEasy.ai 還可以匯出影片,可以把字幕加在影片上,直接匯出有字幕的影片,一站式完成基本需求。
(影片匯出功能免費版就能用,但是有浮水印,付費就可以去掉浮水印了)
要做其他文書類或語言學習用途,SubEasy 裡面有個 AI 夥伴(如下圖)。
生成式 AI 工具常用的總結、翻譯、生成長短文章...之類的功能都有,使用 SubEasy.ai 做會議紀錄、修飾文案、看外文影片、生成社群貼文,都能得到穩定滿意的結果,不用擔心影片中某些關鍵字莫名其妙被消音,用到一半跳出廣告之類的問題。
雲端線上轉檔
本文或上一部中,有些工具要像工程師一樣在電腦本地安裝一堆 AI 大模型,配置 Python 環境,debug 錯誤訊息。
SubEasy.ai 只要把檔案丟到線上就好,不用煩惱 AI 程式的那些事情。
檔案處理完畢也可以直接匯出到 Google Drive 和 Dropbox,如果是影片剪完要給客人確認的朋友,就知道這功能有多方便! 一次處理就能完成所有步驟,不僅節省時間,還能減少繁瑣的操作流程。
不然其他一些服務,把影片上傳到線上語音辨識服務要等老半天,處理完之後把電腦下載到手機或電腦裡,再上傳到雲端硬碟請廠商確認......對於重視效率的專業人士來說,這種反覆上傳下載無疑是一種折磨!
跨平台操作,不受作業系統隔閡
不用擔心非得在小小的手機畫面上操作,或是臨時出門在外手邊沒電腦? 還要把素材在電腦跟手機之間傳來傳去?
只要打開 SubEasy.ai 的網站,把檔案上傳到雲端,然後等待字幕轉錄處理就行了。
SubEasy.ai 能直接上傳影片檔跟聲音檔
用過這類語音轉文字工具就知道,有些功能比較單一,影片檔還要先轉成 mp3 聲音才能處理,或是只能吃特定格式的影片檔,自己先轉檔又要多花不少時間。
有些則是專門為影片工作者用的,功能操作上不是為了做會議記錄或摘要而生,電腦和手機上安裝一堆剪輯軟體,卻是為了做聽寫、翻譯之類的文書作業,感覺有點奇妙。
SubEasy.ai 非常方便,支援各種多媒體格式,可以直接上傳影片或音樂檔(MP3、MP4、M4A、MOV、AAC、WAV、OGG、OPUS、MPEG、WMA、YouTube)。
如果是要把一些外文影片翻譯一下,來學習或是獲得新知,也可以直接貼 YouTube 網址給 SubEasy.ai,不需要再自己下載、上傳。
將語音轉成文字後,可以匯出成 SRT, TXT 或多種格式(VTT、Word、Text、MD、LRC、JSON、ASS、CSV、STL、PDF)。
費用說明
SubEasy.ai 可以免費試用,註冊即享 10 點積分,每日免費轉錄 3 次 30 分鐘内文檔。
付費方案最低一年 $89 美金,有 200 分鐘的轉譯額度。如果用量很大想要吃到飽,SubEasy.ai 也提供無限套餐,一個月不到 $30 美金,可以不限時長轉錄語音、匯出 4K 影片,
政府機關或教育機構還有優惠方案,用戶只需使用「edu」或「gov」的 email 聯絡官方客服即可,無需額外提供其他證明文件。
對於大家關心的安全和隱私問題,在SubEasy.ai 的使用條款內,中間下半部,有寫說他們是香港公司:
Bikgo, LLC is a HongKong company. Our primary data infrastructure is located in Hong Kong.
SubEasy.ai 的金流是使用美國的 Stripe,這是一家全球領先的支付處理公司。
SubEasy.ai 也說系統與數據也全部托管於美國的頂級資料中心,這不僅符合國際標準,還能確保資料的高度安全性和可靠性,更彰顯了 SubEasy.ai 對安全性和隱私的高度重視,讓客戶能安心使用。
CapCut (剪映國際版) 目前還能免費轉字幕
剪映跟 CapCut 的關係,大概就跟抖音 vs. TikTok 一樣,一個是中國版本,付款方式或一些帳號認證方式都是中國人專屬的,而另一個是國際版。
CapCut 又有分兩個版本,目前都還可以免費產生字幕:
CapCut 線上版
點上面那個網站連結,進去之後右上角有一個「試用 CapCut 線上版」,裡面有一個類似 Canva 的東西,可以做圖片,也可以處理影片。
把影片丟上時間軸,然後左邊有一個「字幕」,選擇自動字幕,和影片的語言,再按產生,影片就有字幕了。
然後選擇匯出影片,還可以把字幕另外下載成 SRT 或 TXT,非常方便。
CapCut 線上版的缺點,要等影片上傳完才能開始辨識,片長很長的話,要等老半天。
CapCut 電腦版
點上面那個網站連結,首頁另外有個下載連結,可以下載電腦版的 CapCut,就不需要等待什麼上傳步驟。
操作方式跟本來的剪映差不多,字幕辨識完會自動加到剪接時間軸。
缺點也不是沒有,等到要匯出字幕檔時…本來這邊應該有一個匯出字幕的選項,竟然消失了!
有些人可能是要用字幕檔轉成繁體、或是把字幕檔當成 YouTube 的 CC 字幕,
有時候可能是要處理語音訪談逐字稿,單純靠剪映把語音轉文字弄出 TXT 檔,
既然無法另存字幕檔,就比較尷尬…
使用 5.5 以下舊版本的剪映,不要升級到 6 以上
5.5 版本就開始一些功能升級到變成 VIP 方案才能用,到 5.9 都還有免費的字幕識別(語音轉文字)功能,自動字幕識別變 VIP/SVIP 是剪映 6.0 版本才加上的,聽說一些還沒升級到 6.x 版本的朋友還能繼續用。
以下提供兩種方式,一種是去找 5.x 的舊版本剪映來用,另一種是如果不小心升級了,把自己電腦裡的新版本刪掉,退回到舊版本。
下載安裝舊版本
所以如果有在用這個功能的,要嘛不要升級,或是找別人要安裝檔…
目前應該在網路上都還找到,像軟體王還有 5.7 版本的下載點 剪映專業版 5.7.0.11480 for Windows : 軟體王 2024 – 軟體資訊 (下載按鈕在頁面中間綠色的,要自己找一下)。
我也提供一個 5.2 版本的免安裝版 Mega 載點
https://mega.nz/file/pL5hBLaL#lHIfs1C_uc5t-Epnt0dndrA15e4lm8bQ5koDmXz-GPA
檔案大概有 1.3GB,我是從之前安裝過的 Windows VM 系統中複製出來的,預設安裝目錄在 C:\Users\使用者名稱\AppData\Local\JianyingPro\Apps
,也可以找朋友拷貝。
解壓後點擊 JianyingPro.exe,等環境檢測完,應該就會正常啟動。
啟動時可能會跳版本更新提示,記得不要更新。
自動識別字幕功能,在文本>智能字幕>識別字幕。
移除新版本
另外還有一招,利用剪映的程式設計機制,如果有一台電腦用剪映用了很久,那每次更新時,舊版本都還會留在電腦裡。
到剛剛那個安裝目錄 C:\Users\使用者名稱\AppData\Local\JianyingPro\Apps
,或是在捷徑選擇「開啟檔案位置」,應該會看到一堆用版本號 5.x 命名的資料夾。
先把剪映程式關掉,然後把 6.x 的資料夾都砍掉,重新打開剪映,應該會發現剪映變回舊版本了。
不過這招有個問題,用這招降版本後,打開新版本剪映編輯的專案,會提示「軟件版本需要升級 : 檢測到草稿版本較新,是否升級至最新版本打開草稿?」
這時候只能選擇升級剪映版本,或是取消。如果不升級,就不能打開那個新版本的剪映弄的草稿專案。
不過對這招舊版本大法不要太期待,
因為剪映的自動識別字幕,是在剪映官方的雲端伺服器處理的,而不是在使用者的自己電腦本機。
所以哪一天剪映官方在雲端稍微調整一下系統,直接把來自較低版本號的字幕識別的使用者請求封鎖,這招就不攻自破,大家就沒得用了,現在只是先偷著樂。
InShot(行動裝置影片剪輯軟體)
官方網站: InShot
這是一個 iOS/Android 系統上的剪輯 APP,下載之後有免費試用幾天的額度,每次打開 app 會詢問要每月訂閱,或是買終身版本?
InShot 也有自動辨識字幕功能,免費試用版只能試用 1 分鐘長度,而且每次辨識前都要看一段廣告。
這個免費版辨識長度限制是所有影片片段長度,例如把一段 10 分鐘的影片放進去,切成 10 幾段不到 1 分鐘的影片,這樣總長度還是 10 分鐘,是完全不給辨識的。
InShot 的開發公司 SHANTANU PTE. LTD. 看似是新加坡公司,但 Linkedin 上面有寫是杭州影笑科技的子公司(A subsidiary of Hangzhou YingXiao Keji (杭州影笑科技) and we have offices in Hangzhou, Shanghai and Zhengzhou)。
會不會有言論審查呢? 我隨便找了一期寶傑的節目【白紙革命】連「習近平下台」都敢喊! 中國15省79大學響應革命…成「政權破口」震撼世界?【關鍵時刻】20221128-4,把影片拿去辨識,習近平下台之類的台詞是可以正常辨識的,暫時沒遇到被消音之類的情形。
快影(行動裝置影片剪輯軟體)
官方網站: 快影
快影是一款 iOS/Android 系統上的剪輯 APP,由北京快手科技有限公司開發。
談到快手公司,堪稱是抖音在中國的最大對手,快手比抖音還早推出直播、短影音之類的東西,但現在還是只能當老二,也許是比較專注在各種多媒體應用? 也許是集中做中國市場,不像抖音還有 Tiktok 這種面向海外市場的產品? 技術肯定是有的,但如果是商業或政治問題,那真是不好說。
(上圖左是選擇語音轉文字之後,提供的設定選項;上圖右是辨識完之後自動加的字幕,因為跟本來的影片重疊,暫時移上去方便看漏字的地方)
快影 app 裡面也有語音轉文字的功能,並且還可以直接把字幕轉成繁體中文,不用像其他 app 一樣把字幕檔匯入匯出、替換字體檔案之類的。
快影目前很佛心,免費版也可以用爽爽,語音轉文字不像 InShot 有什麼影片分鐘數限制,30分鐘的影片也是一次完成。免費版轉出的影片也不會有浮水印。
中文辨識的效果還行,但還是要稍微人工校對修正就是了。
其他快影 app 的缺點:
– 以語音識別會把檔案上傳到雲端伺服器的產品來說,快影花的時間似乎比起剪映還長,網路慢或是影片很大的需要多花一點時間。
– 找不到地方單獨另存字幕或匯出 SRT 檔。
– 語音轉文字會過濾掉某些政治敏感關鍵字,打死都辨識不出來。
– 辨識出來常常一大串文字一起顯示,而不是一句一句的,要再用它的字幕編輯工具,自行拆分句子。
在隱私條款有提到在快影平台的使用資料可能會被當成個人化廣告推薦。
美圖秀秀&Wink
美圖秀秀是一款經典的拍照修圖 app,後來功能越來越強大,裡面也有影片編輯的功能。
以手機 app 版本為例,編輯影片時點到「文字」功能區,或是在 app 首頁的一堆功能清單,通常都可以找到語音辨識和上字幕的功能。
手機 app 版本:
美圖秀秀 跟 Wink 兩個 app 都直接有影片編輯、自動辨識字幕的功能,自動字幕的操作介面長得完全一模一樣。
電腦版:
美圖秀秀,安裝執行後點選影片編輯,又會叫人下載另一套 Wink Studio
至於語音辨識時會不會封鎖敏感字詞?
需要自己再手動轉成繁體嗎?
字幕可以另外單獨匯出嗎?
不知道,從沒成功過,也許是我一開始直接拿敏感的政治影片去試,已經被 shadow ban 了。
後來不管怎麼試,即使是不到一分鐘的普通影片,都是碰到「語音辨識中…」跑超級久,然後最後都是「您的網路有問題喔~」什麼字幕都沒有。
所以就留給有興趣的朋友去試,希望不要碰到這個影片有好幾小段,但偏偏其中一小段影片的字幕就是都辨識不出來的尷尬問題。
ps.免費的美圖秀秀 app 每次開啟時都會有廣告,然後還有 app 內購訂閱的畫面,不要按「14天免費試用」,按照慣例 14 天後就會開始收費,要直接按右上角的叉叉跳過。
開拍
美圖秀秀集團還有另一款 APP 叫開拍,有電腦網頁版跟手機 APP。
打開開拍 app,第一眼就會看到「AI 剪輯 免費加字幕」,點進去還會有 5 分鐘剪一支談話影片的宣傳 slogan。
操作方式比較沒有提供那麼多自訂選項,每次選擇影片素材之後,就會自動辨識語音,產生如上圖右側的字幕編輯器,
目前測試敏感詞可以正常辨識,還會自動變成繁體中文,
速度也不錯,半小時的影片一兩分鐘就可以處理完,但有時候滿多錯字。
手機 app 上面找不到額外另存字幕的方法。
開拍 app 的免費版很多功能都有使用次數或分鐘長度限制,免費能用的素材範本也比較少,要付費才能無限次使用。
可以直接 app 內購,或是另外註冊會員。但是語音產生字幕目前沒有在免費與 VIP 功能比較清單中,不知道會不會有什麼限制,現在就先當免費的來用。
開拍還有個電腦網頁版,其中的 AI 工具有個「口播剪輯」功能,但是一直登入失敗,只能用其他方式。
另外有個 文案提取 支持短视频、图文、音频提取文案,
可以直接使用微信掃碼註冊,不用手機號碼驗證什麼的(看到要綁手機號碼獲得更好體驗之類的,就按跳過)。
辨識出來是一大段文字,不是字幕那種帶時間的格式。而且免費版只有給10次免費次數,還常常碰到當前網路繁忙的錯誤。
畢竟這是文案提取,要剪輯用途還是乖乖用開拍的 app 比較方便。
AsrTools: 智能语音转文字工具
這是用 Python 寫的工具,要在電腦上使用。Windows 版本有 GUI 操作介面,macOS 只能下載專案檔回來透過終端機呼叫程式,或是等他未來出一版。
初期版本比較陽春,需要自己把影片先轉成聲音檔,才能放進去辨識,辨識完成後會產生 srt 字幕檔。
這套的好處是下載即用,不用申請什麼 API 或特別安裝高階顯示卡,調校環境老半天? AsrTools 裡面內建了剪映、快手、必剪三家的語音辨識 API 功能,可選擇使用B接口(必剪)、J接口(剪映)、K接口(快手),或是 Whisper 來做語音辨識。
實測一些影片,碰到一些政治敏感字也能正常轉出,覺得一個接口效果不好的話,就換另一個。
只是他轉出的 srt 字幕是簡體中文的,台灣人要用的話還要再多一層翻譯的工,一不小心就出現一堆令人啼笑皆非的簡繁轉換問題,像是頭發、天後、下麵...
因為是開源程式,所以能看到他的程式碼,有些看起來是把廠商在官網上讓人試玩 demo 用的 API endpoint 偷出來用,有些看起來像是偽裝第三方客戶端來處理檔案,非正規用途可能用不長久,能用的話就要偷笑了...
MemoAI
MemoAI 不是剪輯軟體,比較像是方便看外文影音媒體的工具,只能在 Windows/macOS 上使用。
剛好它也有影片/語音轉字幕、逐字稿、匯出字幕的功能,可能適合要上字幕或是做逐字稿的人使用。
簡單介紹一下 MemoAI 的功能:
- 主介面可以直接讓人貼上 YouTube 或 Podcast 網址,或是選擇本地的影片、聲音檔。
- MemoAI 裡面有個轉檔介面,可以可以幫影片/音檔/即時語音產生字幕
- MemoAI 裡面有一些資料整理工具,可以把剛剛產生的字幕翻譯成其他語言,或是產生 AI 摘要。
- AI 功能需要自己申請 OpenAI/Claude 等各種雲端的 API KEY,也可以下載 Whisper 模型在本地辨識。
起初我是把他當成看一些外文 YouTube 影片的工具,有時候像是碰到一些影片標題好像符合我想找的關鍵字,但是內容不是英語也不是中文,根本看不懂,或是像一些因為授權問題、沒有 CC 字幕、也沒有人翻譯、太多內梗的影片(如 HISHE),就能用這種工具把影片翻譯一下試試。
只要把 YT 影片網址貼進去,然後 MemoAI 會自動把影片抓下來,在本地做人聲辨識和翻譯,產生字幕。然後就可以直接在 MemoAI 裡面看影片,也可以直接用 AI 做摘要。
是真的有人聲辨識,不是像一些 YT 影片總結的 AI 工具,碰到影片沒有 CC 字幕的就破功。
例如隨便到 YT 找一期相對發音咬字非常清楚的知名 YouTuber 影片來示範,可以清楚知道這類 AI 產品的常見缺點:
- 免費版只能用參數較小的模型,語音辨識出來的東西就已經不對了,拿錯誤的字詞再去翻譯就是錯上加錯!錯王!
- 如果是用 OpenAI gpt-3.5,或其他一些免費開源的小模型,翻譯出來的東西真是罄竹難書。
- 像這種提到非常多專有名詞的影音(例如產品名叫 Humane,AI 都轉成 Human),準備校對修到手軟。
- 這種工具不會把影片轉成圖片來辨識,如果影片內容是非常視覺化的,光憑字幕中一堆「這個」「那個」「就像這樣」,想要光靠 AI 幫影片產出的文字摘要就能獲得知識? 是在說笑吧。
- 時間軸對不上、翻譯對不上、不明原因漏字、一句話一直重複、跑出XX字幕組之類原影片根本沒有的東西……等各種奇怪現象,都是使用這類產品的家常便飯,有時候重試又會正常。
當初有在社群上稍微 follow 到開發者的歷程,就是 AI 風潮那波出來的獨立開發者,一開始也是從 Whisper 套殼出發,弄個友善好用的介面。吸收了社群回饋後持續發展,產品定位不是走那種迷你小程式,也不跟其他大廠一起卷什麼影片剪輯工具,有自己的路。
一開始的中文只有簡體中文,在內測時還有提交過 bug,後來功能越來越多,越來越完整,後來中文也終於可以選簡體中文和繁體中文了。
但後來變成付費版,免費使用者只有 10 次試用次數,效能比較好的模型也鎖起來變成付費功能。內測送的幾組體驗序號也不能用了,於是我就沒再打開它了…。
聽腦 AI
聽腦 AI 需要綁定一組大陸的手機號碼,或是使用微信登錄,然後用它的小程序。
小程序是屬於即時錄音然後轉文本,不是丟影片、音檔給它。
其他
以下是找不到辨識字幕功能的,或是可能沒有像剪映這麼好用的。
也許有些人想說有某某 AI 工具很有名,那裏面有辨識字幕功能嗎? 我先幫大家試了。
- 文心一言 : 找不到視頻/音頻轉字幕相關的,上傳檔案仅支持.doc,.docx,.pdf,.jpg,.jpeg,.png。
- 豆包 : 一樣只能上傳文書檔案,不能上傳影片或聲音檔,從 发现 AI 智能搜尋字幕可以找到一堆什麼智能语音识别,实时翻译助手,但對話框根本無法上傳東西。下載 Windows 桌面版也是一樣,沒有特別多出什麼功能。
- 訊飛聽見- 轉文字 需要綁定一組大陸的手機號碼,然後收驗證碼才能開通,就算用微信登錄也一樣。然後星火那邊需要上傳一堆個人證件做審核。
- FunASR 阿里巴巴的 ASR 模型,有語音聽寫,語音轉文字的功能,號稱用了多少中文語料來訓練,但評價可以上網查查。
- 33字幕支援用 Whisper 模型本地端識別或雲端識別,有 Windows 和 macOS 版本。
- 幕译一樣使用 Whisper 模型,只有 Windows 版本,免費版只支援 10 分鐘字幕,也無法批次轉檔。
Monica.im
Monica 都是以文字為主,頂多只有用麥克風跟 AI 對話,目前沒有看到處理影片或音檔、產生字幕或逐字稿的功能,無法達成本文的語音轉字幕需求。
有在上網的可能常會看到這個 Monica AI 瘋狂打廣告,號稱什麼台灣 ChatGPT?
但 Monica 的畢竟是對岸一個出海的 AI 產品(出海是中國用語,向海外拓展的新創事業,不是只有在中國境內銷售),不少使用者對於創始人和中資背景有各種疑慮。
背景故事可參考:
– 插件、套壳、收购产品? Monica 从 0 到百万用户的 AI 助手之路 | 对谈 Monica 创始人肖弘
– 中國AI,全球掘金 | 科技 | 鉅亨號 | Anue鉅亨。
– Monica的誕生則是相反的過程,肖弘通過收購ChatGPT for Google,順勢將其升級為Monica
“ChatGPT for Google” 跟 OpenAI 的 ChatGPT 或 Google 毫無關係,就只是一個吃人家豆腐的產品名稱。跟 “ChatGTP” 這種刻意拼錯字來騙人的,同樣令人反感。
一開始在網路上搜尋 Monica 公司,可能會找到「蝴蝶效应国际集团」,還會找到對岸的一些公司簡介線上百科裡面寫「由退伍军人企业家发起成立」,內部人員具有解放軍背景之類的,令人有不安全感。
有一天在 Threads 上面看到 monica.gpt4 在回覆網友關於此類疑慮,內容大概如下:
感謝您對Monica AI的關注。對於您的疑慮,我想澄清一下:Monica AI是由香港蝴蝶效應有限公司運營的,而您提到的公司是香港蝴蝶效應國際集團。我們的公司名稱和您提到的公司只是名稱相似,實際上並無關聯。您可以訪問我們的官網底部monica.im/zh_TW查看詳細資訊,以及我們的隱私政策和用戶條款monica.im/priva…。我們始終嚴格保護用戶的隱私數據。
Monica 後來在台灣也有代理商,由某商會裡面的人拿到,看網路上放的個人經歷,2017~2023 年間還在北京、深圳等地工作當 PM (product manager),後來回台灣從事商業顧問。
Monica 產品營運團隊是中資背景,Monica 台灣代理商是曾在中國工作好幾年的人,面對網友的各種中資疑慮,同商會中的夥伴們當然是不會互相拆台啦! 要嘛直接不理,或是用「Google 跟 Meta 也會蒐集個資」「自己要注意不要在網路上輸入敏感內容」之類的概念來回應,有些商會夥伴還是大家常常在社群追蹤轉發的KOL。
資訊供大家參考,反正我是沒事不會去用,這邊也不會放什麼推薦碼。
Coze
Coze 是抖音集團旗下的產品,裡面其中一個功能是有類似 ChatGPT 的 GPTs,在 Coze 的線上市集搜尋別人建好的 bot,搜尋 transcribe、Voice to Text Transcriber 之類的關鍵字,就能找到一大堆,然後直接在線上使用,對話視窗內可以上傳音檔(不能上傳影片檔)。
但由於 Coze 在 2024/7 大改價格政策,開始收費,在對話視窗上傳音檔之後,多半就會提示 You’ve used up your message credits for today,免費版幾乎等於不能用的狀態。勉強找到能試的,AI 也會亂回覆出原始語音檔根本沒有的東西。
ChatGPT 的 GPTs 搜尋 transcribe 也能找到一堆類似語音轉文字用途的機器人。
但也都是幾乎不能用的狀態,常見的問題有:
- 對於上字幕,我們要的是一字不漏+自動斷句+有 timecode (每一句話起始和結束時間)的字幕格式,而有些 AI 語音辨識工具輸出的結果是整理過的項目條列式列重點,或是一整大段文字,用途不對。
- 有些 AI 碰到上傳 mp3 或 mp4 檔案,會回覆說「請先用 XX 軟體做語音辨識」……原來這是廣告 bot 嗎?
- 跟使用 LLM 本身的知識做文字對話相比,語音辨識是非常耗系統資源的東西,想光靠免費版的 ChatGPT 跟 Coze 完成任務就已經幾乎是不可能的事,真的花錢繳月費,也還是有一定的額度上限,除非是一個月才出一支 10 分鐘短片的,那就當我沒說。
- 那種打字聊天對話的生成式 AI 介面,跟字幕編輯,校對語音和字幕的工作流程,兩者八字明顯不合,彷彿就像拿吸管吃麵一樣。還有 token 數上限之類的技術限制,影音工作用途的軟體與 AI 結合才更好用。
最麻煩的是尤其是對岸的服務有中國網路實名制規定,甚至後來還推出網證(居民身份网络可信凭证,簡稱網證或 CTID),大部分線上服務要註冊會員,然後會員驗證的手機號碼格式、證件格式,都只能接受中國大陸本地的,如果沒有另外一套海外版,外國人通常在註冊會員這關就卡住了。
結語
聲音自動轉文字、自動上字幕是一種用過就回不去的功能,不只是這個,很多程式自動化都是這樣,雖然功能不可能做到完美,但是習慣之後,就不會想再回到完全由人工處理的模式。
不過講是這樣講,實務上在導入這類東西,經常遇到各種阻礙,不只是預算問題、還有立場問題、人的問題,只適合給有緣人使用。
如果是為了找免費的影片/語音檔轉字幕工具,那可能不好找,這種 AI 產品通常都是要付費的。
這種產品的運作成本很高,光是在公有雲上弄一個可以同時讓至少千人上傳語音檔的線上平台,建立、維護&營運成本已經嚇死一堆人,更別說再加上什麼語音辨識功能。以前還可以免費給使用者用,除了拿投資人的錢之外,真是難以想像背後是怎麼支撐的。剪映後來開始養套殺收費也不意外。
海外地區的像 Good Tape、cSubtitle(香港公司)、Descript 這些,通常只有少少的免費試用額度,付費的話通常每 60 分鐘要台幣幾十~幾百塊不等,或是要付訂閱費,建議依照自己的用量來評估,每個系統之間的辨識品質、工具方便性也各有不同。