用 AI 整理會議記錄? 現代問題要用現代手段

在數位轉型加速師 COVID-19 的努力,還有科技的進步下,大家對於線上會議、線上活動的接受度和使用經驗提高不少。
開會討論可以不用在現場面對面,只要戴上耳機,在電腦平板手機上點擊 Google Meet 或其他通訊軟體連結就好;參加一些研討會、演講、課程、產品說明會也不用到現場,主辦單位會用一些社群平台開線上直播,或是先開放報名,再用 Google Meet 之類的線上會議軟體邀請報名者登入會議室。

整個會議的畫面、音訊都在電子設備上面了,那要做會議記錄、做演講筆記,還用手寫或聽打的嗎? 現代問題要用現代手段,也許可以有不同的思路。


迷因圖出自 Chappelle’s Show

這裡沒有要探討會議記錄的意義是什麼,或是會議要包含目標、議程、會後行動之類的哪些內容;抄演講筆記有什麼技巧,手寫能否增強記憶力…之類的教育學習理論,一切都是為了不要花費時間在抄寫和回想上,不要花寶貴的人力在做機器做的事。

新會議紀錄法的思路有 3 步:

1.用螢幕錄影軟體把整個線上會議或演講畫面錄下來
2.用辨識軟體把圖像和音訊內容轉成電子文字檔
3.整理紀錄(人工整理,或是用一些基於 AI GPT 技術的軟體來輔助)

這個 idea 不是腦洞大開

國外有個線上筆記軟體叫飛書,裡面的妙記有類似的功能,可以將影片中的音訊轉成文字,自動產生時間軸,使用者可以很快搜尋到找到哪支影片幾分幾秒有出現要找的關鍵字,但是它無法讀取私密影片或電腦本地的影片,影片要整部傳到網路上(例如 YouTube)才能處理,隱私性不佳。

國外還有一個 AI 新創 Otter.ai,可以把會議錄音檔,或是把它的機器人加到 Zoom, Microsoft Teams, and Google Meet 會議中,從語音自動產生逐字稿和時間軸,不過只能辨識英文,免費版的會議使用期間跟每月上限時間很短。

國外還有另一個 Rewind.ai估值 7500 萬美元的新創公司,他們的產品就是把這件事做得更全面,網站 slogan 是「The Search Engine For Your Life」,大致會把整天的電腦操作紀錄下來,然後用 AI 程式解析內容,為整天使用數位設備的人類可以隨時「倒帶」和「搜尋」每天聽過、說過、看過的內容。

但目前軟體需要排隊加入等待清單,訂閱費用大約是每個月 $30~50 美金,而且為了保護隱私,資料不會上傳到任何雲端伺服器,全程都仰賴電腦本機的高性能設備處理,並且限定 Apple Silcon(M1, M2 CPU) 的 macOS 設備。

運作環境有限制,價格也不低,排隊也排不到,身為 Windows 用戶,對於這個功能當然是很感興趣,嘗試用一些之前的技能和用過的工具,達成類似的目標,讓工作更輕鬆。

以下把這個需求拆解成更細的實作內容:

1.用螢幕錄影軟體把整個會議或演講畫面錄下來

如果是用最常見的 Google Meet 開會,有時候壓根遍尋不著 Google Meet 錄影的小按鈕,因為要 Google Workspace 版本使用者主辦的會議,右下角工具列才會有「錄製會議」的按鈕,錄完的影片會擺在 Google 雲端硬碟的「我的雲端硬碟」>「Meet Recordings 」裡面,但如果是免費 Google 帳號開的,就沒這功能,只能另外安裝其他第三方軟體。

而且 Google Meet 免費版一場會議只能開 60 分鐘,教育版二週不能超過 336 小時,開會開太久又更麻煩了。

一個 Google Meet 就這麼麻煩,如果碰到別的會議軟體,又要再重新找怎麼錄影、保存記錄? 如果用手機對螢幕拍照或錄影,不只畫質不好,還會拍到摩爾紋。萬事起頭難,不要在第一步就被打敗了,不如直接用功能強大的螢幕錄影軟體 EaseUS RecExperts 吧!

我也曾經在 Google 「電腦螢幕錄影」,幾乎第一頁的軟體都下載來試用了一遍,都還是有點不滿意,最後還是用了EaseUS RecExperts,它的主畫面長這樣

有人可能想,Windows 10 都有內建電腦螢幕錄影,按下鍵盤上的 Windows 按鍵+G 就能叫出來一個 XBox Game Bar,但是這個 Game Bar 功能很陽春。

網路上一些其他的螢幕錄影軟體也會碰到一些不太好用的痛點,例如:

  • 免費版錄沒多久就會自動停止然後跳出購買視窗,或是畫面正中間有大大的浮水印,畫質很差,或是多螢幕只能錄到其中一個之類的。
  • 沒辦法只錄影某塊螢幕區域,或是放在付費功能裡,這就變成錄影完還要進剪輯軟體做處理,裁掉不必要的錄影畫面範圍,剪接片段、加工、等待影片輸出,都相當花時間。
  • 有的螢幕錄影錄完之後還要註冊會員,綁定雲端硬碟空間,錄影檔案會放在裡面,還要花不少時間把檔案下載回來
  • 想要有繪圖功能,幫螢幕上正在放的 PPT 或操作畫面畫重點,不要用後製的

EaseUS RecExperts 是免費下載的,而且免費版就有畫筆工具可以用,影片沒有浮水印,除了輕鬆解決上述那些問題,另外這些功能也都是免費的:

  • 可以選擇指定大小的螢幕區域(自己拉滑鼠拖曳範圍或是打數字)
  • 可以選擇只錄某個視訊鏡頭
  • 可以選擇只錄某個麥克風的音訊
  • 可以直接選錄影畫質,不用錄完再另外轉檔、壓縮
  • 可以設定錄製時隱藏 RecExperts 軟體工具列
  • 可以設定錄影時自動隱藏開始工具列和桌面圖示
  • 遊戲錄影功能

另外付費版多了以下功能,在很多地方都可以派上用場
– 預約錄製: 預約時間開始自動錄影,錄完自動關機

  • 自動停止: 可以自己設定錄到幾點自動停止,或是一小時自動停止…之類的。
  • 自動分割: 可以自己設定一小時一個檔案、4.7GB 一個檔案…之類的。

  • 內建影片剪輯工具,可以直接保留中間某段就好

  • 想增加片頭跟片尾,不用花時間進剪輯軟體,錄影完直接處理好

  • 技術支援,不會用的時候可以問客服
  • 麥克風音量增強與降噪
  • 自動把音訊另外存一個檔

甚至還可以直接側錄 YouTube 之類的線上影片…

錄影錄完了,接著要把內容抓出來

2-1.用 FFMpeg 把影片轉成圖片

談到影片檔案處理,當然就是 FFMepg,免費又強大,操作步驟大概如下
– Windows 使用者可以參考 How to Install FFmpeg on Windows 把程式指令設好
– 在錄好的影片資料夾網址列輸入 cmd 然後按 Enter,會跳出命令提示字元的視窗
– 使用指令 ffmpeg -ss 00:00 -i 影片檔名.mp4 -f image2 -r 1 -t 02:45 %03d.jpg
– 按下 Enter,等待幾秒後,會在資料夾躺著一堆自動解好的影片截圖

檔名.mp4 要自己改掉, -r 後面的 1 表示每幾秒影片截一張圖,-t 表示結尾時間,%03d 表示3位數流水號,其餘博大精深的指令可以參考 ffmpeg Documentation

2-2.用 AI OCR 把圖片裡的字抓出來

把圖片裡的文字抓出來,要找圖片 OCR 轉成中文字的軟體,除了可以用付費的 Adobe Acrobat 之外,為了讓整個流程更高度自動化,減少手動操作,在之前 5 個替代 Heroku 的平台免費測試執行 ASP.Net Core 的文字辨識 OCR 程式 有用過 Google Cloud 的 Vision AI 服務,但這次網頁串接程式只佈署在電腦本機,不然我可付不起線上伺服器對於辨識前後的圖文資料的儲存費用和傳輸費用。

這邊可能會遇到 3 個問題
a.直接錄全螢幕很可能會錄到一些不相干的區域
像是瀏覽器工具列的文字,開始工具列上的文字、與會者的人名之類的,錄影前可以先用 RecExperts 的指定錄影區域功能,只錄下有內容的區域即可

b.要辨識的圖太多
30分鐘的會議,1秒轉出1張圖,這樣就有 1800 張圖要辨識,Google 的程式只有每月前一千次免費,圖片越多張就要花越多錢。
可以手動將重複內容的圖片刪掉,或是調整上方影片轉圖片 ffmpeg 的操作指令,例如改成5秒擷一張 ffmpeg -ss 00:00 -i 影片檔名.mp4 -f image2 -r 5 -t 02:45 %03d.jpg
或是改成神奇的 vsync 抽取關鍵影格模式,大致可在每次 PPT 換頁的時候自動擷取一張 ffmpeg -i 影片檔名.mp4 -vf select="eq(pict_type,I)" -vsync 0 -an -y %03d.jpg

c.辨識內容可能有錯字、格式很複雜
這個就只能手動校對修正啦

3.把影片聲音用 AI 語音辨識,轉成逐字稿

在之前的文章 注意看 這個男人太狠了 中國電影解說語音素材和背景音樂BGM 嘗試過自動幫影片上中文字幕的工具,這次不是要上字幕,所以用別的工具。

音訊 mp3 轉文字,推薦使用國產的雅婷逐字稿,網站首頁的文案說不用擔心言論被審查、或者數位足跡被追蹤、販售。我們尊重你的資料和隱私,不會將你的資料和記錄賣給第三方廣告跟組織。

要把會議錄影影片中的聲音存成 mp3,那還要再花時間轉檔嗎? 其實不用,使用 EaseUS RecExperts 進行會議錄影前,可以啟用「儲存額外的音訊檔案」的選項(如下圖),錄影完畢後直接就有一個 mp3 檔案。

google meet 錄音有很多種方式,但最重要的音源本身,參加線上會議的與會者不一定都是直播主或專業的線上課程講師,可能收音設備會收到一堆呼氣聲或是背景不相干的雜音,這邊可以使用 RexExperts 的智慧降噪功能,取得清晰的聲音,降低語音辨識的錯誤機率。

有時候碰到某些與會者的聲音比較小聲,錄影中也可以隨時調整音量

4.整理紀錄,或是直接搜尋

到此步驟,基本上已經得到會議的圖片、語音的逐字稿、會議螢幕中出現的文字。會議記錄可能有規定的格式,如果是聽演講或上課,要把資料統整到知識與任務管理工具,方法又不一樣了,整理就只能靠自己啦!
另外不少會議或演講內容是禁止公開外傳的,請注意智慧財產權,不是每個人都能像一些 KOL 一樣把心理諮商還是啥的筆記整理後拿出來賣。

會議做記錄、演講做筆記,一些看似小小的需求,在裡面也有不少學問,像是還有一個職業叫速錄師,專門用於在重要會議即時聽打文字,在法院裡,書記官甚至還會使用專門的追音輸入法記錄內容。

本文介紹的好用螢幕錄影軟體 EaseUS RecExperts ,一次買一年的話,平均每個月只要 100 元,終身版(免費升級)只要 2100 元,公司企業大量授權用途有更方便的計費方案,可以聯絡 EaseUS 的客服。

5.額外加更:用 ChatGPT 或 Notion AI 整理會議記錄

近期 LLM 這種語言專長的 AI 模型非常熱門,剛好可以在整理會議記錄的用途更上一層樓,底下介紹兩個。

ChatGPT

上述介紹用一些方式產生音檔或畫面的逐字稿之後,接著可以人工把文字分成幾個大段,
因為 ChatGPT 的輸入框跟回覆內容字數有限制,所以沒辦法在輸入框一次全部貼完,也不要想說貼 Google Docs 網址直接讓它抓,ChatGPT 的官方 FAQ 有說 ChatGPT 是不連網的(ChatGPT is not connected to the internet)。

分段貼到 ChatGPT 裡面,然後用類似以下的命令,可以做出總結、修內容、列大標題…之類的需求。
「請將以下內容整理成幾項重點」
「請將以下內容修改成比較通順的文字」
「請將以下內容做一個簡短的總結」

但是要小心有時候 AI 會無中生有,亂創造內容,內容一定要真人再檢查。

Notion AI

Notion 是一個這一兩年相當熱門,有點類似的 EverNote 或 OneNote 的雲端筆記軟體。
Notion AI 則是裡面的一個新功能,之前免費公測,最近開始正式上線並變成收費功能(每個人頭8美元/月),直接把它的功能選單擷圖給大家看:

notion ai function list

把文字內容貼到它的編輯區後,選單裡有個 Ask AI,然後就可以看到上面的那些功能,簡單介紹幾項:
– 總結文字
– 列出待辦事項/行動項目
– 修正英文拚字
– 續寫、簡化、改寫內容口吻…等等

因為 Notion 是筆記軟體,不用像 ChatGPT 那樣人工一段一段貼進去,回答完了再人工把 AI 給的答案複製出來,使用流程應該會更方便。直接把連結共享給別人也很方便。
更多資訊可以參考官方說明 Using Notion AI to extend your impact

Edge Dev

一個網頁瀏覽器跟整理會議記錄有啥關係?
微軟在 2022/2 發布的新功能中,對搜尋引擎和瀏覽器都加入的這種 AI 語言工具功能,可以在網頁側邊工具欄做到重點摘要,改寫文稿之類的需求。
目前是免費的,不過要加入測試名單,排到了才有機會試用。

更多內容可參考本站文章 New Bing 的聊天搜尋功能觀察與 SEO 的猜想

近期熱門 Hot Posts