語音逐字稿軟體使用比較 — Vocol.ai 與雅婷逐字稿

Jun 17, 2023

今天我想來分享工作效率化的工具嘗試心得。

在 CMoney，我們每個月會有 1~2 波易用性測試或訪談，視研究的題目多寡、我們訪談的時長會從 30~90 分鐘不等，UX Designer 會在事後花費一倍多的時間寫成逐字稿並提取有價值的資訊，這是個可觀的時間，我們希望透過市面上的 AI 工具來節省此方面的心力，這有機會降低研究執行的門檻進而增加更多執行頻率、幫助我們更加理解使用者；另一方面，我也希望有個工具來代替我撰寫會議或招募電話面試筆記。

雅婷逐字稿是台灣知名的語音辦識軟體，Vocol.ai 則是我在尋找 Otter.ai ( 能整合進 Google Meet / Zoom ) 支援中文辨識的競品時，意外找到的新產品。

我主要的測試對象是 Vocol.ai，雅婷則為部分情境的對照組。以下是我的觀察：

精準度

圖一是一個長達一小時的訪談，右下角是語音辦識後的逐字稿，左下則是 AI 判斷出的重點，圖二則是我們日常的一次 Daily Standup 會議。

( 圖一 ) 1 小時訪談 / ( 圖二 ) 4 分鐘 Daily Standup

Vocol.ai 的斷句精準度較高

以語音辦識而言，Vocol.ai 的確較雅婷精準一些 — 下面 2 張圖是兩者對同一段語音的辨識，可以看到同樣的是我”刻意放慢速度”說的一段話，雅婷的斷句、分段稍微怪了點。

Vocol.ai 容易把多人合併成一人

Vocol.ai 更容易發生把 2、3 個講話者說的話視為同一人的發言 — 明明音色 / 性別都不一樣也有間隔 2 秒鐘，仍容易認為同一人。對照組的雅婷仍有不合理的斷句，但至少不同人說話是區分得出來的。

人工修正彈性

兩個軟體都會為講話者會自動上編號，而使用者 ( 我 ) 則能為他們命名。

這裡的悲劇是 — 因為Vocol.ai 容易發生把 2、3 個講話者說的話視為同一人的發言。而當下圖 ( 01:29 ) 三者之一再次說話時，Vocol.ai 無法把他視為獨立的一次對話。也就是說，當三位講話者的說話內容被合併在一起時，我無法在後面的段絡將他們分開，這對逐字稿的結果會造成誤導，使用者終究得回來聽語音。

AI 報告

Vocol.ai 能幫我們判斷整個錄音中的各個時間區段的談話主題，以讓我們快速跳到我們需要資訊的段落。以訪談那次它會這樣幫我們摘要 :

本文主要討論了網友對於網紅消費行為的看法和經驗。訪問者問及對方對於網紅商品的消費體驗和付費訂閱的看法，對方表示消費體驗不好是不購買的主要原因之一，而付費訂閱需要考慮內容是否有時效性和價值等因素。
網紅影響力：品牌力與實際價值的影響
這段對話主要是討論對於網紅的消費行為，其中訪問者問及對方在美股的工作內容，並詢問對方最近是否有付費購買網紅的產品，對方回答是購買Peta哥哥的乳清，並解釋自己對網紅的信任度和實際價值是購買產品的主要考量因素。此外，對方也提到自己對健身的興趣和學習，以及網紅對自己帶來的價值和影響。
00:00:00->00:06:38
網紅互動：訂閱、留言、付費與回覆
本段摘要描述了一位網友與網紅的消費互動經驗。網友表示自己大部分時間是潛水仔，但有問題時會留言詢問，並且對於網紅回覆與否沒有太大的期望。除此之外，網友也曾與另一位網紅進行過互動，但只是因為好奇而留言，並且得到了快速的回覆。網友也表示有考慮付費訂閱某些網紅的內容，但價格與內容的價值仍需考量。最後，網友也提到自己有觀看直播，但並不會經常進行互動。
00:06:38->00:13:06

而我們的 Standup meeting 則因為時間較短所以被總結為一段 :