利用 Whisper 對無字幕影片和 Podcast 產生逐字稿以進行文字摘要的方法

Getter Chen
Jul 24, 2023

--

為了更高效地吸收知識、處理資訊焦慮症,我正在使用 AI 摘要的方式來在詳讀文章或觀看影片前先做判斷它是否有我想要的資訊。

我之前在《Claude 2 — 超長文本處理 AI》文章中分享了使用 Chrome Extension — “YouTube & Article Summary ”來摘要全頁文章或 YouTube 影片內容的方法。

這個方法對於英文影片效果很好,讓我在數週的時間內大幅提升了學習效率,但僅限於已有字幕檔的 Youtube 影片。我這次想分享的則是沒有字幕檔、或我想摘要的根本不是 Youtube 影片而是其他多媒體,利如別的教學平台內容或 Podcast 時,如何過 Whisper.ai 幫我完成逐字稿的部分工作。

Whisper.ai

Whisper 也是由 ChatGPT 的開發商 OpenAI 所提供,它是一套用於語音辨識的人工智慧工具。透過使用Whisper,我能夠很好地對音頻進行轉換,獲得逐字稿。然而,執行 Whisper 需要使用 Python 環境中,而我並不熟悉Python。幸運的是,我找到了一些懶人包,可以幫助我快速使用Whisper。

WhisperDesktop

第一種方式是使用免安裝的桌面應用,這個方法讓我不用進行繁瑣的安裝步驟,直接在我的電腦上運行Whisper。透過 The walking fish 步行魚的《【WhisperDesktop】免安裝版Whisper 無須安裝便可使用》,我學會了此方法。不過此方法只能用在 Desktop 上、且實際使用後我發現產出逐字稿的品質不穩定 — 可能是我在產逐字稿的同時也在用電腦上網的關係。

在我自己的電腦上轉檔時,約是每 5 分鐘音訊花 1 分鐘轉逐字稿,費時部分可能會因使用者的硬體等級不同而異。

利用 Whisper.ai 對 3 小時與 1.5 小時長度的影片各自轉檔的費時。

Google Colab + Whisper

某個Kevin 的《線上免費語音辨識成字幕或文字:Google Colab+OpenAI Whisper》中則提供了另一個方法 — 使用 Google Colab 運行 Whisper。

詳細的說明請去看 Kevin 的說明,在他的 Youtube 中有提供打包好的雲端執行檔 — 直接在線上複製到自己的 Google Drive 就可在雲端使用。用此方法轉檔的費時和我用 Whisper 桌機版時差不多,但對同一支 mp3 轉檔的品質,Colab 版就好得多 — 下圖是我用 Colab 版和桌機版的逐字稿結果,可以看到桌機版不明原因的在前 20 分鐘沒有正常判斷,且在 20:42 時也會有重複讀句子的問題。

左圖 : Colab + Whisper / 右圖 : Wisper desktop

輸出的檔案是帶有時間戳的逐字稿。儘管其中可能會有一些錯誤的辨識,但整體來說並不影響使用。將這些逐字稿連同時間戳提交給之前介紹過的Claude AI,就能讓它來幫我生成完善的摘要。

使用 Whisper 的前置動作 — 將 Youtube 影片 / Podcast 語音取出

無論是使用 WhisperDesktop 還是 Colab,我都需要先取得目標的 mp3/mp4 檔案,這時需要使用 https://www.backupmp3.com/zh/ 之類的工具,整個作業流程還是頗為多步驟 — 如果只是為了鑑定影片和 Podcast 值不值得細細收聽的話,目前我達到的程度仍然是繞了遠路,只能說我幫自己打開了一種備用的手段。

本次嘗試的對象是三個黑色來源

不過,當我在取得無逐字稿的 Youtube 或其他錄音檔時,其實可以使用之前嘗試過的 ReccapVocol.ai 來替我完成任務。

總體而言,利用 Whisper 和 Google Colab 來優化 YouTube 影片摘要的方法是一次我自己對新技術的探索。Google Colab 同用可用於執行 Stable diffusion 的運行、以及利用它來學 Python 與爬蟲操作。

以上是本次的分享,感謝閱讀。

--

--

Getter Chen

Getter, a 10-year product design expert. Blend design thinking and tech to drive innovation across SaaS, e-commerce, and ads. Former CMoney Design Lead.