WhisperDesktop 停更了!2026 年最佳本地離線語音轉文字工具推薦(Vibe、Buzz、Handy)

0
64 人次

WhisperDesktop 停更了!2026 年最佳本地離線語音轉文字工具推薦(Vibe、Buzz、Handy)

說到用 AI 把語音自動轉成文字,很多朋友第一個想到的就是 WhisperDesktop——安裝簡單、不需要 Python、在 Windows 上直接就能跑 OpenAI Whisper 模型。阿正老師當初也是靠這款軟體入坑的,覺得它真的是一個很方便的工具。

不過最近不少讀者問阿正老師,WhisperDesktop 好像很久沒更新了,還能用嗎?有沒有更好的替代品?這個問題問得非常好!原版 WhisperDesktop(Const-me/Whisper)的最後一個版本是 v1.12.0,停在 2023 年 7 月,之後就沒有再更新了,只支援到 Whisper medium 模型,新一代的 large-v3 和 large-v3-turbo 都用不上。

更需要注意的是:網路上有一個叫 whisperdesktop.com 的網站偽裝成官方,但這是仿冒站,官方 GitHub 已明確警告不要信任該網站!今天阿正老師就來幫大家整理 2026 年最值得安裝的本地語音轉文字工具,完全免費、資料不上傳雲端,隱私有保障。



一、Whisper 是什麼?為什麼需要 GUI 工具?

在介紹各款軟體之前,先幫大家快速科普一下背景。

OpenAI Whisper 是由 OpenAI 在 2022 年開源釋出的語音辨識模型,用了整整 68 萬小時的多語言音訊資料來訓練,支援繁體中文在內的 99 種語言,準確度在當時可以說是業界頂尖。而且它完全免費、可以在自己電腦上執行,不需要花錢使用雲端 API。

但問題來了:Whisper 的官方版本是 Python 程式,要安裝 Python 環境、用命令列操作,對一般使用者來說門檻很高。這就是為什麼會出現各種 GUI(圖形介面)工具來包裝它——讓你點幾下滑鼠就能轉錄音訊,完全不需要打任何指令。

目前主流的 GUI 工具大多以 whisper.cpp(C++ 重寫版本,效能更好)為底層引擎,比原版 Python Whisper 快很多,而且支援 Nvidia / AMD / Intel GPU 加速,甚至純 CPU 也能跑。

ChatGPT Image 2026年6月8日 下午02_39_21


二、Vibe — 最好安裝、最適合新手

官方網站 thewh1teagle.github.io/vibe/
最新版本 v3.0.19(2026-03-13)
支援系統 Windows 10/11、macOS 11+、Linux
GPU 加速 Nvidia、AMD、Intel(可選,純 CPU 也能跑)
費用 完全免費,MIT 授權
軟體下載 [本站下載點]

Vibe 是阿正老師目前最推薦給一般讀者的語音轉文字工具。它用 Rust + Tauri 開發,安裝檔大小僅約 44MB(Windows 版),完全不需要安裝 Python 或任何額外套件,下載 .exe 安裝就好,非常乾淨。

安裝完成後,第一次開啟時,軟體會引導你從內建清單下載 Whisper 模型(模型大小從 75MB 到 2.9GB 不等,按需選擇),之後就可以完全離線使用,資料完全不離開你的電腦。

image

Vibe 支援幾乎所有常見音訊與視訊格式:MP3、MP4、WAV、M4A、MKV、MOV、AVI、FLAC、OGG 等等,透過 FFmpeg 整合處理,不用另外轉格式。匯出格式支援 TXT、SRT、VTT 、HTML、MD…等字幕格式,會議記錄或影片上字幕都很方便。

Vibe 還有一個實用功能是批次轉錄,可以一口氣拖入多個檔案,讓電腦慢慢跑完,省時省力。

此外Vibe還可以直接擷取YouTube影片裡面的聲音,直接下載並轉錄,非常方便喔!

image

Vibe還提供了一個「總結」功能,可支援Ollama、Claude或其他OpenAI相容API,就能呼叫AI來將轉錄出來的稿子進行總結,省去了還要額外複製貼上到AI服務的步驟。

image

✅ 優點

  • 支援麥克風錄音與系統音訊即時轉錄
  • 安裝超簡單,無需 Python 環境
  • 支援 GPU 加速,速度快
  • 支援幾乎所有音訊/視訊格式
  • 支援批次轉錄多個檔案
  • 持續更新,2026年3月仍有新版
  • 完全免費,MIT 授權

⚠️ 缺點

  • 無法直接在各 App 的輸入框「邊說邊打字」(需搭配 Handy STT)
  • 繁體中文需要額外設定提示詞(見第七章)
  • 模型首次下載需要時間(large 模型近 3GB)
阿正老師點評:Vibe 是最接近 WhisperDesktop 操作邏輯的繼承者,卻比它強得多——支援新版 large-v3-turbo 模型、持續更新、跨平台。除了轉錄音訊檔,也支援直接用麥克風錄音或擷取系統音訊來轉錄,用途非常廣。阿正老師的 M4 Mac Mini 16GB 和 RTX 5070 桌機都試過,GPU 加速之下速度非常快,一分鐘的錄音幾秒就跑完了。最適合想把錄音檔、會議記錄、YouTube 下載音訊快速轉文字的讀者。

三、Buzz — 功能最齊全的開源老將

官方網站 buzzcaptions.com
最新版本 v1.4.4(2026-03-14)
支援系統 Windows、macOS、Linux
GPU 加速 支援 Vulkan(AMD/Intel/Nvidia 通用)
費用 免費開源(MIT);Mac App Store 有付費版
軟體下載 [本站下載點]

Buzz 是開源 Whisper GUI 工具中功能最豐富的一款,由獨立開發者 Chidi Williams 開發,在 GitHub 上累積了大量使用者。它最大的特色是支援多種 Whisper 後端引擎,包括原版 OpenAI Whisper、更快的 whisper.cpp(含 Vulkan GPU 加速)、faster-whisper(速度更快的最佳化版本),以及直接使用 HuggingFace 上的 Whisper 相容模型,甚至也能接 OpenAI Whisper API 雲端處理。

除了轉錄音訊檔之外,Buzz 也支援即時麥克風轉錄——你對著麥克風說話,它就即時顯示文字,還能顯示簡報模式視窗,適合在演講或活動中使用。匯出格式支援 TXT、SRT、VTT、CSV 等多種格式。

image

⚠️ Windows 安裝注意:Buzz 的 Windows 安裝檔沒有簽署,安裝時 Windows SmartScreen 會跳出警告。這是正常現象,並非病毒。點「更多資訊」→「仍要執行」就可以繼續安裝。

✅ 優點

  • 支援多種 Whisper 後端,彈性最大
  • 支援即時麥克風轉錄
  • 支援批次轉錄與多格式匯出
  • 支援 Vulkan GPU 加速(跨廠牌通用)
  • 可連接 OpenAI API 做雲端轉錄
  • 持續更新,社群活躍

⚠️ 缺點

  • 介面比 Vibe 複雜,設定選項較多
  • Windows 安裝檔未簽署,SmartScreen 會警告
  • 即時麥克風轉錄吃資源,不一定跟得上語速
  • Mac App Store 付費版與免費版功能有差距
阿正老師點評:Buzz 是三款工具裡功能最完整的,特別是支援即時麥克風轉錄這點,拿來做演講字幕或即時記錄很實用。設定選項比較多,建議對軟體比較熟悉的讀者選這款。如果只是要轉錄音訊檔,Vibe 會更直觀。

四、Handy  — 邊說邊打字的即時語音輸入

官方網站 github.com/cjpais/Handy
最新版本 請見 GitHub Releases 頁面
支援系統 Windows、macOS(含 Apple Silicon)、Linux
AI 模型 Whisper(GPU 加速)、Breeze ASR、Parakeet V3(CPU 最佳化)
費用 完全免費,MIT 授權
軟體下載 [本站下載點]

Handy 的定位和前兩款不一樣——它不是拿來轉錄音訊檔的,而是一款即時語音輸入工具,像一個「離線版的語音輸入法」。

使用方式很簡單:設定好快捷鍵之後,按著快捷鍵說話,放開之後它就會自動把辨識到的文字貼到你目前游標所在的任何輸入框——不管是瀏覽器、Word、記事本、LINE 還是其他 App,都通用。

image

Handy 除了支援 Whisper 模型(有 GPU 時用)之外,也內建了 Breeze ASR,這是一個針對 台灣華語最佳化的語音辨識模型,就算電腦沒有獨立顯卡,辨識速度也很快。

image

✅ 優點

  • 在任何 App 輸入框都能用,通用性最強
  • Breeze ASR模型針對台灣華語進行優化
  • 支援 Parakeet V3,無 GPU 也有良好速度
  • 以 Tauri(Rust)開發,輕量省資源
  • 完全離線、無需帳號

⚠️ 缺點

  • 不支援轉錄音訊檔,只能即時麥克風輸入
  • Parakeet 模型對繁體中文支援有限
  • 定位偏技術用戶,UI 比 Vibe 簡陋
  • 較新的工具,長期穩定性待觀察
阿正老師點評:Handy 最適合習慣「口述」工作的讀者——寫 email、做筆記、快速記下靈感都很適合。對繁體中文使用者來說,建議選 Breeze ASR、 Whisper small 或 medium 模型,搭配下方繁體中文提示詞設定,效果會好很多。

五、三款工具比一比

功能 Vibe Buzz Handy
轉錄音訊/視訊檔
即時麥克風轉錄
自動貼入任意 App
批次轉錄多檔
GPU 加速 ✅ Vulkan ✅(Whisper)
無 GPU 可用性 ✅ 慢一點 ✅ 慢一點 ✅ Parakeet
SRT 字幕匯出
安裝難度 ⭐ 最簡單 ⭐⭐ 一般 ⭐⭐ 一般
繁體中文支援 需設定 需設定 需設定(Whisper)
費用 免費 免費 免費

六、Whisper 模型怎麼選?

這三款工具都讓你自己選要使用哪個 Whisper 模型。模型越大,準確度越高,但需要的記憶體和時間也越多。以下是各模型的建議指引:

模型名稱 檔案大小 建議 RAM 中文準確度 適合對象
tiny 75 MB 2 GB 普通 測試用,不建議實際使用
small 244 MB 4 GB 還不錯 舊電腦、低記憶體
medium 769 MB 8 GB 不錯 一般電腦,平衡速度與準確
large-v3-turbo 809 MB 8 GB 優秀 阿正老師最推薦,速度與準確的最佳平衡
large-v3 2.9 GB 8 GB+ 最佳 高準確度需求、有 GPU 的用戶
阿正老師建議:大部分讀者直接選 large-v3-turbo 就對了。這個模型是 OpenAI 在 2024 年推出的「精簡大模型」,大小和 medium 差不多(約 800MB),但準確度幾乎跟 large-v3 一樣,是目前最佳的 CP 值選擇。阿正老師的 RTX 5070 12GB 跑 large-v3-turbo,一小時的音訊大約只需要 5 分鐘就轉完了。

七、繁體中文辨識的重要設定

這是很多台灣讀者最容易忽略的地方!Whisper 模型預設輸出是簡體中文,如果你轉錄出來發現滿滿都是簡體字,不是軟體壞掉,而是需要做一些設定。

image

解決方法有兩個方向:

方法一:設定語言為 zh(中文)
在各軟體的設定裡,把語言選為「Chinese」或「zh」,這樣至少可以確保模型專注辨識中文,減少混入英文或日文的情況。

方法二:使用初始提示詞(Initial Prompt)
Vibe 和 Buzz 都有「初始提示詞」或「Prompt」的設定欄位。輸入以下這段文字,可以大幅改善繁體中文的輸出:

image

image

以下是用繁體中文(台灣)進行的對話或講述,請使用繁體中文輸出,不要使用簡體字。
⚠️ 即使設定了提示詞,Whisper 仍可能偶爾輸出簡體字,這是模型本身的限制。如果對繁體中文輸出要求很高,可以轉錄完後用記事本或 Word 的「取代」功能,配合繁簡轉換工具做後處理。

八、阿正老師的總結建議

想轉錄會議錄音、訪談、課程音訊的讀者

Vibe。安裝最簡單,支援音訊檔轉錄、麥克風錄音與系統音訊擷取,批次處理也有,適合所有人。

想要即時麥克風字幕、演講輔助或更多進階設定的讀者

Buzz。功能最完整,但需要多一點設定時間。

想要「說話→自動打字到 App」的語音輸入法體驗

Handy。按快捷鍵說話,放開就自動貼字,在任何 App 都能用。

有 GPU 顯卡(8GB+ VRAM)、想要最強準確度的讀者

→ Vibe 或 Buzz 搭配 large-v3-turbo 模型。阿正老師的 RTX 5070 12GB 跑起來飛快。


再也不怕語音資料外洩了!

以前要把錄音上傳到雲端才能轉文字,隱私上總是有點顧慮。現在有了這些工具,開會錄音、醫療記錄、個人日記,全部在自己電腦上跑完,一個字都不會傳到外面,安心很多。阿正老師最推薦的組合是:Vibe 日常轉錄音訊檔、Handy STT 即時語音輸入,兩款都裝起來互補使用,幾乎可以取代所有語音轉文字的需求。

有任何使用心得,或是遇到繁體中文輸出不理想的問題,歡迎在下面留言跟阿正老師分享!

留下回覆

請輸入你的評論!
請在這裡輸入你的名字