
說到用 AI 把語音自動轉成文字,很多朋友第一個想到的就是 WhisperDesktop——安裝簡單、不需要 Python、在 Windows 上直接就能跑 OpenAI Whisper 模型。阿正老師當初也是靠這款軟體入坑的,覺得它真的是一個很方便的工具。
不過最近不少讀者問阿正老師,WhisperDesktop 好像很久沒更新了,還能用嗎?有沒有更好的替代品?這個問題問得非常好!原版 WhisperDesktop(Const-me/Whisper)的最後一個版本是 v1.12.0,停在 2023 年 7 月,之後就沒有再更新了,只支援到 Whisper medium 模型,新一代的 large-v3 和 large-v3-turbo 都用不上。
更需要注意的是:網路上有一個叫 whisperdesktop.com 的網站偽裝成官方,但這是仿冒站,官方 GitHub 已明確警告不要信任該網站!今天阿正老師就來幫大家整理 2026 年最值得安裝的本地語音轉文字工具,完全免費、資料不上傳雲端,隱私有保障。
文章目錄
一、Whisper 是什麼?為什麼需要 GUI 工具?
在介紹各款軟體之前,先幫大家快速科普一下背景。
OpenAI Whisper 是由 OpenAI 在 2022 年開源釋出的語音辨識模型,用了整整 68 萬小時的多語言音訊資料來訓練,支援繁體中文在內的 99 種語言,準確度在當時可以說是業界頂尖。而且它完全免費、可以在自己電腦上執行,不需要花錢使用雲端 API。
但問題來了:Whisper 的官方版本是 Python 程式,要安裝 Python 環境、用命令列操作,對一般使用者來說門檻很高。這就是為什麼會出現各種 GUI(圖形介面)工具來包裝它——讓你點幾下滑鼠就能轉錄音訊,完全不需要打任何指令。

二、Vibe — 最好安裝、最適合新手
| 官方網站 | thewh1teagle.github.io/vibe/ |
| 最新版本 | v3.0.19(2026-03-13) |
| 支援系統 | Windows 10/11、macOS 11+、Linux |
| GPU 加速 | Nvidia、AMD、Intel(可選,純 CPU 也能跑) |
| 費用 | 完全免費,MIT 授權 |
| 軟體下載 | [本站下載點] |
Vibe 是阿正老師目前最推薦給一般讀者的語音轉文字工具。它用 Rust + Tauri 開發,安裝檔大小僅約 44MB(Windows 版),完全不需要安裝 Python 或任何額外套件,下載 .exe 安裝就好,非常乾淨。
安裝完成後,第一次開啟時,軟體會引導你從內建清單下載 Whisper 模型(模型大小從 75MB 到 2.9GB 不等,按需選擇),之後就可以完全離線使用,資料完全不離開你的電腦。

Vibe 支援幾乎所有常見音訊與視訊格式:MP3、MP4、WAV、M4A、MKV、MOV、AVI、FLAC、OGG 等等,透過 FFmpeg 整合處理,不用另外轉格式。匯出格式支援 TXT、SRT、VTT 、HTML、MD…等字幕格式,會議記錄或影片上字幕都很方便。
Vibe 還有一個實用功能是批次轉錄,可以一口氣拖入多個檔案,讓電腦慢慢跑完,省時省力。
此外Vibe還可以直接擷取YouTube影片裡面的聲音,直接下載並轉錄,非常方便喔!

Vibe還提供了一個「總結」功能,可支援Ollama、Claude或其他OpenAI相容API,就能呼叫AI來將轉錄出來的稿子進行總結,省去了還要額外複製貼上到AI服務的步驟。

✅ 優點
- 支援麥克風錄音與系統音訊即時轉錄
- 安裝超簡單,無需 Python 環境
- 支援 GPU 加速,速度快
- 支援幾乎所有音訊/視訊格式
- 支援批次轉錄多個檔案
- 持續更新,2026年3月仍有新版
- 完全免費,MIT 授權
⚠️ 缺點
- 無法直接在各 App 的輸入框「邊說邊打字」(需搭配 Handy STT)
- 繁體中文需要額外設定提示詞(見第七章)
- 模型首次下載需要時間(large 模型近 3GB)
三、Buzz — 功能最齊全的開源老將
| 官方網站 | buzzcaptions.com |
| 最新版本 | v1.4.4(2026-03-14) |
| 支援系統 | Windows、macOS、Linux |
| GPU 加速 | 支援 Vulkan(AMD/Intel/Nvidia 通用) |
| 費用 | 免費開源(MIT);Mac App Store 有付費版 |
| 軟體下載 | [本站下載點] |
Buzz 是開源 Whisper GUI 工具中功能最豐富的一款,由獨立開發者 Chidi Williams 開發,在 GitHub 上累積了大量使用者。它最大的特色是支援多種 Whisper 後端引擎,包括原版 OpenAI Whisper、更快的 whisper.cpp(含 Vulkan GPU 加速)、faster-whisper(速度更快的最佳化版本),以及直接使用 HuggingFace 上的 Whisper 相容模型,甚至也能接 OpenAI Whisper API 雲端處理。
除了轉錄音訊檔之外,Buzz 也支援即時麥克風轉錄——你對著麥克風說話,它就即時顯示文字,還能顯示簡報模式視窗,適合在演講或活動中使用。匯出格式支援 TXT、SRT、VTT、CSV 等多種格式。

✅ 優點
- 支援多種 Whisper 後端,彈性最大
- 支援即時麥克風轉錄
- 支援批次轉錄與多格式匯出
- 支援 Vulkan GPU 加速(跨廠牌通用)
- 可連接 OpenAI API 做雲端轉錄
- 持續更新,社群活躍
⚠️ 缺點
- 介面比 Vibe 複雜,設定選項較多
- Windows 安裝檔未簽署,SmartScreen 會警告
- 即時麥克風轉錄吃資源,不一定跟得上語速
- Mac App Store 付費版與免費版功能有差距
四、Handy — 邊說邊打字的即時語音輸入
| 官方網站 | github.com/cjpais/Handy |
| 最新版本 | 請見 GitHub Releases 頁面 |
| 支援系統 | Windows、macOS(含 Apple Silicon)、Linux |
| AI 模型 | Whisper(GPU 加速)、Breeze ASR、Parakeet V3(CPU 最佳化) |
| 費用 | 完全免費,MIT 授權 |
| 軟體下載 | [本站下載點] |
Handy 的定位和前兩款不一樣——它不是拿來轉錄音訊檔的,而是一款即時語音輸入工具,像一個「離線版的語音輸入法」。
使用方式很簡單:設定好快捷鍵之後,按著快捷鍵說話,放開之後它就會自動把辨識到的文字貼到你目前游標所在的任何輸入框——不管是瀏覽器、Word、記事本、LINE 還是其他 App,都通用。

Handy 除了支援 Whisper 模型(有 GPU 時用)之外,也內建了 Breeze ASR,這是一個針對 台灣華語最佳化的語音辨識模型,就算電腦沒有獨立顯卡,辨識速度也很快。

✅ 優點
- 在任何 App 輸入框都能用,通用性最強
- Breeze ASR模型針對台灣華語進行優化
- 支援 Parakeet V3,無 GPU 也有良好速度
- 以 Tauri(Rust)開發,輕量省資源
- 完全離線、無需帳號
⚠️ 缺點
- 不支援轉錄音訊檔,只能即時麥克風輸入
- Parakeet 模型對繁體中文支援有限
- 定位偏技術用戶,UI 比 Vibe 簡陋
- 較新的工具,長期穩定性待觀察
五、三款工具比一比
| 功能 | Vibe | Buzz | Handy |
|---|---|---|---|
| 轉錄音訊/視訊檔 | ✅ | ✅ | ❌ |
| 即時麥克風轉錄 | ✅ | ✅ | ✅ |
| 自動貼入任意 App | ❌ | ❌ | ✅ |
| 批次轉錄多檔 | ✅ | ✅ | ❌ |
| GPU 加速 | ✅ | ✅ Vulkan | ✅(Whisper) |
| 無 GPU 可用性 | ✅ 慢一點 | ✅ 慢一點 | ✅ Parakeet |
| SRT 字幕匯出 | ✅ | ✅ | ❌ |
| 安裝難度 | ⭐ 最簡單 | ⭐⭐ 一般 | ⭐⭐ 一般 |
| 繁體中文支援 | 需設定 | 需設定 | 需設定(Whisper) |
| 費用 | 免費 | 免費 | 免費 |
六、Whisper 模型怎麼選?
這三款工具都讓你自己選要使用哪個 Whisper 模型。模型越大,準確度越高,但需要的記憶體和時間也越多。以下是各模型的建議指引:
| 模型名稱 | 檔案大小 | 建議 RAM | 中文準確度 | 適合對象 |
|---|---|---|---|---|
| tiny | 75 MB | 2 GB | 普通 | 測試用,不建議實際使用 |
| small | 244 MB | 4 GB | 還不錯 | 舊電腦、低記憶體 |
| medium | 769 MB | 8 GB | 不錯 | 一般電腦,平衡速度與準確 |
| large-v3-turbo | 809 MB | 8 GB | 優秀 | 阿正老師最推薦,速度與準確的最佳平衡 |
| large-v3 | 2.9 GB | 8 GB+ | 最佳 | 高準確度需求、有 GPU 的用戶 |
七、繁體中文辨識的重要設定
這是很多台灣讀者最容易忽略的地方!Whisper 模型預設輸出是簡體中文,如果你轉錄出來發現滿滿都是簡體字,不是軟體壞掉,而是需要做一些設定。

解決方法有兩個方向:
方法一:設定語言為 zh(中文)
在各軟體的設定裡,把語言選為「Chinese」或「zh」,這樣至少可以確保模型專注辨識中文,減少混入英文或日文的情況。
方法二:使用初始提示詞(Initial Prompt)
Vibe 和 Buzz 都有「初始提示詞」或「Prompt」的設定欄位。輸入以下這段文字,可以大幅改善繁體中文的輸出:


以下是用繁體中文(台灣)進行的對話或講述,請使用繁體中文輸出,不要使用簡體字。
八、阿正老師的總結建議
想轉錄會議錄音、訪談、課程音訊的讀者
→ Vibe。安裝最簡單,支援音訊檔轉錄、麥克風錄音與系統音訊擷取,批次處理也有,適合所有人。
想要即時麥克風字幕、演講輔助或更多進階設定的讀者
→ Buzz。功能最完整,但需要多一點設定時間。
想要「說話→自動打字到 App」的語音輸入法體驗
→ Handy。按快捷鍵說話,放開就自動貼字,在任何 App 都能用。
有 GPU 顯卡(8GB+ VRAM)、想要最強準確度的讀者
→ Vibe 或 Buzz 搭配 large-v3-turbo 模型。阿正老師的 RTX 5070 12GB 跑起來飛快。
再也不怕語音資料外洩了!
以前要把錄音上傳到雲端才能轉文字,隱私上總是有點顧慮。現在有了這些工具,開會錄音、醫療記錄、個人日記,全部在自己電腦上跑完,一個字都不會傳到外面,安心很多。阿正老師最推薦的組合是:Vibe 日常轉錄音訊檔、Handy STT 即時語音輸入,兩款都裝起來互補使用,幾乎可以取代所有語音轉文字的需求。
有任何使用心得,或是遇到繁體中文輸出不理想的問題,歡迎在下面留言跟阿正老師分享!



![[2026比較] Ollama vs LM Studio vs Jan — 在自己電腦跑 AI,哪個最好用? [2026比較] Ollama vs LM Studio vs Jan — 在自己電腦跑 AI,哪個最好用?](https://i1.wp.com/image.pcrookie.com/2026/06/31557c313c4d_E403/image.png?w=218&resize=218,150&ssl=1)





