
2026 年 6 月 3 日,Google DeepMind 悄悄又丟出一顆炸彈——Gemma 4 12B 正式發布了!這次的更新幅度讓阿正老師看到後忍不住馬上跳起來測試,因為它帶來了一個在 AI 圈裡非常少見的設計:把傳統的視覺編碼器和音訊編碼器整個拿掉,讓圖片、影片、聲音直接「丟」進語言模型處理,不但架構更簡潔,連延遲也大幅降低。
更重要的是,這個模型完全免費、採 Apache 2.0 授權(就是說連商業用途都 OK),而且只需要 16GB 的 VRAM 或統一記憶體(Unified Memory)就能在自己的電腦上跑起來。阿正老師的 M4 Mac Mini 16GB 剛好就在門檻上,測試起來流暢度讓我滿意。如果你有 RTX 顯卡或 Apple Silicon Mac,這篇絕對值得一讀!
這篇文章阿正老師會完整介紹 Gemma 4 12B 的架構特色、它能做什麼、怎麼在你的電腦上跑起來,以及哪種人最適合使用它。
文章目錄
一、Gemma 4 12B 是什麼?在 Gemma 家族的定位
Gemma 是 Google DeepMind 推出的開源 AI 模型系列,從 2024 年第一代發展到現在,已經累積超過 1.5 億次下載,Hugging Face 上更有超過 7 萬種衍生版本。簡單來說,它是目前開源 AI 生態裡最受開發者歡迎的模型家族之一。
Gemma 4 系列在 2026 年 4 月 2 日推出時,原本包含四種尺寸:E2B(2B)、E4B(4B)、26B MoE、31B Dense。而 Gemma 4 12B 的出現,剛好填補了 E4B 和 26B 之間的空缺——給那些 E4B 覺得太小、26B 又跑不動的用戶一個完美的中間選擇。
Google 剛發布!Gemma 4 完整介紹 + 用 Ollama 在自己電腦跑起來教學(2026 最新)
| 官方網站 | blog.google — Gemma 4 12B |
| 發布日期 | 2026 年 6 月 3 日 |
| 參數量 | 約 119.5 億(~12B) |
| 架構 | Decoder-Only,無編碼器統一架構 |
| 支援輸入 | 文字、圖片、影片、音訊 |
| 授權 | Apache 2.0(免費,可商用) |
| 費用 | 完全免費 |
| 下載途徑 | Hugging Face、Kaggle、Ollama、LM Studio |
| 軟體下載 | [Ollama本站下載點] |
二、最大亮點:無編碼器(Encoder-Free)架構是什麼意思?
這個詞乍看很技術,但阿正老師用白話解釋一下。傳統的多模態 AI(就是能看圖、聽聲音的 AI)通常是這樣運作的:先用一個「視覺編碼器」把圖片翻譯成數字,再用一個「音訊編碼器」把聲音翻譯成數字,最後才把這些數字丟給語言模型(LLM)來理解。
問題是,這三個模組分開跑,不但佔記憶體,延遲也高。Gemma 4 12B 的做法是:把編碼器整個拿掉,直接讓圖片像素和音訊波形「原汁原味」地進入語言模型本體處理。這個設計讓整個架構更精簡,也讓 fine-tune(微調)的時候方便很多,因為你只需要調整一套權重,不用同時管三個模組。
具體來說,它的視覺處理模組只有 3,500 萬參數(比傳統方法輕了好幾倍),音訊則是把每 40 毫秒的 16kHz 音訊切成一段,直接線性投影進模型——簡單、快速、有效。
三、支援四種輸入:文字、圖片、影片、音訊
Gemma 4 12B 是目前 Gemma 家族中第一個中型尺寸同時支援音訊輸入的模型(之前只有 E2B 和 E4B 這種小型版本才有音訊功能)。整體來說,它支援以下四種輸入模式:
- 文字:對話、問答、寫作、程式碼生成、多語言(支援 140+ 語言)
- 圖片:圖像辨識、OCR 文字識別、圖表分析、視覺問答
- 影片:以每秒 1 幀方式處理影片內容,可分析長達數分鐘的影片
- 音訊:語音辨識(ASR)、說話者識別(Diarization)、語音理解
Google 官方展示了一個很酷的例子:用 Gemma 4 12B 分析一段 5 分鐘的 Google I/O 大會影片(313 幀圖片+完整音訊),模型能夠準確理解影片內容,並回答有關畫面與對話的問題。
另一個展示則是讓模型直接寫出一個「可以讓自己(Gemma 4 12B)處理圖片的 Gradio 應用程式」,也就是說,這個模型既是工程師,也是它自己寫的程式的執行引擎!
四、硬體需求:我的電腦跑得動嗎?
這大概是大家最想知道的問題!Gemma 4 12B 的官方最低需求是 16GB VRAM 或統一記憶體。以下是不同硬體情境的整理:
| 硬體 | 能跑嗎? | 建議量化版本 |
|---|---|---|
| RTX 4070 / RTX 5070(12GB VRAM) | ✅ 可(需 Q4 量化) | Q4_K_M(約 8GB) |
| RTX 3090 / 4090(24GB VRAM) | ✅ 輕鬆跑 | Q5_K_M 或 Q8 |
| Apple M4 Mac Mini 16GB | ✅ 可(統一記憶體共享) | Q4_K_M 或 MLX 版本 |
| Apple M4 Mac Mini 24GB+ | ✅ 流暢 | Q5 或 BF16 |
| RTX 3060 / 4060(8GB VRAM) | ⚠️ 勉強(部分吃 CPU 記憶體) | Q3_K_M 以下 |
| 單純 CPU(無獨顯) | 可以但非常慢 | Q4 以下(需 32GB RAM) |
阿正老師的 AMD R7 5800x + RTX 5070 12GB 桌機跑 Q4_K_M 版本,速度大約落在 15~20 tokens/秒,日常對話完全沒有問題,用來處理圖片問答也很流暢。我用Mac Mini 4 (16GB) 及 M5 Macbook Air 24GB 用 MLX 版本,速度分別是 15 及 12 tokens/秒上下,速度大約只有E4B的三分之一,勉強還可以接受。
llmfit 幫你一鍵掃描硬體,精準推薦最佳本機 LLM!
五、怎麼用 Ollama 或 LM Studio 跑起來
Gemma 4 12B 已經上架 Ollama (需更新到 0.30版以上)和 LM Studio,安裝非常簡單。以下分兩種方式介紹:
方法一:Ollama(指令列,最快速)
如果你已經安裝 Ollama,只需要一行指令(Windows):
ollama run gemma4:12b
macOS的使用者則輸入:
ollama run gemma4:12b-mlx
不過目前可能是因為Model太新了,官方的版本還沒放上去,Windows使用者可以先用第三方模型::
ollama run igorls/gemma-4-12B-it-heretic-GGUF

Ollama 會自動下載預設的 Q4_K_M 量化版本(約 7.4GB),下載完就可以直接開始對話。如果你有更多 VRAM,想要更高品質,可以指定:
# Q8 高品質版(需約 14GB VRAM)
ollama run igorls/gemma-4-12B-it-heretic-GGUF:Q8_0
除了終端機模式之外,Ollama的終端機界面其實好用很多,一樣可以執行Gemma4-12B:
方法二:LM Studio(圖形介面,最簡單)
打開 LM Studio,在搜尋框輸入「gemma4」,就可以找到 Gemma 4 12B 的各種量化版本。選擇適合你顯示卡 VRAM 的版本下載,然後按「Load Model」就完成了,完全不用打任何指令。
Ollama vs LM Studio vs Jan — 在自己電腦跑 AI,哪個最好用?

方法三:LiteRT-LM(Google 原廠工具)
Google 同步推出了官方的本地推理工具 LiteRT-LM,可以把 Gemma 4 12B 當成一個 OpenAI 相容的本地 API 伺服器來跑,方便整合到各種應用程式:
# 從 Hugging Face 下載模型
litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm gemma-4-12B-it.litertlm gemma4-12b
# 啟動本地 API 伺服器
litert-lm serve
啟動後,就可以用任何支援 OpenAI API 的工具(例如 Continue 插件、OpenCode 等)連上這個本地模型使用,完全不需要網路。
六、macOS 用戶專屬:原生桌面 App 體驗
這次 Gemma 4 12B 的發布,Google 特別針對 Mac 用戶推出了兩款原生桌面 App,讓你不用碰終端機也能體驗本地 AI:
- Google AI Edge Gallery(macOS 版):原本只有手機版,現在擴展到桌面平台。支援在對話中直接執行 Python 程式碼、繪製科學圖表,全程離線、不需上傳資料到雲端。
- Google AI Edge Eloquent:主打語音對話輸入,用 Gemma 4 12B 支援語音轉文字編輯功能,適合用語音控制電腦的用戶。
阿正老師在 M4 Mac Mini 上試了 Google AI Edge Gallery,整體體驗比想像中好,UI 設計也比較友善,適合不喜歡打指令的一般用戶。

七、優點與缺點總整理
✅ 優點
- 完全免費,Apache 2.0 授權可商用
- 無編碼器架構讓延遲更低、記憶體更省
- 同時支援文字、圖片、影片、音訊四種輸入
- 12B 體積適中,16GB 記憶體即可本地執行
- 支援 Ollama、LM Studio、llama.cpp、MLX 等主流工具
- fine-tune 更簡單,只需調整一套權重
- macOS 原生 App 對一般用戶非常友善
⚠️ 缺點
- 16GB 門檻對部分用戶仍有一定要求
- 音訊功能尚在成熟中,語言支援不如文字廣
- 無編碼器是新架構,社群微調案例還在累積
- 對比 26B MoE 或 31B Dense,推理能力仍有差距
- LiteRT-LM 工具對非技術用戶上手難度稍高
八、阿正老師的總結:這個模型適合你嗎?
Gemma 4 12B 是一個定位非常明確的模型:給有一定硬體、但不想花錢訂閱雲端 AI、又希望能處理多種輸入的用戶。它不是最強的,但在免費開源的世界裡,12B 這個尺寸能同時搞定文字、圖片、影片、音訊,而且還設計得這麼精巧,阿正老師認為相當難得。
你有 16GB 以上 GPU 或 Mac,想跑免費的多模態本地 AI
→ Gemma 4 12B。現在最值得試的 12B 級開源模型,沒有之一。
你只有 8GB 顯卡,預算有限
→ Gemma 4 E4B(4B)。跑得更輕鬆,功能也不差,是大多數人最實際的選擇。
你完全不想打指令,只想有個 AI 聊天介面
→ LM Studio + Gemma 4 12B。全圖形介面,下載模型像在用 App Store 一樣簡單。
你是 Mac 用戶,想要最簡單的本地 AI 體驗
→ Google AI Edge Gallery App。下載就能用,不需要任何設定,離線執行不上傳資料。
免費、本地、多模態——Gemma 4 12B 值得一試!
Google 這次用 Gemma 4 12B 示範了一件事:開源 AI 不一定要犧牲效能,架構設計做對了,一樣可以在輕量的硬體上跑出讓人驚喜的多模態能力。阿正老師已經把它設定為日常工作的輔助模型之一,尤其是需要分析圖片或語音的任務,它的表現讓我相當滿意。
如果你還沒有試過在自己電腦上跑 AI 模型,Gemma 4 12B 搭配 Ollama 或 LM Studio 絕對是一個很好的入門起點。所有資料都在自己電腦裡,不用擔心隱私洩漏,也不用每個月付訂閱費——這才是阿正老師最愛的用法!
你試過了嗎?跑起來的速度怎麼樣?歡迎在下面留言跟阿正老師分享!











