AI相關

Google 免費開源 AI 新突破！Gemma 4 12B 無編碼器架構，16GB 記憶體筆電就能跑（2026 最新）

2026 年 06 月 04 日

4,658 人次

2026 年 6 月 3 日，Google DeepMind 悄悄又丟出一顆炸彈——Gemma 4 12B 正式發布了！這次的更新幅度讓阿正老師看到後忍不住馬上跳起來測試，因為它帶來了一個在 AI 圈裡非常少見的設計：把傳統的視覺編碼器和音訊編碼器整個拿掉，讓圖片、影片、聲音直接「丟」進語言模型處理，不但架構更簡潔，連延遲也大幅降低。

更重要的是，這個模型完全免費、採 Apache 2.0 授權（就是說連商業用途都 OK），而且只需要 16GB 的 VRAM 或統一記憶體（Unified Memory）就能在自己的電腦上跑起來。阿正老師的 M4 Mac Mini 16GB 剛好就在門檻上，測試起來流暢度讓我滿意。如果你有 RTX 顯卡或 Apple Silicon Mac，這篇絕對值得一讀！

這篇文章阿正老師會完整介紹 Gemma 4 12B 的架構特色、它能做什麼、怎麼在你的電腦上跑起來，以及哪種人最適合使用它。

文章目錄

Gemma 4 12B 是什麼？在 Gemma 家族的定位
最大亮點：無編碼器（Encoder-Free）架構是什麼意思？
支援四種輸入：文字、圖片、影片、音訊
硬體需求：我的電腦跑得動嗎？
怎麼用 Ollama 或 LM Studio 跑起來
macOS 用戶專屬：原生桌面 App 體驗
優點與缺點總整理
阿正老師的總結：這個模型適合你嗎？

一、Gemma 4 12B 是什麼？在 Gemma 家族的定位

Gemma 是 Google DeepMind 推出的開源 AI 模型系列，從 2024 年第一代發展到現在，已經累積超過 1.5 億次下載，Hugging Face 上更有超過 7 萬種衍生版本。簡單來說，它是目前開源 AI 生態裡最受開發者歡迎的模型家族之一。

Gemma 4 系列在 2026 年 4 月 2 日推出時，原本包含四種尺寸：E2B（2B）、E4B（4B）、26B MoE、31B Dense。而 Gemma 4 12B 的出現，剛好填補了 E4B 和 26B 之間的空缺——給那些 E4B 覺得太小、26B 又跑不動的用戶一個完美的中間選擇。

如果你還不熟悉 Gemma 4 家族，阿正老師之前有寫過一篇完整的介紹文，搭配 Ollama 安裝教學一起看效果更好：

Google 剛發布！Gemma 4 完整介紹 + 用 Ollama 在自己電腦跑起來教學（2026 最新）

官方網站	blog.google — Gemma 4 12B
發布日期	2026 年 6 月 3 日
參數量	約 119.5 億（~12B）
架構	Decoder-Only，無編碼器統一架構
支援輸入	文字、圖片、影片、音訊
授權	Apache 2.0（免費，可商用）
費用	完全免費
下載途徑	Hugging Face、Kaggle、Ollama、LM Studio
軟體下載	[Ollama本站下載點] [LM Studio本站下載點]

二、最大亮點：無編碼器（Encoder-Free）架構是什麼意思？

這個詞乍看很技術，但阿正老師用白話解釋一下。傳統的多模態 AI（就是能看圖、聽聲音的 AI）通常是這樣運作的：先用一個「視覺編碼器」把圖片翻譯成數字，再用一個「音訊編碼器」把聲音翻譯成數字，最後才把這些數字丟給語言模型（LLM）來理解。

問題是，這三個模組分開跑，不但佔記憶體，延遲也高。Gemma 4 12B 的做法是：把編碼器整個拿掉，直接讓圖片像素和音訊波形「原汁原味」地進入語言模型本體處理。這個設計讓整個架構更精簡，也讓 fine-tune（微調）的時候方便很多，因為你只需要調整一套權重，不用同時管三個模組。

具體來說，它的視覺處理模組只有 3,500 萬參數（比傳統方法輕了好幾倍），音訊則是把每 40 毫秒的 16kHz 音訊切成一段，直接線性投影進模型——簡單、快速、有效。

⚠️ 「無編碼器」不代表模型能力變差！反而因為所有輸入共用同一套權重，在需要跨模態理解（例如同時分析一段影片的畫面和聲音）的任務上表現更一致，延遲也更低。

三、支援四種輸入：文字、圖片、影片、音訊

Gemma 4 12B 是目前 Gemma 家族中第一個中型尺寸同時支援音訊輸入的模型（之前只有 E2B 和 E4B 這種小型版本才有音訊功能）。整體來說，它支援以下四種輸入模式：

文字：對話、問答、寫作、程式碼生成、多語言（支援 140+ 語言）
圖片：圖像辨識、OCR 文字識別、圖表分析、視覺問答
影片：以每秒 1 幀方式處理影片內容，可分析長達數分鐘的影片
音訊：語音辨識（ASR）、說話者識別（Diarization）、語音理解

Google 官方展示了一個很酷的例子：用 Gemma 4 12B 分析一段 5 分鐘的 Google I/O 大會影片（313 幀圖片＋完整音訊），模型能夠準確理解影片內容，並回答有關畫面與對話的問題。

另一個展示則是讓模型直接寫出一個「可以讓自己（Gemma 4 12B）處理圖片的 Gradio 應用程式」，也就是說，這個模型既是工程師，也是它自己寫的程式的執行引擎！

阿正老師補充：想了解各種 AI 模型的能力評比，可以參考阿正老師整理的：AI 哪個最強？8 個不能錯過的 AI 模型排行榜網站！，裡面介紹的幾個榜單都有收錄 Gemma 系列的評分。

四、硬體需求：我的電腦跑得動嗎？

這大概是大家最想知道的問題！Gemma 4 12B 的官方最低需求是 16GB VRAM 或統一記憶體。以下是不同硬體情境的整理：

硬體	能跑嗎？	建議量化版本
RTX 4070 / RTX 5070（12GB VRAM）	✅ 可（需 Q4 量化）	Q4_K_M（約 8GB）
RTX 3090 / 4090（24GB VRAM）	✅ 輕鬆跑	Q5_K_M 或 Q8
Apple M4 Mac Mini 16GB	✅ 可（統一記憶體共享）	Q4_K_M 或 MLX 版本
Apple M4 Mac Mini 24GB+	✅ 流暢	Q5 或 BF16
RTX 3060 / 4060（8GB VRAM）	⚠️ 勉強（部分吃 CPU 記憶體）	Q3_K_M 以下
單純 CPU（無獨顯）	可以但非常慢	Q4 以下（需 32GB RAM）

阿正老師的 AMD R7 5800x + RTX 5070 12GB 桌機跑 Q4_K_M 版本，速度大約落在 52～55 tokens/秒，日常對話完全沒有問題，用來處理圖片問答也很流暢。我用Mac Mini 4 (16GB) 及 M5 Macbook Air 24GB 用 MLX 版本，速度分別是 12 及 15 tokens/秒上下，速度大約只有E4B的三分之一，勉強還可以接受。

不確定自己的電腦能跑哪個 AI 模型？阿正老師之前介紹過一個超好用的免費工具，可以一鍵掃描你的硬體並給出推薦：

llmfit 幫你一鍵掃描硬體，精準推薦最佳本機 LLM！

五、怎麼用 Ollama 或 LM Studio 跑起來

Gemma 4 12B 已經上架 Ollama (需更新到 0.30版以上）和 LM Studio，安裝非常簡單。以下分兩種方式介紹：

方法一：Ollama（指令列，最快速）

如果你已經安裝 Ollama，只需要一行指令(Windows)：

ollama run gemma4:12b

macOS的使用者則輸入：

ollama run gemma4:12b-mlx

Ollama 會自動下載預設的 Q4_K_M 量化版本（約 7.4GB），下載完就可以直接開始對話。如果你有更多 VRAM，想要更高品質，可以指定：

# Q8 高品質版（需約 14GB VRAM）
ollama run igorls/gemma-4-12B-it-heretic-GGUF:Q8_0

如果你希望Gemma 4:12B還能跑快一點，可以試試看新版的QAT(quantization-aware trained，量化感知訓練)權重的模型，可以更省記憶體，但是模型品質幾乎與一般的12B相同，指令為：

ollama run gemma4:12b-it-qat

阿正老師實測的結果，效能會比一般的12B版還要快出約3成喔！

除了終端機模式之外，Ollama的終端機界面其實好用很多，一樣可以執行Gemma4-12B：

方法二：LM Studio（圖形介面，最簡單）

打開 LM Studio，在搜尋框輸入「gemma4」，就可以找到 Gemma 4 12B 的各種量化版本。選擇適合你顯示卡 VRAM 的版本下載，然後按「Load Model」就完成了，完全不用打任何指令。

Ollama 和 LM Studio 到底哪個比較好用？這個問題阿正老師有專文討論過，各有適合的使用場景：

Ollama vs LM Studio vs Jan — 在自己電腦跑 AI，哪個最好用？

方法三：LiteRT-LM（Google 原廠工具）

Google 同步推出了官方的本地推理工具 LiteRT-LM，可以把 Gemma 4 12B 當成一個 OpenAI 相容的本地 API 伺服器來跑，方便整合到各種應用程式：

# 從 Hugging Face 下載模型
litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm gemma-4-12B-it.litertlm gemma4-12b

# 啟動本地 API 伺服器
litert-lm serve

啟動後，就可以用任何支援 OpenAI API 的工具（例如 Continue 插件、OpenCode 等）連上這個本地模型使用，完全不需要網路。

六、macOS 用戶專屬：原生桌面 App 體驗

這次 Gemma 4 12B 的發布，Google 特別針對 Mac 用戶推出了兩款原生桌面 App，讓你不用碰終端機也能體驗本地 AI：

Google AI Edge Gallery（macOS 版）：原本只有手機版，現在擴展到桌面平台。支援在對話中直接執行 Python 程式碼、繪製科學圖表，全程離線、不需上傳資料到雲端。
Google AI Edge Eloquent：主打語音對話輸入，用 Gemma 4 12B 支援語音轉文字編輯功能，適合用語音控制電腦的用戶。

阿正老師在 M4 Mac Mini 上試了 Google AI Edge Gallery，整體體驗比想像中好，UI 設計也比較友善，適合不喜歡打指令的一般用戶。

七、優點與缺點總整理

✅ 優點

完全免費，Apache 2.0 授權可商用
無編碼器架構讓延遲更低、記憶體更省
同時支援文字、圖片、影片、音訊四種輸入
12B 體積適中，16GB 記憶體即可本地執行
支援 Ollama、LM Studio、llama.cpp、MLX 等主流工具
fine-tune 更簡單，只需調整一套權重
macOS 原生 App 對一般用戶非常友善

⚠️ 缺點

16GB 門檻對部分用戶仍有一定要求
音訊功能尚在成熟中，語言支援不如文字廣
無編碼器是新架構，社群微調案例還在累積
對比 26B MoE 或 31B Dense，推理能力仍有差距
LiteRT-LM 工具對非技術用戶上手難度稍高

八、阿正老師的總結：這個模型適合你嗎？

Gemma 4 12B 是一個定位非常明確的模型：給有一定硬體、但不想花錢訂閱雲端 AI、又希望能處理多種輸入的用戶。它不是最強的，但在免費開源的世界裡，12B 這個尺寸能同時搞定文字、圖片、影片、音訊，而且還設計得這麼精巧，阿正老師認為相當難得。

你有 16GB 以上 GPU 或 Mac，想跑免費的多模態本地 AI

→ Gemma 4 12B。現在最值得試的 12B 級開源模型，沒有之一。

你只有 8GB 顯卡，預算有限

→ Gemma 4 E4B（4B）。跑得更輕鬆，功能也不差，是大多數人最實際的選擇。

你完全不想打指令，只想有個 AI 聊天介面

→ LM Studio + Gemma 4 12B。全圖形介面，下載模型像在用 App Store 一樣簡單。

你是 Mac 用戶，想要最簡單的本地 AI 體驗

→ Google AI Edge Gallery App。下載就能用，不需要任何設定，離線執行不上傳資料。

免費、本地、多模態——Gemma 4 12B 值得一試！

Google 這次用 Gemma 4 12B 示範了一件事：開源 AI 不一定要犧牲效能，架構設計做對了，一樣可以在輕量的硬體上跑出讓人驚喜的多模態能力。阿正老師已經把它設定為日常工作的輔助模型之一，尤其是需要分析圖片或語音的任務，它的表現讓我相當滿意。

如果你還沒有試過在自己電腦上跑 AI 模型，Gemma 4 12B 搭配 Ollama 或 LM Studio 絕對是一個很好的入門起點。所有資料都在自己電腦裡，不用擔心隱私洩漏，也不用每個月付訂閱費——這才是阿正老師最愛的用法！

你試過了嗎？跑起來的速度怎麼樣？歡迎在下面留言跟阿正老師分享！

Google 免費開源 AI 新突破！Gemma 4 12B 無編碼器架構，16GB 記憶體筆電就能跑（2026 最新）

一、Gemma 4 12B 是什麼？在 Gemma 家族的定位

二、最大亮點：無編碼器（Encoder-Free）架構是什麼意思？

三、支援四種輸入：文字、圖片、影片、音訊

四、硬體需求：我的電腦跑得動嗎？

五、怎麼用 Ollama 或 LM Studio 跑起來

方法一：Ollama（指令列，最快速）

如果你希望Gemma 4:12B還能跑快一點，可以試試看新版的QAT(quantization-aware trained，量化感知訓練)權重的模型，可以更省記憶體，但是模型品質幾乎與一般的12B相同，指令為：

方法二：LM Studio（圖形介面，最簡單）

方法三：LiteRT-LM（Google 原廠工具）

六、macOS 用戶專屬：原生桌面 App 體驗

七、優點與缺點總整理

八、阿正老師的總結：這個模型適合你嗎？

留下回覆

熱門文章

YouTube 下載器免費！YouTube Downloader HD 最新版教學，支援 4K 下載

Top 5瀏覽器【Chrome/Edge/Safari/Firefox/Opera 】下載懶人包，持續更新中(含Chrome/Edge 150.0正式版)

知名虛擬機器軟體VMware Workstation Pro / Fusion 26H1 開放免費下載囉！

熱門分類

Obsidian 官方 CEO 親自出手！obsidian-skills 讓 Claude 秒懂你的筆記庫：5 大 AI 技能包完整教學，Claude Desktop／ChatGPT...