AI相關

Google 剛發布！Gemma 4 完整介紹 + 用 Ollama 在自己電腦跑起來教學（2026 最新）

2026 年 05 月 10 日

11,064 人次

就在 2026 年 4 月 2 日，Google DeepMind 悄悄丟出一顆震撼彈——Gemma 4 正式發布了！

阿正老師第一時間就去試了，說真的，進步幅度大到讓人下巴掉下來。同樣的電腦、同樣的模型大小，Gemma 4 在推理、數學、程式碼這些指標上比 Gemma 3 進步了 3 到 4 倍以上。更重要的是，它從頭到尾免費、開源授權（Apache 2.0），用 Ollama 一行指令就能跑在自己電腦上。

這篇文章分兩個部分：先介紹 Gemma 4 是什麼、有哪些版本，再帶你一步步用 Ollama 把它裝起來跑起來，完全不需要技術背景！ (2026/5/10 更新Gemma 4 全系列專屬的 MTP 輕量 Drafter 模型）

文章目錄

Gemma 4 是什麼？
四個版本怎麼選？
跟 Gemma 3 比進步了多少？
Gemma 4 有哪些新功能？
我的電腦夠不夠跑？
用 MTP 讓 Gemma 4 速度翻倍（2026.05 最新）
用 Ollama 安裝 Gemma 4（完整教學）
實際使用小訣竅
常見問題 FAQ

一、Gemma 4 是什麼？

Gemma 4 是 Google DeepMind 於 2026 年 4 月 2 日發布的最新一代開源 AI 模型家族。它跟 Google 旗艦 AI Gemini 3 用的是同一套研究成果，但以完全開源的方式發布，任何人都可以免費下載、修改、商用。

跟以前不同的是，這次 Google 把授權從舊版限制性授權改成了 Apache 2.0——這是開源界最友善的授權之一，代表你可以完全商業使用，沒有月活用戶上限限制，沒有任何使用條款束縛。

Gemma 4 三個關鍵亮點：

① 從 Google Gemini 3 同等研究成果打造，品質極高

② Apache 2.0 完全開源，免費商用

③ 支援文字 + 圖片 + 影片 + 音訊多模態輸入

自從第一代 Gemma 推出以來，開發者社群已經下載超過 4 億次，衍生出超過 10 萬種客製化版本——這個數字說明了為什麼 Gemma 系列在開源 AI 界這麼受歡迎。

二、四個版本怎麼選？

Gemma 4 這次推出四個版本，從超輕量手機版到桌機旗艦版都有。先看一張總覽表：

版本	參數量	架構	Context 視窗	適合對象	最少 RAM
E2B	2.3B 有效參數	Dense（密集）	128K	手機、Raspberry Pi、低規電腦	4GB
E4B ⭐ 新手首選	4.5B 有效參數	Dense（密集）	128K	一般筆電、入門 GPU	6GB
26B（MoE）⭐ 推薦首選	26B 總量、4B 活躍	MoE（混合專家）	256K	一般桌機、Mac M 系列	16GB
31B	310B 總參數	Dense（密集）	256K	高階工作站、大 VRAM GPU	19GB

阿正老師的選版建議：

電腦 RAM 8GB 以下 → E2B
電腦 RAM 8～16GB → E4B（Ollama 預設下載版本）
電腦 RAM 16GB 以上，想要更好品質 → 26B（MoE）這是阿正老師最推薦的！
高階工作站 / 大 GPU → 31B

什麼是 MoE（Mixture of Experts）？ 26B 版本是「混合專家架構」——模型裡有 128 組「專家」，每次回答問題只需要啟用其中 4B 的參數，所以跑起來的速度跟真正的 4B 模型差不多快，但回答品質接近 13B 等級的模型。這是目前 CP 值最高的本機 AI 選擇！

三、跟 Gemma 3 比，進步了多少？

光說「進步很多」沒感覺，阿正老師直接把幾個重要評測數字列出來：

評測項目	Gemma 3（27B）	Gemma 4（31B）	進步幅度
數學推理（AIME 2026）	20.8%	89.2%	+329%
程式碼（LiveCodeBench）	29.1%	80.0%	+175%
科學推理（GPQA）	42.4%	84.3%	+99%
多模態理解（MMMU）	67.6%	85.2%	+26%
Arena AI 排名（全球開源模型）	—	#3（ELO 1452）	—

數學推理進步了 329%，這不是筆誤！Gemma 4 在推理能力上的躍升真的非常驚人，某些測試甚至超過了比它大 20 倍的競爭對手模型。

四、Gemma 4 有哪些新功能？

▌多模態輸入（文字 + 圖片 + 影片 + 音訊）

Gemma 4 所有版本都支援文字和圖片輸入；E2B 和 E4B 還額外支援音訊輸入（最長 30 秒）。26B 和 31B 支援影片理解（最長 60 秒）。圖片還支援可變的長寬比和解析度，不需要裁切圖片再上傳。

▌超長 Context 視窗

E2B / E4B 版本支援 128K tokens，26B / 31B 版本支援 256K tokens 的超長對話記憶。256K 大概可以塞入一整本小說，讓 AI 幫你分析整本書的內容。

▌思考模式（Thinking Mode）

你可以在 system prompt 加入 <|think|> 指令，讓 Gemma 4 在回答前先進行步驟式推理（Chain-of-Thought），類似 Claude 的「延伸思考」功能，特別適合需要邏輯分析的複雜問題。

▌原生 Function Calling（工具調用）

Gemma 4 內建原生工具調用能力，可以直接呼叫外部 API 或程式函式，是建立 AI Agent（自主任務執行）的基礎功能，不需要額外調整就能使用。

▌140+ 語言支援

訓練資料涵蓋 140 種以上的語言，繁體中文的理解和輸出品質都有顯著提升。

▌Apache 2.0 授權（可完全商用）

這是這次最重要的改變之一。沒有月活躍用戶限制、沒有使用限制，你可以用 Gemma 4 開發商業產品、建立自己的服務，完全合法且免費。

▌Multi-Token Prediction（MTP）原生加速

Google 在 2026 年 5 月 5 日追加發布了 Gemma 4 專屬的 MTP Drafter 模型——這是讓在自己電腦跑 AI 速度「直接翻倍」的關鍵更新，阿正老師特地用獨立章節說明，請見下方「六之一」！

五、我的電腦夠不夠跑？

你的電腦配置	建議版本	Ollama 指令	預期速度
RAM 4～8GB（無獨顯）	E2B	`ollama run gemma4:e2b`	5～10 tok/s
RAM 8～16GB（或 GPU 6GB VRAM）	E4B	`ollama run gemma4`	10～30 tok/s
RAM 16GB 以上（或 Mac M 系列 16GB+）	26B（MoE） ⭐	`ollama run gemma4:26b`	15～40 tok/s
RAM 32GB 以上（或 GPU 24GB VRAM）	31B	`ollama run gemma4:31b`	20～50 tok/s

※ tok/s = 每秒輸出幾個字，15 以上就算流暢，低於 8 會感覺明顯卡頓。

※ 不確定自己電腦適合哪個版本？試試看 llmfit 這個免費工具，自動掃描硬體幫你推薦！

六、用 Ollama 安裝 Gemma 4（完整教學）

還沒裝過 Ollama 的朋友，可以先參考阿正老師之前寫的 Ollama 完整教學。已經有 Ollama 的直接跳到 Step 2。

⚠️ 注意：Gemma 4 需要 Ollama v0.20.0 以上版本才支援。執行前先確認版本，或重新下載最新版 Ollama。

Step 1：安裝 Ollama（有視窗程式，不用打指令！）

前往 https://ollama.com，點選你的作業系統下載：

Windows / macOS 都有提供圖形化安裝程式，安裝方式跟一般軟體完全一樣：

作業系統	安裝步驟	安裝完成後
Windows	下載 `OllamaSetup.exe`，點兩下安裝，照畫面提示完成即可	工作列右下角出現 Ollama 圖示（羊駝），代表正在背景執行
macOS	下載 zip 解壓後，把 `Ollama.app` 拖進 Applications 資料夾，然後點兩下啟動	選單列右上角出現 Ollama 圖示，可從這裡設定開機自動啟動
Linux	在終端機執行：`curl -fsSL https://ollama.com/install.sh \| sh`

Windows / Mac 用戶：安裝好之後 Ollama 就會靜靜地在背景跑，不需要做任何事，也不需要打開任何視窗，後面的步驟直接用「命令提示字元」或「Terminal」下載模型就好。

Step 2：下載並執行 Gemma 4

依你的電腦規格選擇以下其中一個指令（只要一行！）：

✅ 一般建議（E4B，8GB+ RAM）：

ollama run gemma4

✅ 最小版本（E2B，4～8GB RAM）：

ollama run gemma4:e2b

✅ 推薦版本（26B MoE，16GB+ RAM，CP 值最高）：

ollama run gemma4:26b

✅ 旗艦版本（31B，32GB+ RAM）：

ollama run gemma4:31b

執行後 Ollama 會自動開始下載模型（E4B 約 9.6GB、26B 約 17GB），進度條會顯示剩餘時間，下載完成後直接進入對話模式：

看到 >>> 就代表模型已經跑起來了！直接輸入問題開始對話。

Step 3：確認模型已下載

開新的終端機視窗（不要關掉 Ollama 那個），輸入：

ollama list

你會看到類似這樣的輸出，確認 Gemma 4 已經在清單裡：

Step 4：試試看！用繁體中文對話

進入對話後，直接用中文問問題就好，例如：

>>>

請用繁體中文說明什麼是 AI 大語言模型，用簡單的方式解釋給一般人聽。

想要結束對話，輸入 /bye 或按 Ctrl + D。

Step 5：使用Ollama的視窗界面

除了使用命令列模式之外，Windows跟macOS也能使用圖形模式來安裝Gemma4。先按下模型旁的下拉選單（下圖箭頭處），然後搜尋gemma4，再點擊下載按鈕（下圖紅圈處）即可下載。

安裝完成後，切換至gemma4即可使用。

六之一、用 MTP 讓 Gemma 4 速度翻倍（2026.05 最新）

2026 年 5 月 5 日，Google 悄悄推出了一個重量級更新：Gemma 4 全系列模型的 MTP（Multi-Token Prediction）Drafter——也就是「輔助預測模型」。簡單說，就是幫主力模型開外掛，讓它跑得快 2～3 倍，而且答案完全一樣！

什麼是 MTP？用大白話解釋

傳統 AI 模型產出文字是「一個字一個字慢慢輸出」，每輸出一個字都要把幾十億個參數從顯示卡記憶體搬出來算一次，非常耗時。

MTP 的做法是這樣：先讓一個超小、超快的「Drafter（草稿模型）」搶先猜出接下來幾個字，然後讓大模型「一次驗證」這幾個猜測。如果猜對了，就直接全部接受；猜錯的話，大模型也會順手補出正確答案，不浪費任何計算資源。結果就是：輸出速度大幅提升，但每個字的品質和正確度和原本完全一樣。

阿正老師點評：以前的 Speculative Decoding 是「通用加速法」，把任何小模型搭大模型，效果不穩定。Gemma 4 的 MTP Drafter 是 Google 從設計之初就一起訓練的專屬搭檔，命中率遠高於通用做法，這就是為什麼加速效果這麼明顯。

速度到底快多少？

硬體環境	啟用 MTP 後加速倍數
Nvidia RTX Pro 6000 桌機 GPU（Batch 1）	約 2x（Tokens/s 翻倍）
Apple Silicon（M 系列，Batch 4～8）	約 2.2x
Nvidia A100（Batch 提高後）	約 2～3x
手機 / 邊緣裝置（E2B、E4B）	約 2x（含高效分群嵌入最佳化）

⚠️ 注意：26B MoE 版本在 Apple Silicon、Batch Size = 1 的情況下，因為 MoE 架構需要啟用不同的「專家組」，反而可能沒有加速效果。建議同時跑多個對話（Batch 4 以上）才能發揮 2.2x 的加速。

哪裡下載 MTP Drafter？

每個 Gemma 4 主力模型都有對應的 Drafter，命名規則是在原本的模型名稱後面加上 -assistant：

主力模型	對應 Drafter（Hugging Face）
gemma-4-E2B-it	`google/gemma-4-E2B-it-assistant`
gemma-4-E4B-it	`google/gemma-4-E4B-it-assistant`
gemma-4-26B-A4B-it	`google/gemma-4-26B-A4B-it-assistant`
gemma-4-31B-it	`google/gemma-4-31B-it-assistant`

所有 Drafter 都採用 Apache 2.0 授權，可在 Hugging Face 及 Kaggle 免費下載，支援工具包含：Hugging Face Transformers、MLX、vLLM、SGLang。

Ollama 用戶怎麼用？

Ollama 官方已將 MTP 支援列入 Gemma 4 生態系，社群也有開發者提交 PR 加入 DRAFT Modelfile 指令。不過目前各版本的整合仍在驗證中，建議先確認自己使用的 Ollama 版本是否已支援，或直接用 Hugging Face Transformers / MLX 方案最穩定。

如果你的 Ollama 版本已支援，操作概念如下：先用 ollama create 匯入 Drafter 的 safetensors 權重，再在 Modelfile 裡用 DRAFT 指令指定 Drafter 模型，之後照常 ollama run gemma4:26b 即可自動啟用加速。後續阿正老師確認 Ollama 正式支援後，會補上完整步驟教學。

七、阿正老師的實際使用小訣竅

▌訣竅 1：啟用「思考模式」讓回答更準確

對複雜問題，可以在問句前加上 <|think|> 讓模型進行深度推理再回答：

<|think|> 請幫我分析這個程式碼有什麼潛在的安全性問題…

▌訣竅 2：只下載一次，可以離線使用

Gemma 4 下載完成後就存在你的電腦裡，完全不需要網路連線就能使用。出差搭飛機、網路斷線都不影響。

▌訣竅 3：更新模型到最新版

Google 未來可能會推出改進版本，更新指令很簡單：

ollama pull gemma4

Ollama 會自動比對版本，只下載更新的部分，不需要重新下載整個模型。

▌訣竅 4：圖片輸入（Multimodal）

Gemma 4 支援圖片輸入！在對話中輸入圖片路徑或 URL 就能讓 AI 分析圖片內容：

>>> 請描述這張圖片的內容 /path/to/your/image.jpg

▌訣竅 5：同時查看記憶體使用狀況

想知道 Gemma 4 現在占用多少記憶體，在另一個終端機視窗輸入：

ollama ps

❓ 八、常見問題 FAQ

Q：Gemma 4 跟 Gemini 3 有什麼關係？

Gemma 4 是基於 Gemini 3 同等研究成果打造的開源版本。Gemini 3 是 Google 的旗艦商業 AI（要付費使用），Gemma 4 則是把這套技術開源出來讓大家免費用，兩者底層技術同源，但 Gemma 4 的規模較小，可以在一般電腦上跑。

Q：Gemma 4 可以商業使用嗎？

可以！Apache 2.0 授權允許完全商業使用，你可以用它開發付費軟體、建立商業服務，不需要向 Google 報告或付費。

Q：我的電腦沒有獨立顯示卡可以跑嗎？

可以，但會比較慢。沒有 GPU 的情況下，E2B 或 E4B 用 CPU 跑大約 5～10 tokens/秒，速度還是可以接受的。E2B 尤其適合沒有獨顯的電腦。

Q：下載的模型存在哪裡？怎麼刪除？

Ollama 的模型預設存在：

Windows：C:\Users\你的帳號\.ollama\models\
macOS：~/.ollama/models/
Linux：/usr/share/ollama/.ollama/models/

刪除模型的指令：

ollama rm gemma4

Q：Gemma 4 的繁體中文表現怎麼樣？

阿正老師測試下來，Gemma 4 的繁體中文理解和輸出品質比 Gemma 3 明顯提升，140 種語言的訓練資料讓它的中文流暢度很好。但比起 Qwen 3（阿里巴巴專門針對中文優化的模型），Gemma 4 在某些中文特有詞彙和語境上還是略遜一籌，英文和數學推理才是 Gemma 4 真正的強項。

Q：Gemma 4 vs Qwen 3，繁中用途哪個比較好？

簡單說：中文寫作、翻譯、日常對話 → 選 Qwen 3；數學推理、程式碼、英文內容 → 選 Gemma 4。兩個都很強，依用途選擇最合適。

Q：聽說有個 MTP 可以讓速度翻倍，是真的嗎？

是真的！Google 在 2026 年 5 月發布了 Gemma 4 專屬的 MTP Drafter，實測在一般桌機 GPU 上可以讓輸出速度提升約 2 倍，Apple Silicon 多工情境下可達 2.2 倍，高階 GPU 最高可到 3 倍，而且答案品質完全不變。詳細說明見本文的「六之一」章節。

總結

Gemma 4 是阿正老師目前最推薦的本機 AI 模型之一，尤其是 26B MoE 版本——以 16GB RAM 電腦就能跑的規格，提供接近 13B 等級的品質，又是完全免費可商用，真的是 CP 值最高的選擇！

如果你還沒試過在自己電腦跑 AI，現在正是最好的時機。有任何安裝問題，歡迎在下面留言~~

延伸閱讀：Ollama 完整安裝教學／ Ollama vs LM Studio vs Jan — 本機 AI 工具比較