Google 免費開源 AI 新突破!Gemma 4 12B 無編碼器架構,16GB 記憶體筆電就能跑(2026 最新)

0
36 人次

Google 免費開源 AI 新突破!Gemma 4 12B 無編碼器架構,16GB 記憶體筆電就能跑(2026 最新)

2026 年 6 月 3 日,Google DeepMind 悄悄又丟出一顆炸彈——Gemma 4 12B 正式發布了!這次的更新幅度讓阿正老師看到後忍不住馬上跳起來測試,因為它帶來了一個在 AI 圈裡非常少見的設計:把傳統的視覺編碼器和音訊編碼器整個拿掉,讓圖片、影片、聲音直接「丟」進語言模型處理,不但架構更簡潔,連延遲也大幅降低。

更重要的是,這個模型完全免費、採 Apache 2.0 授權(就是說連商業用途都 OK),而且只需要 16GB 的 VRAM 或統一記憶體(Unified Memory)就能在自己的電腦上跑起來。阿正老師的 M4 Mac Mini 16GB 剛好就在門檻上,測試起來流暢度讓我滿意。如果你有 RTX 顯卡或 Apple Silicon Mac,這篇絕對值得一讀!

這篇文章阿正老師會完整介紹 Gemma 4 12B 的架構特色、它能做什麼、怎麼在你的電腦上跑起來,以及哪種人最適合使用它。



一、Gemma 4 12B 是什麼?在 Gemma 家族的定位

Gemma 是 Google DeepMind 推出的開源 AI 模型系列,從 2024 年第一代發展到現在,已經累積超過 1.5 億次下載,Hugging Face 上更有超過 7 萬種衍生版本。簡單來說,它是目前開源 AI 生態裡最受開發者歡迎的模型家族之一。

Gemma 4 系列在 2026 年 4 月 2 日推出時,原本包含四種尺寸:E2B(2B)、E4B(4B)、26B MoE、31B Dense。而 Gemma 4 12B 的出現,剛好填補了 E4B 和 26B 之間的空缺——給那些 E4B 覺得太小、26B 又跑不動的用戶一個完美的中間選擇。

如果你還不熟悉 Gemma 4 家族,阿正老師之前有寫過一篇完整的介紹文,搭配 Ollama 安裝教學一起看效果更好:
Google 剛發布!Gemma 4 完整介紹 + 用 Ollama 在自己電腦跑起來教學(2026 最新)
官方網站 blog.google — Gemma 4 12B
發布日期 2026 年 6 月 3 日
參數量 約 119.5 億(~12B)
架構 Decoder-Only,無編碼器統一架構
支援輸入 文字、圖片、影片、音訊
授權 Apache 2.0(免費,可商用)
費用 完全免費
下載途徑 Hugging Face、Kaggle、Ollama、LM Studio
軟體下載 [Ollama本站下載點]

ChatGPT Image 2026年6月4日 下午03_38_36


二、最大亮點:無編碼器(Encoder-Free)架構是什麼意思?

這個詞乍看很技術,但阿正老師用白話解釋一下。傳統的多模態 AI(就是能看圖、聽聲音的 AI)通常是這樣運作的:先用一個「視覺編碼器」把圖片翻譯成數字,再用一個「音訊編碼器」把聲音翻譯成數字,最後才把這些數字丟給語言模型(LLM)來理解。

問題是,這三個模組分開跑,不但佔記憶體,延遲也高。Gemma 4 12B 的做法是:把編碼器整個拿掉,直接讓圖片像素和音訊波形「原汁原味」地進入語言模型本體處理。這個設計讓整個架構更精簡,也讓 fine-tune(微調)的時候方便很多,因為你只需要調整一套權重,不用同時管三個模組。

具體來說,它的視覺處理模組只有 3,500 萬參數(比傳統方法輕了好幾倍),音訊則是把每 40 毫秒的 16kHz 音訊切成一段,直接線性投影進模型——簡單、快速、有效。

ChatGPT Image 2026年6月4日 下午04_45_48

⚠️ 「無編碼器」不代表模型能力變差!反而因為所有輸入共用同一套權重,在需要跨模態理解(例如同時分析一段影片的畫面和聲音)的任務上表現更一致,延遲也更低。

三、支援四種輸入:文字、圖片、影片、音訊

Gemma 4 12B 是目前 Gemma 家族中第一個中型尺寸同時支援音訊輸入的模型(之前只有 E2B 和 E4B 這種小型版本才有音訊功能)。整體來說,它支援以下四種輸入模式:

  • 文字:對話、問答、寫作、程式碼生成、多語言(支援 140+ 語言)
  • 圖片:圖像辨識、OCR 文字識別、圖表分析、視覺問答
  • 影片:以每秒 1 幀方式處理影片內容,可分析長達數分鐘的影片
  • 音訊:語音辨識(ASR)、說話者識別(Diarization)、語音理解

Google 官方展示了一個很酷的例子:用 Gemma 4 12B 分析一段 5 分鐘的 Google I/O 大會影片(313 幀圖片+完整音訊),模型能夠準確理解影片內容,並回答有關畫面與對話的問題。

另一個展示則是讓模型直接寫出一個「可以讓自己(Gemma 4 12B)處理圖片的 Gradio 應用程式」,也就是說,這個模型既是工程師,也是它自己寫的程式的執行引擎!

ChatGPT Image 2026年6月4日 下午04_54_36

阿正老師補充:想了解各種 AI 模型的能力評比,可以參考阿正老師整理的:AI 哪個最強?8 個不能錯過的 AI 模型排行榜網站!,裡面介紹的幾個榜單都有收錄 Gemma 系列的評分。

四、硬體需求:我的電腦跑得動嗎?

這大概是大家最想知道的問題!Gemma 4 12B 的官方最低需求是 16GB VRAM 或統一記憶體。以下是不同硬體情境的整理:

硬體 能跑嗎? 建議量化版本
RTX 4070 / RTX 5070(12GB VRAM) ✅ 可(需 Q4 量化) Q4_K_M(約 8GB)
RTX 3090 / 4090(24GB VRAM) ✅ 輕鬆跑 Q5_K_M 或 Q8
Apple M4 Mac Mini 16GB ✅ 可(統一記憶體共享) Q4_K_M 或 MLX 版本
Apple M4 Mac Mini 24GB+ ✅ 流暢 Q5 或 BF16
RTX 3060 / 4060(8GB VRAM) ⚠️ 勉強(部分吃 CPU 記憶體) Q3_K_M 以下
單純 CPU(無獨顯) 可以但非常慢 Q4 以下(需 32GB RAM)

阿正老師的 AMD R7 5800x + RTX 5070 12GB 桌機跑 Q4_K_M 版本,速度大約落在 15~20 tokens/秒,日常對話完全沒有問題,用來處理圖片問答也很流暢。我用Mac Mini 4 (16GB) 及 M5 Macbook Air 24GB 用 MLX 版本,速度分別是 15 及 12 tokens/秒上下,速度大約只有E4B的三分之一,勉強還可以接受。

不確定自己的電腦能跑哪個 AI 模型?阿正老師之前介紹過一個超好用的免費工具,可以一鍵掃描你的硬體並給出推薦:
llmfit 幫你一鍵掃描硬體,精準推薦最佳本機 LLM!

五、怎麼用 Ollama 或 LM Studio 跑起來

Gemma 4 12B 已經上架 Ollama (需更新到 0.30版以上)和 LM Studio,安裝非常簡單。以下分兩種方式介紹:

方法一:Ollama(指令列,最快速)

如果你已經安裝 Ollama,只需要一行指令(Windows):

ollama run gemma4:12b

macOS的使用者則輸入:

ollama run gemma4:12b-mlx

不過目前可能是因為Model太新了,官方的版本還沒放上去,Windows使用者可以先用第三方模型::

ollama run igorls/gemma-4-12B-it-heretic-GGUF

image

Ollama 會自動下載預設的 Q4_K_M 量化版本(約 7.4GB),下載完就可以直接開始對話。如果你有更多 VRAM,想要更高品質,可以指定:

# Q8 高品質版(需約 14GB VRAM)
ollama run igorls/gemma-4-12B-it-heretic-GGUF:Q8_0

除了終端機模式之外,Ollama的終端機界面其實好用很多,一樣可以執行Gemma4-12B:

image

方法二:LM Studio(圖形介面,最簡單)

打開 LM Studio,在搜尋框輸入「gemma4」,就可以找到 Gemma 4 12B 的各種量化版本。選擇適合你顯示卡 VRAM 的版本下載,然後按「Load Model」就完成了,完全不用打任何指令。

Ollama 和 LM Studio 到底哪個比較好用?這個問題阿正老師有專文討論過,各有適合的使用場景:
Ollama vs LM Studio vs Jan — 在自己電腦跑 AI,哪個最好用?

image

方法三:LiteRT-LM(Google 原廠工具)

Google 同步推出了官方的本地推理工具 LiteRT-LM,可以把 Gemma 4 12B 當成一個 OpenAI 相容的本地 API 伺服器來跑,方便整合到各種應用程式:

# 從 Hugging Face 下載模型
litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm gemma-4-12B-it.litertlm gemma4-12b

# 啟動本地 API 伺服器
litert-lm serve

啟動後,就可以用任何支援 OpenAI API 的工具(例如 Continue 插件、OpenCode 等)連上這個本地模型使用,完全不需要網路。


六、macOS 用戶專屬:原生桌面 App 體驗

這次 Gemma 4 12B 的發布,Google 特別針對 Mac 用戶推出了兩款原生桌面 App,讓你不用碰終端機也能體驗本地 AI:

  • Google AI Edge Gallery(macOS 版):原本只有手機版,現在擴展到桌面平台。支援在對話中直接執行 Python 程式碼、繪製科學圖表,全程離線、不需上傳資料到雲端。
  • Google AI Edge Eloquent:主打語音對話輸入,用 Gemma 4 12B 支援語音轉文字編輯功能,適合用語音控制電腦的用戶。

阿正老師在 M4 Mac Mini 上試了 Google AI Edge Gallery,整體體驗比想像中好,UI 設計也比較友善,適合不喜歡打指令的一般用戶。

image


七、優點與缺點總整理

✅ 優點

  • 完全免費,Apache 2.0 授權可商用
  • 無編碼器架構讓延遲更低、記憶體更省
  • 同時支援文字、圖片、影片、音訊四種輸入
  • 12B 體積適中,16GB 記憶體即可本地執行
  • 支援 Ollama、LM Studio、llama.cpp、MLX 等主流工具
  • fine-tune 更簡單,只需調整一套權重
  • macOS 原生 App 對一般用戶非常友善

⚠️ 缺點

  • 16GB 門檻對部分用戶仍有一定要求
  • 音訊功能尚在成熟中,語言支援不如文字廣
  • 無編碼器是新架構,社群微調案例還在累積
  • 對比 26B MoE 或 31B Dense,推理能力仍有差距
  • LiteRT-LM 工具對非技術用戶上手難度稍高

八、阿正老師的總結:這個模型適合你嗎?

Gemma 4 12B 是一個定位非常明確的模型:給有一定硬體、但不想花錢訂閱雲端 AI、又希望能處理多種輸入的用戶。它不是最強的,但在免費開源的世界裡,12B 這個尺寸能同時搞定文字、圖片、影片、音訊,而且還設計得這麼精巧,阿正老師認為相當難得。

你有 16GB 以上 GPU 或 Mac,想跑免費的多模態本地 AI

Gemma 4 12B。現在最值得試的 12B 級開源模型,沒有之一。

你只有 8GB 顯卡,預算有限

Gemma 4 E4B(4B)。跑得更輕鬆,功能也不差,是大多數人最實際的選擇。

你完全不想打指令,只想有個 AI 聊天介面

LM Studio + Gemma 4 12B。全圖形介面,下載模型像在用 App Store 一樣簡單。

你是 Mac 用戶,想要最簡單的本地 AI 體驗

Google AI Edge Gallery App。下載就能用,不需要任何設定,離線執行不上傳資料。


免費、本地、多模態——Gemma 4 12B 值得一試!

Google 這次用 Gemma 4 12B 示範了一件事:開源 AI 不一定要犧牲效能,架構設計做對了,一樣可以在輕量的硬體上跑出讓人驚喜的多模態能力。阿正老師已經把它設定為日常工作的輔助模型之一,尤其是需要分析圖片或語音的任務,它的表現讓我相當滿意。

如果你還沒有試過在自己電腦上跑 AI 模型,Gemma 4 12B 搭配 Ollama 或 LM Studio 絕對是一個很好的入門起點。所有資料都在自己電腦裡,不用擔心隱私洩漏,也不用每個月付訂閱費——這才是阿正老師最愛的用法!

你試過了嗎?跑起來的速度怎麼樣?歡迎在下面留言跟阿正老師分享!

留下回覆

請輸入你的評論!
請在這裡輸入你的名字