
「ChatGPT、Gemini、Claude……到底哪個 AI 最強?」
這個問題沒有標準答案——因為「最強」要看你怎麼比、比什麼項目。但好在有一群研究人員和工程師,專門建立了客觀的評測平台,讓各家 AI 在同樣的標準下一較高下。
阿正老師今天整理了 8 個最具公信力的 AI 排行榜網站,帶你看清楚各平台的評測邏輯、目前誰排第一,以及各平台的優缺點——讓你以後看到 AI 廠商宣稱「業界第一」時,能夠自己判斷他們說的到底算不算數!
文章目錄
一、為什麼需要獨立 AI 排行榜?
AI 公司發表新模型時,幾乎每一家都會說自己「在某某測試拿第一」。問題是:
- 各家測試的項目不一樣,A 公司選的題目可能剛好對自己有利
- 有些測試題目已經被模型「訓練過」,考試前先看過答案,成績自然好看
- 「寫作最強」、「推理最強」、「程式碼最強」是三個不同的第一名
獨立評測平台的存在,就是為了用統一的標準、公正的方式比較各家模型,讓用戶不再被行銷話術迷惑。但就算是獨立平台,各自的評測邏輯也大不相同,搞懂這些差異,才能在對的情境找對的榜單。
二、Arena AI — 最多人用的人類投票排行榜
| 官方網站 | https://arena.ai(前身為 UC Berkeley LMSYS Chatbot Arena,2026 年初改名) |
| 評測方式 | 人類盲測 ELO 投票(超過 600 萬筆使用者投票) |
| 評分系統 | ELO 積分制(類似西洋棋排名,每場對決後動態更新) |
| 涵蓋類別 | 聊天對話、程式碼生成、文字轉圖像、視覺理解、影片生成、AI 搜尋等多個分類排行榜 |
▌這個平台怎麼運作?
Arena AI 的核心概念很直觀:使用者輸入同一則 prompt,平台匿名顯示兩個模型的回應,讓使用者投票選出較好的那個,投完才揭露是哪兩款 AI 在對決。透過大量投票計算 ELO 分數,分數越高代表越常贏得對決。目前已累積超過 600 萬筆使用者投票。

✅ 優點
- 真實用戶投票,最反映日常使用感受
- 涵蓋文字、圖片、影片等多種類別
- 完全免費,可直接在網站測試 AI
- UC Berkeley 創立,學術公信力高
⚠️ 限制
- 已知有廠商私下測試數十個版本,只發布最高分的
- 多數用戶喜歡「長、流暢、討好人」的回答,不代表最準確
- 排名更新快,今天第一明天可能不是
三、Artificial Analysis — 最全面的性能與價格比較
| 官方網站 | https://artificialanalysis.ai |
| 評測方式 | 多維度客觀評測:智能指數 × 價格 × 速度(tokens/秒)× 延遲(TTFT)× Context 大小 |
| 涵蓋模型數 | 超過 310 個 AI 模型,含 194 個開放權重模型 |
| 涵蓋類別 | LLM、文字轉圖像、文字轉影片、影像轉影片、語音合成(TTS)、語音辨識(STT)、Embedding |
▌這個平台怎麼運作?
Artificial Analysis 是開發者和企業選型時最愛的參考,因為它不只看「AI 聰不聰明」,還把價格和速度同樣列入評比。你可以在這裡看到:
- 智能指數(Intelligence Score):整合 MMLU、MT-Bench、HumanEval 等多個學術評測的綜合指標
- 輸出速度:每秒輸出幾個 token(越快越好)
- 首字元延遲(TTFT):從送出問題到第一個字出現的時間(越短越好)
- Context 視窗大小:模型能一次處理多少字
- API 費用:每百萬 token 要多少錢
影片生成類別也採用盲測 ELO 機制:給各模型相同的 prompt,使用者在不知道是哪個模型的情況下投票,讓「視覺美感」的評分更客觀。這讓你可以找到「CP 值最高的模型」——也就是在可接受的價格和速度下,品質最好的那款。

✅ 優點
- 同時比較品質、速度、價格,一站搞定
- 涵蓋 TTS、STT、Embedding 等更多 AI 類別
- 對企業評估 API 成本效益特別有幫助
- 圖表視覺化清楚,容易看出各維度差距
⚠️ 限制
- 主要面向技術用戶,一般使用者可能看不太懂
- 智能指數依賴學術評測,不完全反映日常使用體驗
- 部分最新模型更新可能有延遲
四、SWE-bench — 程式工程師必看的軟體能力排行
| 官方網站 | https://www.swebench.com |
| 評測方式 | 給模型真實 GitHub issue + 程式碼庫,要求生成能解決問題的 patch,全程自動評分 |
| 分類版本 | SWE-bench Verified(500 題人工驗證版)、Multilingual(多語言)、Multimodal(含圖像理解) |
▌這個平台怎麼運作?
SWE-bench 的題目全部來自 GitHub 上的真實 issue 和 bug report,不是實驗室設計的假題目。系統給模型一個完整的程式碼庫和一個 issue 描述,要求它自動產生能解決問題的程式碼修改(patch),成功修復才算過關,沒有主觀判斷成分。
這是目前評估「AI 能不能真正自主寫程式」最嚴格的標準,也是各大 AI Coding Agent(如 GitHub Copilot Agent、Claude Code、Cursor)之間競爭的主要戰場。

✅ 優點
- 真實 GitHub 問題,比人造題目更有參考價值
- 客觀自動評分,不受主觀偏見影響
- 業界公認評估 Coding Agent 的黃金標準
⚠️ 限制
- 只評測程式碼能力,不涉及其他項目
- 目前以 Python 為主,其他語言覆蓋率在擴充中
五、Design Arena — 全球第一個 AI 設計能力排行榜
| 官方網站 | https://www.designarena.ai/leaderboard |
| 評測方式 | 眾包盲測 Bradley-Terry 評分(每次隨機選 4 個模型兩兩對比投票) |
| 涵蓋類別 | Website、UI Components、Game Dev、Data Visualization、3D Design |
| 背景 | 哈佛畢業生創立,Y Combinator 2025 夏季班成員,上線首月超過 47,000 名使用者 |
▌這個平台怎麼運作?
Design Arena 是全球第一個針對 AI 生成設計的 benchmark,給相同的創意 prompt 給各大 AI 模型,並列顯示結果讓使用者投票。
評測機制相當獨特:每次投票隨機從模型池選出四個模型,給予相同 prompt 並同時生成結果,兩兩匿名比對讓使用者選擇偏好,直到產生完整的第一到第四名排序。所有模型身份在評估過程中全程隱藏,以防止品牌偏見。評分使用 Bradley-Terry 模型計算,類似 ELO 的演算法但更適合多模型同時比較。
網站還提供偏好度 vs 速度的雙軸分析,讓你在「更好看」和「更快生成」之間找到平衡點。

✅ 優點
- 唯一專注 UI/UX 和設計的 AI 排行榜
- 四模型同時比對,評測效率高
- 提供美感 vs 速度雙軸分析
⚠️ 限制
- 平台較新,知名度尚在成長中
- 美感評分主觀成分高,因人而異
六、Scale Labs SEAL — 企業級專家評測 + 使用者分群分析
| 官方網站 | https://labs.scale.com/leaderboard |
| 評測方式 | ① SEAL Coding:專業標注員評審(三位並行 + 雙重品管) ② SEAL Showdown:真實使用者盲測投票(來自 80+ 國、70+ 語言) |
| 主辦機構 | Scale AI(全球最大 AI 資料標注公司之一,估值超過 130 億美元) |
| 特色功能 | Showdown 可依使用者國家、教育程度、職業、語言、年齡分群查看偏好差異 |
▌兩種評測機制
SEAL Coding Leaderboard:由 Scale AI 的專業標注人員對各模型進行程式語言、開發任務的全面評估,每個任務由三位不同標注員平行執行,並經過初步審查與最終審查兩道品管流程,是所有 AI 排行榜中最嚴格的人工評審機制。
SEAL Showdown:基於 Scale 的 Outlier 平台上的真實對話數據,投票由真實使用者自願盲測產生。最獨特的功能是使用者分群分析——可以查看來自 80 多個國家、70 多種語言的不同職業背景用戶,對各個模型的實際偏好差異。

✅ 優點
- 專家評審,貼近企業真實工作場景
- Showdown 的用戶分群分析是業界唯一
- 比一般人投票更難被廠商操控
⚠️ 限制
- 評測頻率較低,更新速度比 Arena AI 慢
- Scale AI 是商業公司,部分人質疑中立性
七、Hugging Face Open LLM Leaderboard — 開源模型的主場
| 官方網站 | huggingface.co → Open LLM Leaderboard |
| 評測方式 | 標準化學術評測(IFEval、BBH、MATH Level 5、GPQA、MMLU-PRO 等) |
| 主辦機構 | Hugging Face(全球最大開源 AI 模型平台) |
| 評測對象 | 僅開源模型(ChatGPT、Claude 等閉源商業模型不在評比範圍內) |
▌這個平台怎麼運作?
Hugging Face Open LLM Leaderboard 是開源 AI 社群的聖地,也是 Ollama、LM Studio 用戶最常參考的排行榜。它只評比可以公開下載模型權重的開源模型,評測方式是固定的學術測試題目,任何人都可以提交自己的模型來評測。
如果你想知道「Gemma 4、Llama、Qwen 這些免費模型哪個最強」,這裡就是答案。

✅ 優點
- 開源社群最大、最活躍的評測平台
- 模型量最多,幾乎所有開源模型都有
- 評測方法完全透明、可重現
⚠️ 限制
- 不評測 ChatGPT、Claude 等閉源模型
- 固定題目,AI 公司可能針對性訓練
八、LiveBench — 最難作弊的動態測試
| 官方網站 | https://livebench.ai |
| 評測方式 | 每月新出題(基於最新 arXiv 論文、新聞、競程題目),有客觀答案,不靠 AI 當評審 |
| 核心特色 | 「動態出題」——每個月換新題目,大幅降低訓練資料污染的可能性 |
| 評測類別 | 數學、程式碼、推理、語言、指令遵循、資料分析(共 6 大類 18 項任務) |
▌這個平台怎麼運作?
LiveBench 解決的是一個 AI 評測界長期存在的問題:「考試前先看答案」。傳統評測(如 MMLU)用的是固定題庫,這些題目遲早會出現在模型的訓練資料裡,導致分數虛高。LiveBench 的做法是每個月出新題目——題目來源是最近剛發表的 arXiv 學術論文、最新新聞事件、最近才舉辦的競程比賽(如 LeetCode 新題),這些題目不可能在訓練資料中出現。
更重要的是,LiveBench 的所有題目都有客觀的標準答案,用程式自動判分,不需要另一個 AI 來評分(排除了「讓 GPT 評審 GPT」的循環偏見問題)。這個研究在 ICLR 2025 獲得 Spotlight Paper 肯定。

✅ 優點
- 最難被廠商「刷題」應付的評測
- 答案客觀,不靠 AI 評審減少偏見
- 每月更新,反映模型最新能力
- 學術公信力高(ICLR 2025 Spotlight)
⚠️ 限制
- 知名度比 Arena AI 低,一般人較少聽過
- 評測的模型數量相對較少
- 偏重數學、推理等硬實力,寫作創意不在評比範圍
九、補充三劍客:DataLearner、LLM Stats、OpenRouter
以下三個平台雖然不像前面幾個有複雜的評測機制,但各有獨特的使用場景,阿正老師也經常參考:
DataLearner AI Leaderboards
https://www.datalearner.com/leaderboards
整合 MMLU Pro、GPQA Diamond、SWE-bench、MATH-500、AIME、LiveCodeBench 等多個 benchmark,可比較超過 190 個模型,並支援模型規模篩選(3B 以下到 100B 以上)及類型篩選。整合了 Artificial Analysis Intelligence Index v4.0,匯集 10 項嚴格 benchmark,並附有詳細的方法論說明。
特色:中英雙語介面,對台灣使用者最友善,一站式查詢多個 benchmark 分項成績的首選。

LLM Stats
https://llm-stats.com
整合了 LLM、圖像生成、影片生成、TTS、STT、Embedding 多個類別的排行榜,讓使用者依照效能、價格與速度進行比較。介面乾淨直覺,適合快速查詢某個類別的當前冠軍。
特色:想快速了解某類 AI 目前誰最強,不想深入研究方法論,看這裡最省時。

OpenRouter Rankings
https://openrouter.ai/rankings
以數百萬實際使用者的真實 API 呼叫資料為基礎,呈現開發者實際上最常選用哪些 AI 模型。反映的是「市場實際採用率」而非實驗室測試分數——了解「大家實際在用什麼」,有時候比了解「理論上哪個最強」更有實用參考價值。
特色:想跟業界主流走、不想花時間研究評測方法論,直接看開發者用腳投票的結果。

十、八個平台比一比
| 平台 | 評分方式 | 涵蓋主題 | 適合對象 | 難造假 |
|---|---|---|---|---|
| Arena AI | 人工盲測 ELO | Chat / Code / Image / Video | 一般使用者、研究者 | ⭐⭐ |
| Artificial Analysis | Benchmark + 速度 + 價格 | LLM / Image / Video / TTS / STT | 開發者、企業選型 | ⭐⭐⭐ |
| SWE-bench | 真實 GitHub Issue 測試 | 程式碼(軟體工程) | 工程師、DevOps | ⭐⭐⭐⭐ |
| Design Arena | 人工盲測 Bradley-Terry | Website / UI / 3D / Data Viz | 前端開發者、設計師 | ⭐⭐⭐ |
| Scale SEAL | 專家評測 + 使用者分群 | LLM / Code / Reasoning | 學術研究、企業評估 | ⭐⭐⭐⭐ |
| HF Open LLM | 標準學術評測 | 開源 LLM(本機 AI 必看) | 開源模型選型 | ⭐⭐ |
| LiveBench | 動態出題客觀評分 | 推理 / 數學 / 程式碼 | 確認真實智能能力 | ⭐⭐⭐⭐⭐ |
| DataLearner | 多 Benchmark 整合 | LLM / Code(中英雙語) | 研究者、中文使用者 | ⭐⭐⭐ |
| LLM Stats | 綜合整理 | LLM / Image / Video / TTS | 快速查各類冠軍 | — |
| OpenRouter Rankings | 真實 API 呼叫量 | LLM(市場採用率) | 了解業界主流選擇 | — |
十一、阿正老師的查榜策略
這幾個排行榜各有立場,阿正老師的建議是依情境組合使用,而不是只看一個就下結論:
選日常聊天 AI(ChatGPT、Gemini、Claude 哪個好用?)
→ 先看 Arena AI 的文字排行榜,最接近「用起來舒不舒服」的真實感受。
選 AI 程式碼工具(哪個 Coding Agent 真的能自主寫程式?)
→ SWE-bench 是最客觀的依據,搭配 Arena AI 的程式碼排行榜印證。
選 AI 設計或前端生成工具
→ Design Arena 是首選,目前唯一針對設計美感進行系統性評測的平台。
️ 選本機 AI 模型(Ollama / LM Studio 要下載哪個?)
→ 看 HF Open LLM Leaderboard 比較 Gemma 4、Llama、Qwen 的分數,再搭配 LiveBench 確認推理能力。
選 AI API 用於開發(速度、價格、品質怎麼衡量?)
→ Artificial Analysis 三維比較一次搞定,再去 OpenRouter Rankings 確認業界實際選擇。
為公司選擇 AI 工具(要用於實際企業工作流程)
→ Scale SEAL 的企業評測結果 + Showdown 分群分析,加上 Artificial Analysis 確認成本,三個合在一起是目前最完整的企業選型參考。
總結
這幾個排行榜各有立場:Arena AI 與 Design Arena 反映「人類偏好」,SWE-bench 和 Scale SEAL 反映「任務客觀表現」,Artificial Analysis 兼顧技術與成本效益,OpenRouter 則反映「市場實際行為」。每次 AI 公司宣稱自己「最強」,現在你知道怎麼去查了!
阿正老師最常用的組合是:Arena AI 看整體口碑 + SWE-bench 確認程式能力 + Artificial Analysis 確認 CP 值——多個維度交叉比對,才能選出真正適合自己場景的模型,而不是被行銷數字牽著走。
你有在追哪個 AI 排行榜嗎?歡迎在下面留言告訴阿正老師!


![[2026比較] Ollama vs LM Studio vs Jan — 在自己電腦跑 AI,哪個最好用? [2026比較] Ollama vs LM Studio vs Jan — 在自己電腦跑 AI,哪個最好用?](https://i3.wp.com/image.pcrookie.com/2026/04/31557c313c4d_E403/image.png?w=218&resize=218,150&ssl=1)


![[2026 必裝] 自己的 AI 自己養!阿正老師推這款「Ollama」:一鍵在你的電腦跑超強 AI,斷網也能用、資料不外洩! [2026 必裝] 自己的 AI 自己養!阿正老師推這款「Ollama」:一鍵在你的電腦跑超強 AI,斷網也能用、資料不外洩!](https://i0.wp.com/image.pcrookie.com/2026/04/b35116401535_F2CF/image.png?w=218&resize=218,150&ssl=1)



