AI相關

AI 哪個最強？8 個不能錯過的 AI 模型排行榜網站！

2026 年 04 月 08 日

3,486 人次

「ChatGPT、Gemini、Claude……到底哪個 AI 最強？」

這個問題沒有標準答案——因為「最強」要看你怎麼比、比什麼項目。但好在有一群研究人員和工程師，專門建立了客觀的評測平台，讓各家 AI 在同樣的標準下一較高下。

阿正老師今天整理了 8 個最具公信力的 AI 排行榜網站，帶你看清楚各平台的評測邏輯、目前誰排第一，以及各平台的優缺點——讓你以後看到 AI 廠商宣稱「業界第一」時，能夠自己判斷他們說的到底算不算數！

文章目錄

為什麼需要獨立 AI 排行榜？
Arena AI — 最多人用的人類投票排行榜
Artificial Analysis — 最全面的性能與價格比較
SWE-bench — 程式工程師必看
Design Arena — AI 設計能力全球排行
Scale Labs SEAL — 企業級專家評測
Hugging Face Open LLM Leaderboard — 開源模型的主場
LiveBench — 最難作弊的動態測試
DataLearner、LLM Stats、OpenRouter — 補充三劍客
八個平台比一比
阿正老師的查榜策略

一、為什麼需要獨立 AI 排行榜？

AI 公司發表新模型時，幾乎每一家都會說自己「在某某測試拿第一」。問題是：

各家測試的項目不一樣，A 公司選的題目可能剛好對自己有利
有些測試題目已經被模型「訓練過」，考試前先看過答案，成績自然好看
「寫作最強」、「推理最強」、「程式碼最強」是三個不同的第一名

獨立評測平台的存在，就是為了用統一的標準、公正的方式比較各家模型，讓用戶不再被行銷話術迷惑。但就算是獨立平台，各自的評測邏輯也大不相同，搞懂這些差異，才能在對的情境找對的榜單。

⚠️ 看排行榜的心態：排行榜的名次只是參考，實際使用體驗才是最終依據。阿正老師建議先看排行榜縮小選擇範圍，再親自試用幾款找到最適合自己的。

二、Arena AI — 最多人用的人類投票排行榜

官方網站	https://arena.ai（前身為 UC Berkeley LMSYS Chatbot Arena，2026 年初改名）
評測方式	人類盲測 ELO 投票（超過 600 萬筆使用者投票）
評分系統	ELO 積分制（類似西洋棋排名，每場對決後動態更新）
涵蓋類別	聊天對話、程式碼生成、文字轉圖像、視覺理解、影片生成、AI 搜尋等多個分類排行榜

▌這個平台怎麼運作？

Arena AI 的核心概念很直觀：使用者輸入同一則 prompt，平台匿名顯示兩個模型的回應，讓使用者投票選出較好的那個，投完才揭露是哪兩款 AI 在對決。透過大量投票計算 ELO 分數，分數越高代表越常贏得對決。目前已累積超過 600 萬筆使用者投票。

✅ 優點

真實用戶投票，最反映日常使用感受
涵蓋文字、圖片、影片等多種類別
完全免費，可直接在網站測試 AI
UC Berkeley 創立，學術公信力高

⚠️ 限制

已知有廠商私下測試數十個版本，只發布最高分的
多數用戶喜歡「長、流暢、討好人」的回答，不代表最準確
排名更新快，今天第一明天可能不是

阿正老師提示：想知道哪個 AI「用起來最舒服」，看 Arena AI 最準確。日常聊天、寫作、一般問答選模型的第一站。

三、Artificial Analysis — 最全面的性能與價格比較

官方網站	https://artificialanalysis.ai
評測方式	多維度客觀評測：智能指數 × 價格 × 速度（tokens/秒）× 延遲（TTFT）× Context 大小
涵蓋模型數	超過 310 個 AI 模型，含 194 個開放權重模型
涵蓋類別	LLM、文字轉圖像、文字轉影片、影像轉影片、語音合成（TTS）、語音辨識（STT）、Embedding

▌這個平台怎麼運作？

Artificial Analysis 是開發者和企業選型時最愛的參考，因為它不只看「AI 聰不聰明」，還把價格和速度同樣列入評比。你可以在這裡看到：

智能指數（Intelligence Score）：整合 MMLU、MT-Bench、HumanEval 等多個學術評測的綜合指標
輸出速度：每秒輸出幾個 token（越快越好）
首字元延遲（TTFT）：從送出問題到第一個字出現的時間（越短越好）
Context 視窗大小：模型能一次處理多少字
API 費用：每百萬 token 要多少錢

影片生成類別也採用盲測 ELO 機制：給各模型相同的 prompt，使用者在不知道是哪個模型的情況下投票，讓「視覺美感」的評分更客觀。這讓你可以找到「CP 值最高的模型」——也就是在可接受的價格和速度下，品質最好的那款。

✅ 優點

同時比較品質、速度、價格，一站搞定
涵蓋 TTS、STT、Embedding 等更多 AI 類別
對企業評估 API 成本效益特別有幫助
圖表視覺化清楚，容易看出各維度差距

⚠️ 限制

主要面向技術用戶，一般使用者可能看不太懂
智能指數依賴學術評測，不完全反映日常使用體驗
部分最新模型更新可能有延遲

阿正老師提示：開發者選 API、想找 CP 值最高模型的必看平台。一般使用者想找「最快又不貴的免費 AI」也可以來這裡查。

四、SWE-bench — 程式工程師必看的軟體能力排行

官方網站	https://www.swebench.com
評測方式	給模型真實 GitHub issue + 程式碼庫，要求生成能解決問題的 patch，全程自動評分
分類版本	SWE-bench Verified（500 題人工驗證版）、Multilingual（多語言）、Multimodal（含圖像理解）

▌這個平台怎麼運作？

SWE-bench 的題目全部來自 GitHub 上的真實 issue 和 bug report，不是實驗室設計的假題目。系統給模型一個完整的程式碼庫和一個 issue 描述，要求它自動產生能解決問題的程式碼修改（patch），成功修復才算過關，沒有主觀判斷成分。

這是目前評估「AI 能不能真正自主寫程式」最嚴格的標準，也是各大 AI Coding Agent（如 GitHub Copilot Agent、Claude Code、Cursor）之間競爭的主要戰場。

✅ 優點

真實 GitHub 問題，比人造題目更有參考價值
客觀自動評分，不受主觀偏見影響
業界公認評估 Coding Agent 的黃金標準

⚠️ 限制

只評測程式碼能力，不涉及其他項目
目前以 Python 為主，其他語言覆蓋率在擴充中

阿正老師提示：工程師、DevOps、想用 AI 自動解 bug 的人必看。在這裡排名高的模型，才是真正能「自主寫程式」的 AI，不只是會回答程式問題而已。

五、Design Arena — 全球第一個 AI 設計能力排行榜

官方網站	https://www.designarena.ai/leaderboard
評測方式	眾包盲測 Bradley-Terry 評分（每次隨機選 4 個模型兩兩對比投票）
涵蓋類別	Website、UI Components、Game Dev、Data Visualization、3D Design
背景	哈佛畢業生創立，Y Combinator 2025 夏季班成員，上線首月超過 47,000 名使用者

▌這個平台怎麼運作？

Design Arena 是全球第一個針對 AI 生成設計的 benchmark，給相同的創意 prompt 給各大 AI 模型，並列顯示結果讓使用者投票。

評測機制相當獨特：每次投票隨機從模型池選出四個模型，給予相同 prompt 並同時生成結果，兩兩匿名比對讓使用者選擇偏好，直到產生完整的第一到第四名排序。所有模型身份在評估過程中全程隱藏，以防止品牌偏見。評分使用 Bradley-Terry 模型計算，類似 ELO 的演算法但更適合多模型同時比較。

網站還提供偏好度 vs 速度的雙軸分析，讓你在「更好看」和「更快生成」之間找到平衡點。

✅ 優點

唯一專注 UI/UX 和設計的 AI 排行榜
四模型同時比對，評測效率高
提供美感 vs 速度雙軸分析

⚠️ 限制

平台較新，知名度尚在成長中
美感評分主觀成分高，因人而異

阿正老師提示：前端開發者、UI/UX 設計師必追。想用 AI 生成網站、介面、資料視覺化的人，來這裡找最適合的工具。

六、Scale Labs SEAL — 企業級專家評測 + 使用者分群分析

官方網站	https://labs.scale.com/leaderboard
評測方式	① SEAL Coding：專業標注員評審（三位並行 + 雙重品管） ② SEAL Showdown：真實使用者盲測投票（來自 80+ 國、70+ 語言）
主辦機構	Scale AI（全球最大 AI 資料標注公司之一，估值超過 130 億美元）
特色功能	Showdown 可依使用者國家、教育程度、職業、語言、年齡分群查看偏好差異

▌兩種評測機制

SEAL Coding Leaderboard：由 Scale AI 的專業標注人員對各模型進行程式語言、開發任務的全面評估，每個任務由三位不同標注員平行執行，並經過初步審查與最終審查兩道品管流程，是所有 AI 排行榜中最嚴格的人工評審機制。

SEAL Showdown：基於 Scale 的 Outlier 平台上的真實對話數據，投票由真實使用者自願盲測產生。最獨特的功能是使用者分群分析——可以查看來自 80 多個國家、70 多種語言的不同職業背景用戶，對各個模型的實際偏好差異。

✅ 優點

專家評審，貼近企業真實工作場景
Showdown 的用戶分群分析是業界唯一
比一般人投票更難被廠商操控

⚠️ 限制

評測頻率較低，更新速度比 Arena AI 慢
Scale AI 是商業公司，部分人質疑中立性

阿正老師提示：學術研究者、大型企業評估團隊，以及想了解「不同職業背景的使用者實際偏好」的人必看。想選企業用 AI 工作流程，這裡的評測比 Arena AI 更貼近真實場景。

七、Hugging Face Open LLM Leaderboard — 開源模型的主場

官方網站	huggingface.co → Open LLM Leaderboard
評測方式	標準化學術評測（IFEval、BBH、MATH Level 5、GPQA、MMLU-PRO 等）
主辦機構	Hugging Face（全球最大開源 AI 模型平台）
評測對象	僅開源模型（ChatGPT、Claude 等閉源商業模型不在評比範圍內）

▌這個平台怎麼運作？

Hugging Face Open LLM Leaderboard 是開源 AI 社群的聖地，也是 Ollama、LM Studio 用戶最常參考的排行榜。它只評比可以公開下載模型權重的開源模型，評測方式是固定的學術測試題目，任何人都可以提交自己的模型來評測。

如果你想知道「Gemma 4、Llama、Qwen 這些免費模型哪個最強」，這裡就是答案。

✅ 優點

開源社群最大、最活躍的評測平台
模型量最多，幾乎所有開源模型都有
評測方法完全透明、可重現

⚠️ 限制

不評測 ChatGPT、Claude 等閉源模型
固定題目，AI 公司可能針對性訓練

阿正老師提示：用 Ollama 或 LM Studio 跑本機 AI、想知道下載哪個開源模型最值得，這裡是第一個查的地方。

八、LiveBench — 最難作弊的動態測試

官方網站	https://livebench.ai
評測方式	每月新出題（基於最新 arXiv 論文、新聞、競程題目），有客觀答案，不靠 AI 當評審
核心特色	「動態出題」——每個月換新題目，大幅降低訓練資料污染的可能性
評測類別	數學、程式碼、推理、語言、指令遵循、資料分析（共 6 大類 18 項任務）

▌這個平台怎麼運作？

LiveBench 解決的是一個 AI 評測界長期存在的問題：「考試前先看答案」。傳統評測（如 MMLU）用的是固定題庫，這些題目遲早會出現在模型的訓練資料裡，導致分數虛高。LiveBench 的做法是每個月出新題目——題目來源是最近剛發表的 arXiv 學術論文、最新新聞事件、最近才舉辦的競程比賽（如 LeetCode 新題），這些題目不可能在訓練資料中出現。

更重要的是，LiveBench 的所有題目都有客觀的標準答案，用程式自動判分，不需要另一個 AI 來評分（排除了「讓 GPT 評審 GPT」的循環偏見問題）。這個研究在 ICLR 2025 獲得 Spotlight Paper 肯定。

✅ 優點

最難被廠商「刷題」應付的評測
答案客觀，不靠 AI 評審減少偏見
每月更新，反映模型最新能力
學術公信力高（ICLR 2025 Spotlight）

⚠️ 限制

知名度比 Arena AI 低，一般人較少聽過
評測的模型數量相對較少
偏重數學、推理等硬實力，寫作創意不在評比範圍

阿正老師提示：想知道哪個 AI「真的聰明」而不只是看起來聰明，LiveBench 最值得參考。特別是數學、邏輯推理、程式碼這三項的排名，比 Arena AI 更難造假。

九、補充三劍客：DataLearner、LLM Stats、OpenRouter

以下三個平台雖然不像前面幾個有複雜的評測機制，但各有獨特的使用場景，阿正老師也經常參考：

DataLearner AI Leaderboards

https://www.datalearner.com/leaderboards

整合 MMLU Pro、GPQA Diamond、SWE-bench、MATH-500、AIME、LiveCodeBench 等多個 benchmark，可比較超過 190 個模型，並支援模型規模篩選（3B 以下到 100B 以上）及類型篩選。整合了 Artificial Analysis Intelligence Index v4.0，匯集 10 項嚴格 benchmark，並附有詳細的方法論說明。

特色：中英雙語介面，對台灣使用者最友善，一站式查詢多個 benchmark 分項成績的首選。

LLM Stats

https://llm-stats.com

整合了 LLM、圖像生成、影片生成、TTS、STT、Embedding 多個類別的排行榜，讓使用者依照效能、價格與速度進行比較。介面乾淨直覺，適合快速查詢某個類別的當前冠軍。

特色：想快速了解某類 AI 目前誰最強，不想深入研究方法論，看這裡最省時。

OpenRouter Rankings

https://openrouter.ai/rankings

以數百萬實際使用者的真實 API 呼叫資料為基礎，呈現開發者實際上最常選用哪些 AI 模型。反映的是「市場實際採用率」而非實驗室測試分數——了解「大家實際在用什麼」，有時候比了解「理論上哪個最強」更有實用參考價值。

特色：想跟業界主流走、不想花時間研究評測方法論，直接看開發者用腳投票的結果。

十、八個平台比一比

平台	評分方式	涵蓋主題	適合對象	難造假
Arena AI	人工盲測 ELO	Chat / Code / Image / Video	一般使用者、研究者	⭐⭐
Artificial Analysis	Benchmark + 速度 + 價格	LLM / Image / Video / TTS / STT	開發者、企業選型	⭐⭐⭐
SWE-bench	真實 GitHub Issue 測試	程式碼（軟體工程）	工程師、DevOps	⭐⭐⭐⭐
Design Arena	人工盲測 Bradley-Terry	Website / UI / 3D / Data Viz	前端開發者、設計師	⭐⭐⭐
Scale SEAL	專家評測 + 使用者分群	LLM / Code / Reasoning	學術研究、企業評估	⭐⭐⭐⭐
HF Open LLM	標準學術評測	開源 LLM（本機 AI 必看）	開源模型選型	⭐⭐
LiveBench	動態出題客觀評分	推理 / 數學 / 程式碼	確認真實智能能力	⭐⭐⭐⭐⭐
DataLearner	多 Benchmark 整合	LLM / Code（中英雙語）	研究者、中文使用者	⭐⭐⭐
LLM Stats	綜合整理	LLM / Image / Video / TTS	快速查各類冠軍	—
OpenRouter Rankings	真實 API 呼叫量	LLM（市場採用率）	了解業界主流選擇	—

十一、阿正老師的查榜策略

這幾個排行榜各有立場，阿正老師的建議是依情境組合使用，而不是只看一個就下結論：

選日常聊天 AI（ChatGPT、Gemini、Claude 哪個好用？）

→ 先看 Arena AI 的文字排行榜，最接近「用起來舒不舒服」的真實感受。

選 AI 程式碼工具（哪個 Coding Agent 真的能自主寫程式？）

→ SWE-bench 是最客觀的依據，搭配 Arena AI 的程式碼排行榜印證。

選 AI 設計或前端生成工具

→ Design Arena 是首選，目前唯一針對設計美感進行系統性評測的平台。

️ 選本機 AI 模型（Ollama / LM Studio 要下載哪個？）

→ 看 HF Open LLM Leaderboard 比較 Gemma 4、Llama、Qwen 的分數，再搭配 LiveBench 確認推理能力。

選 AI API 用於開發（速度、價格、品質怎麼衡量？）

→ Artificial Analysis 三維比較一次搞定，再去 OpenRouter Rankings 確認業界實際選擇。

為公司選擇 AI 工具（要用於實際企業工作流程）

→ Scale SEAL 的企業評測結果 + Showdown 分群分析，加上 Artificial Analysis 確認成本，三個合在一起是目前最完整的企業選型參考。

總結

這幾個排行榜各有立場：Arena AI 與 Design Arena 反映「人類偏好」，SWE-bench 和 Scale SEAL 反映「任務客觀表現」，Artificial Analysis 兼顧技術與成本效益，OpenRouter 則反映「市場實際行為」。每次 AI 公司宣稱自己「最強」，現在你知道怎麼去查了！

阿正老師最常用的組合是：Arena AI 看整體口碑 + SWE-bench 確認程式能力 + Artificial Analysis 確認 CP 值——多個維度交叉比對，才能選出真正適合自己場景的模型，而不是被行銷數字牽著走。

你有在追哪個 AI 排行榜嗎？歡迎在下面留言告訴阿正老師！