AI相關

Claude Opus 4.8 正式發布！最強 AI 模型功能特色、跑分表現完整解析

2026 年 05 月 29 日

379 人次

AI 模型的競爭從來沒有停歇！就在 2026 年 5 月 28 日，Anthropic 正式推出了旗艦新模型 Claude Opus 4.8，這是 Opus 系列在短短幾個月內的第三次升級，距離上一版 Opus 4.7 才過了 41 天，更新速度之快令人印象深刻。

阿正老師第一時間就把它開出來試用了！說真的，這次 Opus 4.8 的亮點不只是「又更強了幾分」，更重要的是 Anthropic 終於正面解決了很多人詬病 AI 的核心問題——它說謊的頻率大幅降低了。不管是寫程式時默默把有問題的程式碼「蒙混過關」，還是任務沒完成卻跟你說「完成了」，這些狀況在 Opus 4.8 上都大幅改善。

這篇文章阿正老師會帶你完整了解 Claude Opus 4.8 的主要功能、特色，以及它跟 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro 相比，究竟誰更強？讓我們一起來看看！

文章目錄

什麼是 Claude Opus 4.8？
Opus 4.8 四大核心升級
最重要的改變：更誠實的 AI
實測跑分數據
三大 AI 模型一次比較
費用與使用方式
阿正老師的總結

一、什麼是 Claude Opus 4.8？

Claude 是美國 AI 公司 Anthropic 所開發的人工智慧模型。你可以把它想成跟 ChatGPT 類似的 AI 助理，可以幫你寫文章、寫程式、分析資料、回答問題……幾乎什麼都能做。

Anthropic 的 Claude 模型分成好幾個等級：Haiku（輕量快速）、Sonnet（均衡效能）、Opus（最強旗艦）。Opus 4.8 就是目前 Anthropic 推出的最強模型，特別適合需要高度智慧判斷、長時間自主執行任務、以及大量程式碼工作的場景。

官方網站	https://www.anthropic.com/claude/opus
發布日期	2026 年 5 月 28 日
模型 API ID	claude-opus-4-8
最大記憶體量	輸入 100 萬 Token / 輸出 12.8 萬 Token
支援平台	Claude.ai、Claude API、Amazon Bedrock、Google Vertex AI、Microsoft Foundry、GitHub Copilot
費用（API）	輸入 $5 / 100萬 Token；輸出 $25 / 100萬 Token
軟體下載	[本站下載點]

二、Opus 4.8 四大核心升級

這次 Opus 4.8 並不是架構上的大翻新，而是在實際使用上做了幾個非常有感的改變。以下是阿正老師歸納的四大重點：

升級一：動態工作流程（Dynamic Workflows）——多個 AI 同時幫你做事

這是這次最重要的功能升級！過去 Claude 在處理大型任務（例如整個程式專案的重構）時，是一步一步「排隊」完成的，非常耗時。Opus 4.8 在 Claude Code（官方的 AI 程式碼工具）中引入了「動態工作流程」，可以同時啟動多個平行的「子代理」（subagent），每個子代理負責任務的一部分，最後由一個主要的「協調者」統整所有結果。

簡單說，就像以前只有一個員工做事，現在變成一個主管帶著多個員工同時分工處理，效率大幅提升！特別適合需要修改大量程式檔案的開發工作。

動態工作流程目前在 Claude Code 中啟用，同時也延伸到 claude.ai 和 Cowork 工具上。開發者可以用 API 的 Messages 陣列傳入「任務中途系統指令」，讓 AI 在長任務執行途中接受即時調整。

⚡ 升級二：快速模式（Fast Mode）——速度提升 2.5 倍，價格卻更划算

Opus 4.8 推出了選配的「快速模式」，速度大約是標準模式的 2.5 倍，特別適合需要低延遲回應的互動場景。費用是標準價格的 2 倍（輸入 $10 / 輸出 $50 per 百萬 Token），但比起前一代的快速模式貴了超過 3 倍，這次算是大幅降價，對開發者來說是個好消息。

⚠️ 快速模式目前屬於研究預覽（Research Preview），需要聯絡 Anthropic 的客戶經理才能申請開通，一般使用者暫時無法直接使用。

升級三：更高的思考力上限（更精密的 xhigh / max 努力等級）

Opus 4.8 預設就使用「高（high）」努力等級思考問題，同時提供 xhigh 和 max 兩個更高的選項，讓模型面對特別困難的問題時可以「想得更深更久」。當然，思考越多就會消耗越多輸出 Token，使用時要注意一下費用。

升級四：任務中途可以調整指令（Mid-task System Messages）

以往開發者在用 API 控制 Claude 執行長任務時，如果想中途調整指令，就必須重新送出完整的系統提示，這樣會「清空快取」造成額外費用。Opus 4.8 現在讓開發者可以在任務進行中插入新的系統指令，不會破壞現有的提示快取，對大規模 AI 應用的開發成本控制幫助很大。

三、最重要的改變：更誠實的 AI

阿正老師認為，這次 Opus 4.8 最值得讓人眼睛一亮的地方，其實不是跑分，而是 「誠實度」的大幅提升。很多人可能有類似的困擾：叫 AI 寫程式，它把有問題的程式碼交給你，還跟你說「沒問題，可以運行了！」——結果跑起來一堆錯誤。

根據 Anthropic 的對齊評估數據：

Opus 4.8 讓有問題的程式碼「悄悄過關不提醒」的機率，比 Opus 4.7 降低了 4 倍
在 AI 代理任務中，謊稱任務已完成的情況，比 Claude Sonnet 4.6 降低了 17 倍
對不確定的問題，它更傾向於「不回答、說不知道」，而不是硬掰一個可能錯誤的答案

這對於讓 AI 長時間自主執行任務（例如跑了好幾小時的自動化工作流程）特別重要，因為你需要確信它回報的結果是真實的，而不是「反正說完成了你也不會馬上發現」。

阿正老師點評：誠實度的提升聽起來很抽象，但對實際工作影響很大。當你叫 AI 整理一百份文件、或幫你驗收一個大型程式專案，你最不需要的就是「完成了！」但其實沒真的完成的謊言。Opus 4.8 在這方面的進步，是阿正老師認為這次升級最有實際價值的地方。

四、實測跑分數據

跑分（benchmark）是 AI 界評估模型能力的標準方式，就像電腦的性能跑分一樣。以下是 Anthropic 自行發布的 Opus 4.8 vs 4.7 對比數據：

評測項目	說明	Opus 4.8	Opus 4.7	進步幅度
SWE-bench Verified	真實世界程式碼修復能力	88.6%	87.6%	+1.0
SWE-bench Pro	更難的程式碼任務（多檔案修改）	69.2%	64.3%	+4.9
Terminal-Bench 2.1	命令列任務執行能力	74.6%	69.4%*	↑
GPQA Diamond	研究所等級科學推理（物理/化學/生物）	93.6%	94.2%	-0.6
HLE（含工具）	人類最後考試（跨領域超難題）	57.9%	54.7%	+3.2
OSWorld-Verified	電腦桌面操作能力（Computer Use）	83.4%	78.0%	+5.4
BrowseComp	自主網路搜尋瀏覽能力	84.3%	79.3%	+5.0
USAMO 2026 數學競賽	美國數學奧林匹克競賽題目	96.7%	69.3%	+27.4
MCP-Atlas	工具呼叫能力（使用外部工具）	82.2%	77.3%	+4.9
GDPval-AA（Elo）	專業知識工作評估（Elo 分數）	1890	—	排名第一

* Terminal-Bench 從 2.0 升級至 2.1 版本，數據不能直接比較。USAMO 資料來源：Anthropic 系統說明卡。

特別值得注意的是數學能力的飛躍——USAMO 2026 數學競賽從 4.7 的 69.3% 一口氣跳到 96.7%，足足進步了超過 27 個百分點！這是 Opus 系列有史以來單次升級中最大的數學跳幅。

五、三大 AI 模型一次比較

現在 AI 市場三強鼎立：Anthropic 的 Claude Opus 4.8、OpenAI 的 GPT-5.5、Google 的 Gemini 3.1 Pro。阿正老師幫你整理了最關鍵的比較數據，讓你一眼看清楚誰在哪方面最強。

比較項目	Claude Opus 4.8	GPT-5.5	Gemini 3.1 Pro
BenchLM 綜合評分	93	91	92
程式碼能力	76.4	58.6	—
SWE-bench Verified	88.6%	—	—
AI 代理任務能力	80.1	81.5	—
多模態（圖表/圖片分析）	76.1	70.4	82.8
知識與問答	70.1	66.4	—
GPQA Diamond（科學推理）	93.6%	—	—
API 輸出費用（每百萬 Token）	$25	$30	$12
最大情境視窗	100萬 Token	100萬 Token	100萬 Token
誠實度 / 幻覺（Hallucination）率	最低	明顯較高	居中
發布日期	2026/05/28	2026/04/23	2026 年初

資料來源：BenchLM.ai（2026/05/28）、Anthropic 系統說明卡、Attainment Labs 實測報告。部分項目因各方測試方法不同或尚未公開可比數據，以「—」表示。

簡單總結一下三強各自的強項：

Claude Opus 4.8：程式碼能力最強、誠實度最高、科學推理頂尖、數學大躍進——適合寫程式、長文分析、複雜推理
GPT-5.5：AI 代理任務執行力最強——適合需要 AI 長時間自主操作電腦的場景（但幻覺率偏高需注意）
Gemini 3.1 Pro：圖片/影片/圖表分析最強、速度最快、API 費用最便宜——適合大量文件影像處理、對成本敏感的專案

六、費用與使用方式

很多人最關心的就是——用 Claude Opus 4.8 要花多少錢？好消息是這次升級沒有漲價，和 Opus 4.7 完全一樣。

一般使用者（網頁 / App）

前往 claude.ai 即可使用。Opus 4.8 需要付費方案才能使用：

Pro 方案：每月 $20 美元，可使用 Opus 4.8（有用量上限）
Max 方案：每月 $100 美元起，用量更高
Team / Enterprise：企業方案，可洽詢 Anthropic

開發者（API）

模式	輸入費用（每百萬 Token）	輸出費用（每百萬 Token）	備註
標準模式	$5	$25	與 4.7 同價
快速模式（Fast Mode）	$10	$50	需申請，速度約 2.5 倍
Prompt 快取（Prompt Caching）	可節省高達 90% 輸入費用		長任務特別划算
批次處理（Batch Processing）	可節省 50% 費用		適合大量非即時任務

Opus 4.8 同時支援 Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 和 GitHub Copilot，企業客戶可透過現有雲端平台直接存取，不需額外開設 Anthropic 帳號。

七、阿正老師的總結

Anthropic 自己也說了，Opus 4.8 是「modest but tangible improvement（不大但有感的進步）」——這種難得的誠實態度，其實跟這次升級的主題「誠實度」完全吻合！比起硬吹「史上最強」，阿正老師反而更欣賞這種實事求是的態度。

我需要一個會寫程式的 AI 助手

→ Claude Opus 4.8。程式碼能力遠超對手，SWE-bench Pro 領先 GPT-5.5 超過 10 個百分點，而且更誠實地告訴你哪裡有問題。

我想讓 AI 自動幫我完成長時間的複雜任務

→ Claude Opus 4.8。動態工作流程 + 誠實度大幅提升，讓你放心讓它自主跑幾個小時的任務，回來看到的結果是真實可信的。

我需要大量分析圖片、圖表、影片內容

→ Gemini 3.1 Pro。多模態能力領先，而且 API 費用只有 Claude 的一半不到，適合大量影像處理工作。

我想讓 AI 自主操控電腦執行任務（Computer Use）

→ 各有考量。GPT-5.5 在代理執行評測稍強，但 Claude Opus 4.8 在 OSWorld-Verified 達到 83.4%，同樣是市場頂尖水準，加上幻覺率更低。

Claude Opus 4.8 是 2026 年目前最值得信賴的旗艦 AI

對阿正老師來說，選 AI 模型就像選一個工作夥伴——它不只要能力強，還要誠實可靠。Opus 4.8 在程式碼能力保持領先的同時，這次又大幅強化了「說實話」的能力，讓阿正老師在用我的 AMD R7 5800x + RTX 5070 桌機跑本地任務之餘，也更安心地把需要雲端 AI 協助的工作交給它處理。

特別值得一提的是，Anthropic 還預告了下一代模型「Mythos」即將到來（預計數週內）——Opus 4.8 是個很強的現役旗艦，但更強的時代已經在路上了！

你目前用的是哪款 AI？有沒有遇到 AI 「說謊騙你說完成了」的情況？歡迎在下面留言跟阿正老師分享！