2026年4月AI大模型排名:谷歌登頂,國產模型全面崛起
如果你最近還在用半年前選定的AI模型做業務,可能要重新看一看了。
Artificial Analysis 每72小時更新一次的 LLM 排行榜,目前已收錄 317 個模型。這張榜單不是看論文發表數量,也不靠廠商自報,而是從實際 API 調用中采集智能指數、響應速度、成本和延遲這幾個維度的實測數據。換句話說,它大致反映了”花錢買到的模型到底怎么樣”。
智能指數前五,格局已經變了
排行榜的核心是”智能指數(Intelligence Index)”,滿分不限,越高越好。截至2026年4月,前五名是:
Gemini 3.1 Pro Preview(谷歌,57分)和 GPT-5.4 xhigh(OpenAI,57分)并列第一,兩家打了個平手。第三是 GPT-5.3 Codex xhigh(OpenAI,54分),第四是 Claude Opus 4.6 max(Anthropic,53分),第五是 Meta 的 Muse Spark(52分)。
值得注意的是,谷歌這次是真正意義上的第一次登頂。過去幾年 GPT 系列幾乎是這類榜單的常客,而 Gemini 3.1 Pro 以實測分數追平 GPT-5.4,說明谷歌在推理能力上已經補上了短板。
Anthropic 的 Claude Opus 4.6 位居第四,但它的定價是每百萬 token 10 美元,在頭部模型里屬于偏貴的。Claude Sonnet 4.6 max 以52分緊隨其后,性價比稍好一些(6美元/百萬token)。

速度榜:誰響應最快
如果說智能指數是”聰不聰明”,那輸出速度決定的是”能不能用”。
目前最快的是 Inception 的 Mercury 2,實測達到 874 tokens/秒,遠超其他模型。第二是 IBM 的 Granite 4.0 H Small(485 t/s),第三是 Granite 3.3 8B(375 t/s)。
這個速度意味著什么?普通閱讀速度大約是每秒4~5個漢字,一個874 t/s 的模型,用來做實時對話完全感覺不到等待。相比之下,Claude Opus 4.6 的速度是44 t/s,差了將近20倍,但它要解決的問題類型本來就不一樣。
延遲方面(首字符時間),阿里的 Qwen3.5 2B 和 Qwen3.5 0.8B 做到了最低延遲,非常適合需要快速響應的實時場景。
最便宜的模型在哪里
價格維度,阿里的 Qwen3.5 0.8B 系列拿下了最便宜的席位,僅需 $0.02/百萬token,基本等于白送。緊隨其后是 Google 的 Gemma 3n E4B($0.03)和 Qwen3.5 2B($0.04)。
DeepSeek V3.2 的價格是 $0.32/百萬token,在同等智能指數水平(42分)的模型里屬于性價比極高的選擇。相比之下,OpenAI 的 GPT-5.4 Pro xhigh 要收 $67.5/百萬token,算是榜單里最貴的,適合對精度要求極高、成本不敏感的場景。
開源模型:國產已經站上主力位置
榜單共有 196 個開源(開放權重)模型,占總數超過60%。
開源模型排名第一的是 GLM-5.1,由智譜 AI(Z AI)發布,智能指數51分,收費僅 $2.15/百萬token。這是中國模型第一次在此類國際榜單的開源分類中拿到第一。GLM-5(50分)緊接其后,Kimi K2.5 以47分位列第三。
除此之外,阿里的 Qwen 系列在這張榜單上幾乎占據了速度、價格、小尺寸模型的多個細分第一,出現頻率相當高。國內還有小米 MiMo-V2-Pro(49分)、DeepSeek V3.2(42分)、百度 ERNIE 5.0、字節跳動 Doubao Seed Code 等多個模型上榜。
一些值得關注的細節
首先是上下文窗口的分化。Meta 的 Llama 4 Scout 和 xAI 的 Grok 4.1 Fast 支持高達 1000萬 token 的上下文,而大多數模型在 128k~256k 之間。對于需要處理超長文檔或代碼庫的應用場景,這個差距會直接影響選型。
其次是推理模型(Reasoning Model)的比例越來越高,目前榜單上有159個推理模型,超過總數的一半。這類模型在輸出前會進行”思維鏈”擴展,在數學、邏輯、代碼等任務上表現明顯更好,但同時延遲也更高——適不適合用,取決于業務場景對實時性的要求。
還有一個趨勢值得留意:越來越多的模型開始追求”小而快”而不是”大而全”。Qwen3.5 0.8B、Ministral 3B、Phi-4 Mini 這些模型在特定任務上的表現已經相當可用,部署成本卻低出一個數量級。
怎么選模型
這張榜單的意義不是告訴你”用最貴的就行”,而是幫你找到你實際需求對應的最優解。
如果你要做復雜推理、深度研究,Gemini 3.1 Pro 或 GPT-5.4 是當前上限。如果是日常對話、內容生成類的業務,Claude Sonnet 4.6 或 DeepSeek V3.2 的性價比更好。如果對速度和成本都很敏感,Qwen3.5 系列幾乎是現在最省錢的選擇。
需要補充的是,智能指數反映的是綜合推理能力,并不等于”對你的業務有用”。具體任務還是要自己跑 benchmark,或者找專門的測評服務驗證。榜單是參考,不是答案。