比较现在主流大模型的综合能力

新兴档（以DeepSeek为主的ANI/AGI(AGI偏多)级别模型）

数据来源：DeepSeek官网

DeepSeek官网上的新兴模型对比图

解读：

deepseek使用混合专家系统(Moe),在：英语-MMLU-Redux （EM）、英语-DROP (3-shot F1)、英语-LongBench v2 (Acc.)和编程-HumanEval-Mul (Pass@1)、编程-LiveCodeBench (Pass@1-COT)、编程-LiveCodeBench (Pass@1)、编程-Codeforces (Percentile)中遥遥领先同类选手

没感觉？就拿CodeForces来举例，世界编程竞赛神犇都在上面，如jiangly,tourist等，CodeForces也是世界上非常权威的编程平台。

国内外主流比拼

备注：Deepseek已被归入新兴档，所以不再展示
注意：本图片由Shanziyi制作，数据来源：Imarena.ai

国内开源强者vs国外强者

解读：

目前国内比较强的开源模型也就千问等三五个，但实用性的闭源模型不少，如待会要提到的豆包、文心一言等。

实用档(基本都为ANI模型)

这里就不一一介绍，列几个(不排名，随机位置)：

作者:Shanziyi
© Shanziyi 2025
本文文字部分采用CC BY-NC-SA 4.0协议进行署名——Shanziyi
图片部分禁止转载
本文纯属自己撰稿，转载时请标明出处！

总访问量:

新兴档 （以DeepSeek为主的ANI/AGI(AGI偏多)级别模型）

解读：

国内外主流比拼

解读：

实用档(基本都为ANI模型)

新兴档（以DeepSeek为主的ANI/AGI(AGI偏多)级别模型）