Featured image of post 比较现在主流大模型的综合能力

比较现在主流大模型的综合能力

新兴档 (以DeepSeek为主的ANI/AGI(AGI偏多)级别模型)

数据来源:DeepSeek官网

DeepSeek官网上的新兴模型对比图

解读:

deepseek使用混合专家系统(Moe),在:英语-MMLU-Redux (EM)英语-DROP (3-shot F1)英语-LongBench v2 (Acc.)编程-HumanEval-Mul (Pass@1)编程-LiveCodeBench (Pass@1-COT)编程-LiveCodeBench (Pass@1)编程-Codeforces (Percentile)遥遥领先同类选手

没感觉?就拿CodeForces来举例,世界编程竞赛神犇都在上面,如jiangly,tourist等,CodeForces也是世界上非常权威的编程平台。

国内外主流比拼

备注:Deepseek已被归入新兴档,所以不再展示
注意:本图片由Shanziyi制作,数据来源:Imarena.ai

国内开源强者vs国外强者

解读:

目前国内比较强的开源模型也就千问等三五个,但实用性的闭源模型不少,如待会要提到的豆包文心一言等。

实用档(基本都为ANI模型)

这里就不一一介绍,列几个(不排名,随机位置):

作者:Shanziyi
© Shanziyi 2025
本文文字部分采用CC BY-NC-SA 4.0协议进行署名——Shanziyi
图片部分禁止转载
本文纯属自己撰稿,转载时请标明出处 !

总访问量:
使用 Hugo 构建
主题 StackJimmy 设计