新兴档 (以DeepSeek为主的ANI/AGI(AGI偏多)级别模型)
数据来源:DeepSeek官网
解读:
deepseek使用混合专家系统(Moe)
,在:英语-MMLU-Redux (EM)
、英语-DROP (3-shot F1)
、英语-LongBench v2 (Acc.)
和编程-HumanEval-Mul (Pass@1)
、编程-LiveCodeBench (Pass@1-COT)
、编程-LiveCodeBench (Pass@1)
、编程-Codeforces (Percentile)
中遥遥领先同类选手
没感觉?就拿CodeForces来举例,世界编程竞赛神犇都在上面,如
jiangly
,tourist
等,CodeForces也是世界上非常权威的编程平台。
国内外主流比拼
备注:Deepseek已被归入新兴档,所以不再展示
注意:本图片由Shanziyi制作,数据来源:Imarena.ai
解读:
目前国内比较强的开源模型也就千问等三五个,但实用性的闭源模型不少,如待会要提到的豆包、文心一言等。
实用档(基本都为ANI模型)
这里就不一一介绍,列几个(不排名,随机位置):
总访问量:作者:Shanziyi
© Shanziyi 2025
本文文字部分采用CC BY-NC-SA 4.0协议进行署名——Shanziyi
图片部分禁止转载
本文纯属自己撰稿,转载时请标明出处 !