大语言模型基准测试榜单
最后更新时间: 2025-04-06
权威榜单
Leaderboard | 简介 |
---|---|
Artificialanalysis | Artificial Analysis 是一个独立的 AI 模型和 API 提供商分析平台,旨在帮助开发者、研究人员和用户在质量、速度和价格之间做出最佳选择。 |
LiveBench | LiveBench 涵盖六大类别的18项任务,包括推理、数据分析、数学、编码、语言理解和指令执行,全面评估模型的多方面能力。LiveBench 每月发布新问题,这些问题基于最新的数据集、arXiv 论文、新闻文章和IMDb电影简介等来源。 |
LiveCodeBench | 编程能力,从 LeetCode、AtCoder 和 CodeForces 这三个竞赛平台持续收集新问题。 |
SWE-bench | 工程能力,评估 LLM 解决现实世界 GitHub Issue 的能力。与 LiveCodeBench 一样是个定期更新的题库。 |
hallucination | hallucination-leaderboard,大模型幻觉率评估。 |
KCORES | KCORES 大模型竞技场,侧重计算机图形学,性能优化与物理。 |
Vellum | 这个 LLM 排行榜展示了 2024 年 4 月之后发布的最新顶尖模型的公开基准测试性能。 |
特殊榜单
主要用于查看有哪些新出现的模型,团队维护,更新频繁。
Leaderboard | 简介 |
---|---|
Chatbot Arena | 由 LMSYS Org 发布的大型语言模型基准平台,通过众包方式进行匿名随机对战,评估模型的对话能力,最终使用Elo评分系统对大模型的能力进行综合评估。 |
LangGPT | 大模型性能全景图,飞书文档记录的通用大模型库,及时更新最新发布的大模型的 Modelcard,介绍最主流的指标分数模型参数,上下文等。如果是提供商模型,还会记录更多的摘要信息和价格。 |
其他榜单
季度更新或更新频率较低的基准榜单,连续 3 个月不更新就归档不再跟踪。
Leaderboard | 简介 |
---|---|
DataLearner | 大模型综合能力评测对比表,汇总当前主流大模型在各评测数据集上的综合评测结果,帮助研究者和开发者了解不同模型在各种数据集上的性能。 |
OpenCompass | 司南,提供大语言模型和多模态模型的全面、客观且中立的得分与排名,同时提供多能力维度的评分参考,帮助用户了解大模型的能力水平。 |
SuperCLUE | 中文通用大模型综合性测评基准,每两个月发布一次测评报告,涵盖基础能力、专业能力和中文特性能力等多个维度。 |
Embeddings
转为嵌入模型设立的基准榜单
Leaderboard | 简介 |
---|---|
MTEB | MTEB(Massive Text Embedding Benchmark)是一个大规模文本嵌入基准测试平台,旨在评估和比较不同文本嵌入模型在多种任务上的性能。 |
非主流榜单
分数水分极大,可看到很多不在视线内的模型型号,可作为"概念股反指"。
- C-Eval:由上海交通大学、清华大学、爱丁堡大学共同完成的中文基础模型评估套件,旨在评估大模型在多个学科领域的知识和理解能力,涵盖52个不同的学科和四个难度级别。
Archived
RIP 超过 3 个月不更新就归档
open_llm_leaderboard:由 Hugging Face 设立的公开榜单,收录了全球上百个开源大模型,评测任务涵盖阅读理解、逻辑推理、数学计算、事实问答等多个维度。(不再更新)
FlagEval FlagEval(天秤)是由北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法和工具集,协助研究人员全方位评估基础模型及训练算法的性能。(不再更新)