『Blog』大模型基准能力测试榜单

Software Engineering

『Blog』大模型基准能力测试榜单

介绍当前主流的 LLM Leaderboard，这些榜单从不同维度评估大模型的性能，如推理、数据分析、编程能力等。

大语言模型基准测试榜单

最后更新时间: 2025-04-06

权威榜单

Leaderboard	简介
Artificialanalysis	Artificial Analysis 是一个独立的 AI 模型和 API 提供商分析平台，旨在帮助开发者、研究人员和用户在质量、速度和价格之间做出最佳选择。
LiveBench	LiveBench 涵盖六大类别的18项任务，包括推理、数据分析、数学、编码、语言理解和指令执行，全面评估模型的多方面能力。LiveBench 每月发布新问题，这些问题基于最新的数据集、arXiv 论文、新闻文章和IMDb电影简介等来源。
LiveCodeBench	编程能力，从 LeetCode、AtCoder 和 CodeForces 这三个竞赛平台持续收集新问题。
SWE-bench	工程能力，评估 LLM 解决现实世界 GitHub Issue 的能力。与 LiveCodeBench 一样是个定期更新的题库。
hallucination	hallucination-leaderboard，大模型幻觉率评估。
KCORES	KCORES 大模型竞技场，侧重计算机图形学，性能优化与物理。
Vellum	这个 LLM 排行榜展示了 2024 年 4 月之后发布的最新顶尖模型的公开基准测试性能。

特殊榜单

主要用于查看有哪些新出现的模型，团队维护，更新频繁。

Leaderboard	简介
Chatbot Arena	由 LMSYS Org 发布的大型语言模型基准平台，通过众包方式进行匿名随机对战，评估模型的对话能力，最终使用Elo评分系统对大模型的能力进行综合评估。
LangGPT	大模型性能全景图，飞书文档记录的通用大模型库，及时更新最新发布的大模型的 Modelcard，介绍最主流的指标分数模型参数，上下文等。如果是提供商模型，还会记录更多的摘要信息和价格。

其他榜单

季度更新或更新频率较低的基准榜单，连续 3 个月不更新就归档不再跟踪。

Leaderboard	简介
DataLearner	大模型综合能力评测对比表，汇总当前主流大模型在各评测数据集上的综合评测结果，帮助研究者和开发者了解不同模型在各种数据集上的性能。
OpenCompass	司南，提供大语言模型和多模态模型的全面、客观且中立的得分与排名，同时提供多能力维度的评分参考，帮助用户了解大模型的能力水平。
SuperCLUE	中文通用大模型综合性测评基准，每两个月发布一次测评报告，涵盖基础能力、专业能力和中文特性能力等多个维度。

Embeddings

转为嵌入模型设立的基准榜单

Leaderboard	简介
MTEB	MTEB（Massive Text Embedding Benchmark）是一个大规模文本嵌入基准测试平台，旨在评估和比较不同文本嵌入模型在多种任务上的性能。

非主流榜单

分数水分极大，可看到很多不在视线内的模型型号，可作为"概念股反指"。

C-Eval：由上海交通大学、清华大学、爱丁堡大学共同完成的中文基础模型评估套件，旨在评估大模型在多个学科领域的知识和理解能力，涵盖52个不同的学科和四个难度级别。

Archived

RIP 超过 3 个月不更新就归档

open_llm_leaderboard：由 Hugging Face 设立的公开榜单，收录了全球上百个开源大模型，评测任务涵盖阅读理解、逻辑推理、数学计算、事实问答等多个维度。（不再更新）
FlagEval FlagEval（天秤）是由北京智源人工智能研究院推出的大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法和工具集，协助研究人员全方位评估基础模型及训练算法的性能。（不再更新）

comments powered by Disqus