Featured image of post 『Blog』大模型基准能力测试榜单

『Blog』大模型基准能力测试榜单

介绍当前主流的 LLM Leaderboard,这些榜单从不同维度评估大模型的性能,如推理、数据分析、编程能力等。

大语言模型基准测试榜单

最后更新时间: 2025-04-06

权威榜单

Leaderboard简介
ArtificialanalysisArtificial Analysis 是一个独立的 AI 模型和 API 提供商分析平台,旨在帮助开发者、研究人员和用户在质量、速度和价格之间做出最佳选择。
LiveBenchLiveBench 涵盖六大类别的18项任务,包括推理、数据分析、数学、编码、语言理解和指令执行,全面评估模型的多方面能力。LiveBench 每月发布新问题,这些问题基于最新的数据集、arXiv 论文、新闻文章和IMDb电影简介等来源。
LiveCodeBench编程能力,从 LeetCode、AtCoder 和 CodeForces 这三个竞赛平台持续收集新问题。
SWE-bench工程能力,评估 LLM 解决现实世界 GitHub Issue 的能力。与 LiveCodeBench 一样是个定期更新的题库。
hallucinationhallucination-leaderboard,大模型幻觉率评估。
KCORESKCORES 大模型竞技场,侧重计算机图形学,性能优化与物理。
Vellum这个 LLM 排行榜展示了 2024 年 4 月之后发布的最新顶尖模型的公开基准测试性能。

特殊榜单

主要用于查看有哪些新出现的模型,团队维护,更新频繁。

Leaderboard简介
Chatbot Arena由 LMSYS Org 发布的大型语言模型基准平台,通过众包方式进行匿名随机对战,评估模型的对话能力,最终使用Elo评分系统对大模型的能力进行综合评估。
LangGPT大模型性能全景图,飞书文档记录的通用大模型库,及时更新最新发布的大模型的 Modelcard,介绍最主流的指标分数模型参数,上下文等。如果是提供商模型,还会记录更多的摘要信息和价格。

其他榜单

季度更新或更新频率较低的基准榜单,连续 3 个月不更新就归档不再跟踪。

Leaderboard简介
DataLearner大模型综合能力评测对比表,汇总当前主流大模型在各评测数据集上的综合评测结果,帮助研究者和开发者了解不同模型在各种数据集上的性能。
OpenCompass司南,提供大语言模型和多模态模型的全面、客观且中立的得分与排名,同时提供多能力维度的评分参考,帮助用户了解大模型的能力水平。
SuperCLUE中文通用大模型综合性测评基准,每两个月发布一次测评报告,涵盖基础能力、专业能力和中文特性能力等多个维度。

Embeddings

转为嵌入模型设立的基准榜单

Leaderboard简介
MTEBMTEB(Massive Text Embedding Benchmark)是一个大规模文本嵌入基准测试平台,旨在评估和比较不同文本嵌入模型在多种任务上的性能。

非主流榜单

分数水分极大,可看到很多不在视线内的模型型号,可作为"概念股反指"。

  • C-Eval:由上海交通大学、清华大学、爱丁堡大学共同完成的中文基础模型评估套件,旨在评估大模型在多个学科领域的知识和理解能力,涵盖52个不同的学科和四个难度级别。

Archived

RIP 超过 3 个月不更新就归档

  • open_llm_leaderboard:由 Hugging Face 设立的公开榜单,收录了全球上百个开源大模型,评测任务涵盖阅读理解、逻辑推理、数学计算、事实问答等多个维度。(不再更新)

  • FlagEval FlagEval(天秤)是由北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法和工具集,协助研究人员全方位评估基础模型及训练算法的性能。(不再更新)

Licensed under CC BY-NC-SA 4.0
comments powered by Disqus
You will to enjoy grander sight / By climing to a greater height.