Featured image of post 『Blog』大模型基准能力测试榜单

『Blog』大模型基准能力测试榜单

介绍当前主流的 LLM Leaderboard,这些榜单从不同维度评估大模型的性能,如推理、数据分析、编程能力等。

主流基准测试榜单

一些权威且维护及时的基准榜单。

Leader board简介
ArtificialanalysisArtificial Analysis 是一个独立的 AI 模型和 API 提供商分析平台,旨在帮助开发者、研究人员和用户在质量、速度和价格之间做出最佳选择。
LiveCodeBench从 LeetCode、AtCoder 和 CodeForces 这三个竞赛平台持续收集新问题。相较于 MBPP 更能全面地评估大模型的编程能力。
SWE-bench评估 LLM 解决现实世界 GitHub Issue 的能力。与 LiveCodeBench 一样是个定期更新的题库,但更侧重工程能力。
LiveBenchLiveBench 涵盖六大类别的18项任务,包括推理、数据分析、数学、编码、语言理解和指令执行,全面评估模型的多方面能力。LiveBench 每月发布新问题,这些问题基于最新的数据集、arXiv论文、新闻文章和IMDb电影简介等来源。
LangGPT大模型性能全景图,飞书文档记录的通用大模型库,及时更新最新发布的大模型的 Modelcard,介绍最主流的指标分数模型参数,上下文等。如果是提供商模型,还会记录更多的摘要信息和价格。
Chatbot Arena由 LMSYS Org 发布的大型语言模型基准平台,通过众包方式进行匿名随机对战,评估模型的对话能力,最终使用Elo评分系统对大模型的能力进行综合评估。
open_llm_leaderboard由 Hugging Face 设立的公开榜单,收录了全球上百个开源大模型,评测任务涵盖阅读理解、逻辑推理、数学计算、事实问答等多个维度。
DataLearner大模型综合能力评测对比表,汇总当前主流大模型在各评测数据集上的综合评测结果,帮助研究者和开发者了解不同模型在各种数据集上的性能。
OpenCompass司南,提供大语言模型和多模态模型的全面、客观且中立的得分与排名,同时提供多能力维度的评分参考,帮助用户了解大模型的能力水平。
SuperCLUE中文通用大模型综合性测评基准,每两个月发布一次测评报告,涵盖基础能力、专业能力和中文特性能力等多个维度。
FlagEvalFlagEval(天秤)是由北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法和工具集,协助研究人员全方位评估基础模型及训练算法的性能。
MTEBMTEB(Massive Text Embedding Benchmark)是一个大规模文本嵌入基准测试平台,旨在评估和比较不同文本嵌入模型在多种任务上的性能。

非主流基准测试榜单

  • C-Eval:由上海交通大学、清华大学、爱丁堡大学共同完成的中文基础模型评估套件,旨在评估大模型在多个学科领域的知识和理解能力,涵盖52个不同的学科和四个难度级别。(分数水分较大,但可看到很多不在视线内的大模型型号)
Licensed under CC BY-NC-SA 4.0
comments powered by Disqus
You will to enjoy grander sight / By climing to a greater height.