列表

Chatbot Arena (formerly LMSYS)

Chatbot Arena 是一个开源的众包人工智能基准测试平台，由加州大学伯克利分校 SkyLab 和 LMArena 的研究人员开发。凭借超过 100 万用户的投票，该平台使用 Bradley-Terry 模型对最佳 LLM 和 AI 聊天机器人进行排名，生成实时排行榜。

内容体系：代表性的数据集、基线 (预训练) 模型、语料库、论文、工具包、排行榜。

SuperCLUE 使命：精准量化 AGI 进展，定义人类迈向 AGI 路线图

CLUE 定位：为更好的服务中文语言理解、任务和产业界，做为通用语言模型测评的补充，通过搜集整理发布中文任务及标准化测评等方式完善基础设施，最终促进中文 NLP 的发展。

比较大型语言模型的开源和可重复方式。

一个为 LLMs 设计的基准，考虑了测试集污染和客观评估。它具有以下特性：

独立分析 AI 模型和 API 提供商。

推理、知识、数学和编码等 9 项评估，包括 MMLU-Pro, GPQA Diamond, Humanity's Last Exam, LiveCodeBench, SciCode, AIME, MATH-500。

还会评估价格、输出速度、延迟等。

由 Scale 的“安全、评估和校准实验室”（SEAL）开发，这些排行榜使用私有数据集以确保公平和无污染的结果。定期更新确保排行榜反映了最新的 AI 进展，使其成为了解顶级LLMs性能和安全的必备资源。

致力于探索最先进的大模型，为产研界提供全面、客观、中立的评测参考。

PubMedQA 的任务是使用相应的摘要回答研究问题，以是/否/可能（例如：术前他汀类药物是否能减少冠状动脉旁路移植术后房颤？）的形式。

PubMedQA 有 1k 个专家标注的实例，61.2k 个未标注的实例和 211.3k 个人工生成的问答实例。

MedBench 致力于打造一个科学、公平且严谨的中文医疗大模型评测体系及开放平台。我们基于医学权威标准，不断更新维护高质量的医学数据集，全方位多维度量化模型在各个医学维度的能力。

C-Eval 是一个全面的中文基础模型评估套件。它包含了 13948 个多项选择题，涵盖了 52 个不同的学科和四个难度级别。