列表
Chatbot Arena (formerly LMSYS)
Chatbot Arena 是一个开源的众包人工智能基准测试平台,由加州大学伯克利分校 SkyLab 和 LMArena 的研究人员开发。凭借超过 100 万用户的投票,该平台使用 Bradley-Terry 模型对最佳 LLM 和 AI 聊天机器人进行排名,生成实时排行榜。
排行版:https://lmarena.ai/?leaderboard
CLUE 中文语言理解测评基准
内容体系:代表性的数据集、基线 (预训练) 模型、语料库、论文、工具包、排行榜。
SuperCLUE 使命:精准量化 AGI 进展,定义人类迈向 AGI 路线图
CLUE 定位:为更好的服务中文语言理解、任务和产业界,做为通用语言模型测评的补充,通过搜集整理发布中文任务及标准化测评等方式完善基础设施,最终促进中文 NLP 的发展。
排行榜:https://www.superclueai.com/
Open LLM Leaderboard
比较大型语言模型的开源和可重复方式。
排行榜:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/
LiveBench
一个为 LLMs 设计的基准,考虑了测试集污染和客观评估。它具有以下特性:
- LiveBench 旨在通过定期发布新问题,以及基于最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影概要的问题,来限制潜在的污染。
- 每个问题都有可验证的、客观的真实答案,使得难题可以被准确且自动地评分,无需使用LLM评委。
- LiveBench 目前包含 6 个类别中的 18 个多样化任务,我们将随着时间的推移发布新的、更难的任务。
PubMedQA
PubMedQA 的任务是使用相应的摘要回答研究问题,以是/否/可能(例如:术前他汀类药物是否能减少冠状动脉旁路移植术后房颤?)的形式。
PubMedQA 有 1k 个专家标注的实例,61.2k 个未标注的实例和 211.3k 个人工生成的问答实例。
排行榜:https://pubmedqa.github.io/
MedBench
MedBench 致力于打造一个科学、公平且严谨的中文医疗大模型评测体系及开放平台。我们基于医学权威标准,不断更新维护高质量的医学数据集,全方位多维度量化模型在各个医学维度的能力。
排行榜:https://medbench.opencompass.org.cn/leaderboard
C-Eval
C-Eval 是一个全面的中文基础模型评估套件。它包含了 13948 个多项选择题,涵盖了 52 个不同的学科和四个难度级别。
评论区