侧边栏壁纸
  • 累计撰写 95 篇文章
  • 累计创建 43 个标签
  • 累计收到 4 条评论

目 录CONTENT

文章目录

AI 大语言模型排行榜汇总

勤为径苦作舟
2025-02-19 / 0 评论 / 0 点赞 / 14 阅读 / 0 字

列表

Chatbot Arena (formerly LMSYS)

Chatbot Arena 是一个开源的众包人工智能基准测试平台,由加州大学伯克利分校 SkyLab 和 LMArena 的研究人员开发。凭借超过 100 万用户的投票,该平台使用 Bradley-Terry 模型对最佳 LLM 和 AI 聊天机器人进行排名,生成实时排行榜。

排行版:https://lmarena.ai/?leaderboard

CLUE 中文语言理解测评基准

内容体系:代表性的数据集、基线 (预训练) 模型、语料库、论文、工具包、排行榜。

SuperCLUE 使命:精准量化 AGI 进展,定义人类迈向 AGI 路线图

CLUE 定位:为更好的服务中文语言理解、任务和产业界,做为通用语言模型测评的补充,通过搜集整理发布中文任务及标准化测评等方式完善基础设施,最终促进中文 NLP 的发展。

排行榜:https://www.superclueai.com/

Open LLM Leaderboard

比较大型语言模型的开源和可重复方式。

排行榜:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/

LiveBench

一个为 LLMs 设计的基准,考虑了测试集污染和客观评估。它具有以下特性:

  • LiveBench 旨在通过定期发布新问题,以及基于最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影概要的问题,来限制潜在的污染。
  • 每个问题都有可验证的、客观的真实答案,使得难题可以被准确且自动地评分,无需使用LLM评委。
  • LiveBench 目前包含 6 个类别中的 18 个多样化任务,我们将随着时间的推移发布新的、更难的任务。

排行榜:https://livebench.ai/#/

PubMedQA

PubMedQA 的任务是使用相应的摘要回答研究问题,以是/否/可能(例如:术前他汀类药物是否能减少冠状动脉旁路移植术后房颤?)的形式。

PubMedQA 有 1k 个专家标注的实例,61.2k 个未标注的实例和 211.3k 个人工生成的问答实例。

排行榜:https://pubmedqa.github.io/

MedBench

MedBench 致力于打造一个科学、公平且严谨的中文医疗大模型评测体系及开放平台。我们基于医学权威标准,不断更新维护高质量的医学数据集,全方位多维度量化模型在各个医学维度的能力。

排行榜:https://medbench.opencompass.org.cn/leaderboard

C-Eval

C-Eval 是一个全面的中文基础模型评估套件。它包含了 13948 个多项选择题,涵盖了 52 个不同的学科和四个难度级别。

排行版:https://cevalbenchmark.com/static/leaderboard_zh.html

0

评论区