Onyx LLM Leaderboard

一个对所有主流大语言模型进行权威排名和基准测试的工具,覆盖开源和闭源模型。

一句话定位

权威排名所有主流大语言模型,对比推理、编码、数学等多项基准测试。

核心价值

  • 提供所有主流LLM的统一基准测试数据,无需自行测试对比
  • 分类清晰,可按不同任务维度筛选排名,快速找到最优模型
  • 包含详细定价信息,帮助用户做出性价比最优的选择
  • 定期更新,保持最新模型排行信息

功能亮点

  • 多维度排名:支持整体、编码、数学、聊天、推理、智能体分类排名
  • 完整基准数据:包含MMLU、MMMLU、MMMU-Pro等二十余项测试分数
  • 价格对比:提供各模型输入/输出百万token的价格信息
  • 模型筛选:支持按开发厂商筛选,便捷查找
  • 头对头对比:支持两款模型直接对比各基准测试结果
  • 分类排行:提供开源、自托管、编码专项LLM排行

适用人群

  • AI开发者
  • 企业AI选型负责人
  • AI研究人员
  • 大语言模型爱好者
  • AI产品经理

使用场景

  • 选择适合自身业务场景的大语言模型
  • 对比不同模型在特定任务上的性能表现
  • 评估开源闭源模型的性能与价格比
  • 了解最新大语言模型的发展趋势
  • 为项目选型提供数据支撑

综合说明

LLM Leaderboard by Onyx AI是一个专业的大语言模型排行和基准测试平台,它对所有主流的开源和闭源大语言模型进行了多维度的基准测试,并提供了清晰的排名和详细的价格对比。不论你是AI开发者需要选型、企业负责人评估性价比,还是研究人员跟踪行业发展,都可以在这里快速获取全面客观的模型数据,帮助你做出更准确的决策。