一句话定位
权威排名所有主流大语言模型,对比推理、编码、数学等多项基准测试。
核心价值
- 提供所有主流LLM的统一基准测试数据,无需自行测试对比
- 分类清晰,可按不同任务维度筛选排名,快速找到最优模型
- 包含详细定价信息,帮助用户做出性价比最优的选择
- 定期更新,保持最新模型排行信息
功能亮点
- 多维度排名:支持整体、编码、数学、聊天、推理、智能体分类排名
- 完整基准数据:包含MMLU、MMMLU、MMMU-Pro等二十余项测试分数
- 价格对比:提供各模型输入/输出百万token的价格信息
- 模型筛选:支持按开发厂商筛选,便捷查找
- 头对头对比:支持两款模型直接对比各基准测试结果
- 分类排行:提供开源、自托管、编码专项LLM排行
适用人群
- AI开发者
- 企业AI选型负责人
- AI研究人员
- 大语言模型爱好者
- AI产品经理
使用场景
- 选择适合自身业务场景的大语言模型
- 对比不同模型在特定任务上的性能表现
- 评估开源闭源模型的性能与价格比
- 了解最新大语言模型的发展趋势
- 为项目选型提供数据支撑
综合说明
LLM Leaderboard by Onyx AI是一个专业的大语言模型排行和基准测试平台,它对所有主流的开源和闭源大语言模型进行了多维度的基准测试,并提供了清晰的排名和详细的价格对比。不论你是AI开发者需要选型、企业负责人评估性价比,还是研究人员跟踪行业发展,都可以在这里快速获取全面客观的模型数据,帮助你做出更准确的决策。