Onyx LLM Leaderboard - 一个对所有主流大语言模型进行权威排名和基准测试的工具，覆盖开源和闭源模型。

一句话定位

权威排名所有主流大语言模型，对比推理、编码、数学等多项基准测试。

核心价值

提供所有主流LLM的统一基准测试数据，无需自行测试对比
分类清晰，可按不同任务维度筛选排名，快速找到最优模型
包含详细定价信息，帮助用户做出性价比最优的选择
定期更新，保持最新模型排行信息

功能亮点

多维度排名：支持整体、编码、数学、聊天、推理、智能体分类排名
完整基准数据：包含MMLU、MMMLU、MMMU-Pro等二十余项测试分数
价格对比：提供各模型输入/输出百万token的价格信息
模型筛选：支持按开发厂商筛选，便捷查找
头对头对比：支持两款模型直接对比各基准测试结果
分类排行：提供开源、自托管、编码专项LLM排行

适用人群

AI开发者
企业AI选型负责人
AI研究人员
大语言模型爱好者
AI产品经理

使用场景

选择适合自身业务场景的大语言模型
对比不同模型在特定任务上的性能表现
评估开源闭源模型的性能与价格比
了解最新大语言模型的发展趋势
为项目选型提供数据支撑

综合说明

LLM Leaderboard by Onyx AI是一个专业的大语言模型排行和基准测试平台，它对所有主流的开源和闭源大语言模型进行了多维度的基准测试，并提供了清晰的排名和详细的价格对比。不论你是AI开发者需要选型、企业负责人评估性价比，还是研究人员跟踪行业发展，都可以在这里快速获取全面客观的模型数据，帮助你做出更准确的决策。