🎯SuperCLUE:作为独立第三方通用人工智能(AGI)测评机构,它的测评结果公正客观。涵盖通用、专项和行业应用评估,还有超有趣的中文大模型对战平台「SuperCLUE - 琅琊榜」 📊EasyLLM Badcase:专注收集大模型失误案例,从情感分类、信息抽取到数学运算等多场景测试,给每个案例打分,直观呈现模型短板,帮你避开 “坑”,在选择模型时更有针对性。 🌟FlagEval 天秤:由智源研究院推出,科学公正,从多维度考察大模型认知能力,参与制定评测标准,专业度拉满 📈ArtificialAnalysis:清晰展示 30 多款大模型的质量、输出速度、延迟、价格和上下文窗口等关键指标,数据新鲜,帮你综合对比,选出性价比高且性能强的模型 💻LiveCodeBench:聚焦大模型代码生成能力,用 404 个题目全面评估,无数据污染,动态调整题目难度,排行榜实时更新,码农必备 🤗Open LLM Leaderboard:依托 Hugging Face 社区,快速更新开源大模型在自然语言处理各方面表现,方便交流 🔍OpenCompass 司南:榜单类型丰富,涵盖大语言模型、多模态模型等。在专业领域评测很出色 🎮Chatbot Arena(原 LMSYS,现 LMArena):采用盲测方式,向两个匿名 AI 聊天机器人提问并投票选最佳答案,保证公平。LLM 排行榜参考价值高,有超 100 万社区投票支撑,还细分任务和语言维度榜单 学术研究:优先AGI-Eval、FlagEval、C-Eval 开源模型:关注Open LLM Leaderboard、OpenCompass 中文场景:SuperCLUE、C-Eval 用户体验:Chatbot Arena、LMSYS
大模型测评网站












空空如也!