非线智能 NoneLinear - ReLE评测:中文AI大模型能力评测(持续更新):目前已囊括374个大模型,覆盖chatgpt、gpt-5.4、谷歌gemini-3.1-pro、Claude-4.6、文心ERNIE-X1.1、ERNIE-5.0、qwen3.6-max、qwen3.6-plus、百川、讯飞星火、商汤senseChat等商用模型, 以及step3.5-flash、kimi-k2.6、ernie4.5、MiniMax-M2.7、deepseek-v4、Qwen3.6、llama4、智谱GLM-5.1、MiMo-V2、LongCat、gemma4、mistral等开源大模型。不仅提供排行榜,也提供规模超200万的大模型缺陷库!方便广大社区研究分析、改进大模型。
chinese-llm-benchmark 是一个专业的大模型能力评测系统,旨在通过多维度的实测数据量化评估中文大模型在各类任务中的真实表现。该项目致力于解决大模型评估难的痛点,帮助用户精准识别模型能力差异并推动技术迭代。
项目囊括了数百个商用与开源大模型,提供覆盖教育、医疗、金融、法律、推理及指令遵从等七大领域的综合能力评测。系统内置了超过200万规模的大模型缺陷库,为分析模型失效模式提供详实的数据支持。平台提供细分至300多个维度的精细化排行榜,并支持为私有化大模型提供免费的定制化评测服务。
适用于需要选型大模型的研究人员、开发者及企业用户,可用于评估不同模型的业务适应性、辅助模型性能改进或进行技术选型对比。