jeinlee1991/chinese-llm-benchmark

非线智能 NoneLinear - ReLE评测：中文AI大模型能力评测（持续更新）：目前已囊括374个大模型，覆盖chatgpt、gpt-5.4、谷歌gemini-3.1-pro、Claude-4.6、文心ERNIE-X1.1、ERNIE-5.0、qwen3.6-max、qwen3.6-plus、百川、讯飞星火、商汤senseChat等商用模型，以及step3.5-flash、kimi-k2.6、ernie4.5、MiniMax-M2.7、deepseek-v4、Qwen3.6、llama4、智谱GLM-5.1、MiMo-V2、LongCat、gemma4、mistral等开源大模型。不仅提供排行榜，也提供规模超200万的大模型缺陷库！方便广大社区研究分析、改进大模型。

agentic-aiartificial-intelligencellm-agentllm-evaluation

GAI 中文摘要

chinese-llm-benchmark 是一个专业的大模型能力评测系统，旨在通过多维度的实测数据量化评估中文大模型在各类任务中的真实表现。该项目致力于解决大模型评估难的痛点，帮助用户精准识别模型能力差异并推动技术迭代。

项目囊括了数百个商用与开源大模型，提供覆盖教育、医疗、金融、法律、推理及指令遵从等七大领域的综合能力评测。系统内置了超过200万规模的大模型缺陷库，为分析模型失效模式提供详实的数据支持。平台提供细分至300多个维度的精细化排行榜，并支持为私有化大模型提供免费的定制化评测服务。

适用于需要选型大模型的研究人员、开发者及企业用户，可用于评估不同模型的业务适应性、辅助模型性能改进或进行技术选型对比。

⭐

6.1k

Stars

🔱

246

Forks

👁

Watchers

📋

Issues

创建于 2023/6/4更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

非线智能 NoneLinear - ReLE 评测：中文 AI 大模型能力评测（持续更新）

ReLE（Really Re**liable Live Evaluation for LLM），原名 CLiB。
目前已囊括 382 个大模型，覆盖 ChatGPT、GPT-5.5、Google Gemini-3.1-Pro、Claude-4.8、文心 ERNIE-X1.1、ERNIE-5.1、Qwen3.7-max、Qwen3.6-plus、百川、讯飞星火、商汤 SenseChat 等商用模型，以及 Step3.5-flash、Kimi-K2.6、ERNIE4.5、MiniMax-M3、DeepSeek-V4、Qwen3.6、Llama4、智谱 GLM-5.1、MiMo-V2、LongCat、Gemma4、Mistral 等开源大模型。
支持多维度能力评测，包括教育、医疗与心理健康、金融、法律与行政公务、推理与数学计算、语言与指令遵从、Agent 与工具调用等 7 个领域，以及细分的 ~300 个维度（如牙科、高中语文等）。详见我们的技术报告：ReLE: A Scalable System and Structured Benchmark for Diagnosing Capability Anisotropy in Chinese LLMs。媒体报道（机器之心）：全球 304 个中文大模型实测：没有“全能王者”，ReLE 凭 70% 降本方案破解评估困局
不仅提供排行榜，也提供规模超 200 万的大模型缺陷库！方便广大社区研究分析、改进大模型。
为您的私有大模型提供免费评测服务，联系我们（非线智能 ReLE Benchmark 团队）：加微信

jeinlee1991/chinese-llm-benchmark

非线智能 NoneLinear - ReLE 评测：中文 AI 大模型能力评测（持续更新）

目录