评测规则 评测定位 Evaluation Location OneEval:大模型知识增强系统评测(LLM+KB) OpenKG组织的大模型在知识推理类任务下能力的评测 评测目的 Evaluation Purpose OneEval 是由OpenKG发起并组织的中立、公益、专业的大模型评测榜单。区别于多数聚焦于“LLM”基础能力评测的现有榜单,OneEval 更加侧重于 “大模型 + 知识库(LLM+KB)” 的融合能力评估,重点考察知识增强驱动下大模型的慢思维能力(即模型在复杂问题上的深度思考与分步推理能力)与神经符号混合推理能力(结合神经网络与符号逻辑的知识推理能力),助力大模型向“知识深、思维强”的方向持续演进。随着大语言模型(LLMs)的快速发展,最新一代推理型模型(如 OpenAI o1、DeepSeek R1、Grok 3、Claude 3.7 Sonnet 等)在自然语言理解与推理任务中表现出显著进步。尽管已有多项研究[1-4]从不同维度对 LLM 能力展开评估,但这些评测体系主要集中在通用理解和基础推理层面,缺乏模型在处理多类型异构知识与跨领域复杂推理任务中的系统性评估。特别是在知识增强场景下,模型如何有效利用外部知识源进行高质量推理的能力评估仍是研究空白。在此背景下,OpenKG 推出 OneEval,希望为知识增强场景下的大模型综合能力评估提供一个系统化框架。OneEval V1.0包含十个典型任务,涉及四类知识载体(文本、表格、知识图谱与代码)和六大关键领域(通用、医学、政务、科学、法律与编程),旨在深入衡量大模型对多种知识形态与多领域语境中的知识理解、知识利用与知识推理能力。 评测能力 Evaluation Capability OneEval第一阶段将重点评测大模型在四种知识库上的推理能力。 文本知识库外部知识库涵盖非结构化文献与文档,测试模型在文本型知识的理解,以及复杂语境下的语义建构、信息抽取等能力。 表格知识库以结构化表格数据为基础,考查模型在结构化知识的理解,以及对数值、分类与层级信息的处理、比较与逻辑计算能力。 知识图谱基于实体-关系三元组构建的结构化语义网络,评估模型在图结构知识的理解,以及多跳推理、实体对齐与关系识别等任务中的表现。 代码知识库包含函数文档、源代码与API说明,聚焦模型在程序型知识的理解,以及代码补全、自然语言到代码生成等能力。 评测领域 Evaluation Domain OneEval V1.0覆盖通用、医疗、政务、科学、法律与编程六大关键知识领域,重点强调多源异构知识的广泛性与专业性,系统性评估LLM在复杂知识驱动任务中的推理与应用能力。 通用 基于百科全书与综合性知识资源,涵盖来自各类百科知识库的开放领域知识,考察模型对跨主题背景知识的理解与迁移能力。 医疗 基于医疗诊断任务,融合生理学、药理学与临床医学等细分知识体系,评估模型对专业医学术语和复杂病例的理解与诊断推理能力。 政务 基于中文政务文件与政府官网信息,聚焦政策条文、行政流程等结构化与半结构化知识,考验模型对规章制度的精准解析与政策应用能力。 科学 整合来自生物、材料科学公开文献及生物医药知识图谱的专业知识,涵盖实验事实、领域术语与科学推理模式,测试模型的科学推理与知识整合能力。 法律 源自真实法律文书,包含判决书、裁定书等法律事实与规则,突出模型对法律条文逻辑与案例事实的结合推理能力。 编程 来自GitHub的海量开源代码库,跨越300+依赖库和2000+ API 版本,强调模型对程序语言、函数接口及语义执行的深入理解与生成能力。 评测指标 Evaluation Index 评测采用多维度指标体系,包括:各任务评测指标:准确率(Accuracy,用于分类任务)、F1分数(平衡精确率与召回率,用于抽取和生成任务)、ISM@1(Identifier Sequence Match,用于代码生成任务)。具体指标分配详见表2。综合评分:为了均衡考虑模型在不同任务上的综合表现,我们规定:一个模型的总体评分(Overall Score)为该模型在每个评测数据集得分的平均值。 榜单策略 List Strategy 为防止评测数据被加入大模型训练中,保证评测的有效性和新颖性,本评测采取如下策略: 策略一 数据集中包含部分非公开数据集,无可公开获取的途径 策略二 已有数据集进行季度性更新,即保证任务设定不变的情况下,更新测试样本,并更新评测榜单 策略三 定期增加新的评测数据集,并更新评测榜单