OpenKG组织的大模型在知识推理类任务下能力的评测 查看榜单 查看数据集 多种类型知识库评测 文本知识库外部知识库涵盖非结构化文献与文档,测试模型在文本型知识的理解,以及复杂语境下的语义建构、信息抽取等能力。 表格知识库以结构化表格数据为基础,考查模型在结构化知识的理解,以及对数值、分类与层级信息的处理、比较与逻辑计算能力。 知识图谱基于实体-关系三元组构建的结构化语义网络,评估模型在图结构知识的理解,以及多跳推理、实体对齐与关系识别等任务中的表现。 代码知识库包含函数文档、源代码与API说明,聚焦模型在程序型知识的理解,以及代码补全、自然语言到代码生成等能力。 多种知识领域评测 通用 基于百科全书与综合性知识资源,涵盖来自各类百科知识库的开放领域知识,考察模型对跨主题背景知识的理解与迁移能力。 医疗 基于医疗诊断任务,融合生理学、药理学与临床医学等细分知识体系,评估模型对专业医学术语和复杂病例的理解与诊断推理能力。 政务 基于中文政务文件与政府官网信息,聚焦政策条文、行政流程等结构化与半结构化知识,考验模型对规章制度的精准解析与政策应用能力。 科学 整合来自生物、材料科学公开文献及生物医药知识图谱的专业知识,涵盖实验事实、领域术语与科学推理模式,测试模型的科学推理与知识整合能力。 法律 源自真实法律文书,包含判决书、裁定书等法律事实与规则,突出模型对法律条文逻辑与案例事实的结合推理能力。 编程 来自GitHub的海量开源代码库,跨越300+依赖库和2000+ API 版本,强调模型对程序语言、函数接口及语义执行的深入理解与生成能力。