人物关系问答 - 大模型知识增强系统评测-OneEval

PersonRelQA

评测集介绍

数据集下载

Introduction

人物是人类社会活动和事件组成的核心要素之一，与人物相关的信息查询和推理问答很常见，与其他领域的问答不同，人物相关的问答具有以下两种特点：

涉及数值统计和计算，如查询某歌手在2024年发表的专辑数量；
涉及人物关系的复杂推理，如查询某人的侄子是谁，但此信息并未被显式存储，需要根据兄弟关系和儿子关系推理得出。

人物相关的事实型信息常用结构化的知识图谱来表示和存储，因此浙江大学联合蚂蚁集团及OpenKG开放知识图谱社区提出了人物知识图谱复杂问答评测任务，该评测任务具有如下特点：

可查询类问题复杂：大部分问题为多步推理的问题，包括多跳查询、统计计数、以及逻辑组合；
有需关系推理的问题：部分问题无法通过查询得出，需要进行关系推理得出答案

Meta Data

{
“question”: “Original question.”,
“answer”: “The answer list.”
}

Example

{
“question”: “米米拉的作品中，有多少本是由知识出版社出版的？”,
“answer”: [
“3”
]
}

Metric

本次任务对每个样本采用F1评估答案的预测，最终取所有测试样本的F1均值作为测试结果，F1越高，说明预测越精确。对于一个问题q,F1的定义如下:

其中:
A_predict是模型预测的问题q的答案列表，A_label是数据集标记的问题q的答案列表。

submit form

{
“0”: [“知识库未提及”],
“1”: [“3”],
“2”: [“宝藏”,”死里复活”,”盛开”]
}