PersonRelQA

评测集介绍

Introduction

人物是人类社会活动和事件组成的核心要素之一,与人物相关的信息查询和推理问答很常见,与其他领域的问答不同,人物相关的问答具有以下两种特点:

  • 涉及数值统计和计算,如查询某歌手在2024年发表的专辑数量;
  • 涉及人物关系的复杂推理,如查询某人的侄子是谁,但此信息并未被显式存储,需要根据兄弟关系和儿子关系推理得出。

人物相关的事实型信息常用结构化的知识图谱来表示和存储,因此浙江大学联合蚂蚁集团及OpenKG开放知识图谱社区提出了人物知识图谱复杂问答评测任务,该评测任务具有如下特点:

  • 可查询类问题复杂:大部分问题为多步推理的问题,包括多跳查询、统计计数、以及逻辑组合;
  • 有需关系推理的问题:部分问题无法通过查询得出,需要进行关系推理得出答案

Meta Data

  {
        “question”: “Original question.”,
        “answer”: “The answer list.”
  }

Example

  {
        “question”: “米米拉的作品中,有多少本是由知识出版社出版的?”,
        “answer”: [
                “3”
        ]
  }

Metric

本次任务对每个样本采用F1评估答案的预测,最终取所有测试样本的F1均值作为测试结果,F1越高,说明预测越精确。对于一个问题q,F1的定义如下:

其中:
Apredict是模型预测的问题q的答案列表,Alabel是数据集标记的问题q的答案列表。

submit form

  {
        “0”: [“知识库未提及”],
        “1”: [“3”],
        “2”: [“宝藏”,”死里复活”,”盛开”]
  }