MedQA

评测集介绍

Introduction

医疗信息是人类健康管理和疾病治疗的重要基础,与医疗相关的数据查询和推理问答在实际应用中非常普遍。与其他领域的评测不同,医疗相关的评测具有以下几种特点:

  • 涉及专业医学知识的深度理解,例如,查询某种药物对特定疾病的疗效,这不仅需要了解药物的基本属性,还需要结合患者的个体情况(如年龄、性别、既往病史等)进行综合分析。
  • 涉及医学知识的复杂推理,如推断某患者的最佳治疗方案,但此信息并未被显式存储,需要根据临床试验结果和患者病史进行推理得出。

医疗相关的信息通常通过结构化的医疗知识图谱进行表示和存储。因此,为了提升医疗信息的获取能力和准确性,浙江大学联合多家医疗机构及开放知识图谱社区提出了医疗知识图谱评测任务。该评测任务具有如下特点:

  • 问题类型多样且复杂:涵盖了从简单的信息检索到复杂的多步推理问题,比如基于症状推断潜在疾病、根据治疗方案预测预后效果等。
  • 强调跨领域知识整合:部分问题要求参赛者能够将来自不同学科的知识结合起来,例如结合生理学、药理学以及临床实践中的经验来解答问题。
  • 需要关系推理的问题:部分问题无法通过简单查询得出答案,需要结合医学知识进行复杂推理。

Meta Data

  {

        “id”:0,

        “question”: “以下关于老年人胃溃疡特点的描述,不正确的是(  )。”,

        “level”:2,

        “options”: {“A”: “可无症状”, “B”: “溃疡常较大”, “C”: “易合并幽门梗阻”, “D”: “多位于胃体上部”, “E”: “易误诊为胃癌”},

        “answer”: “易合并幽门梗阻”,

        “meta_info”: “第一部分 历年真题”,

        “answer_idx”: “C”,

        “context”: “Context:【诊断和鉴别诊断】根据病人长期的溃疡病史和典型的症状和临床表现,多可确定诊断。放置胃管可以吸出大量胃液,含宿食和腐败酸臭味。但有时胃内宿食堵塞胃管,很难吸出胃内容物,也不能据此否定诊断。\nContext:5.老年人渍痛及儿童期溃痛老年人溃殇临床表现多不典型,常无症状或症状不明显,疼痛多元规律,较易出现体重减轻和贫血。GU多位于胃体上部,溃殇常较大,易被误认为胃癌。由于NSAIDs在老年人使用广泛,老年人渍殇有增加的趋势。\nContext:疡的幽门侧较浅,作阶梯状,即局部胃壁各层相断为阶梯状显露。瘢痕组织的牵拉而呈放射状向溃疡集中(图11-3)。\nContext:(1)胃溃疡:胃溃疡的直接征象是龛影,多见千胃小弯,其切线位突出千胃轮廓外,呈火山口状,边缘光滑整齐,底部较平整。龛影口部常有一圈黏膜水肿所造成的透明带,是良性溃疡的特征,依其范围而有不同的表现:心黏膜线:为龛影口部一光滑整齐的透明线,宽l~2mm;@项圈征:为龛影口部的透明带,宽0.5-l cm,如一个项圈;@狭颈征:龛影口部明显狭小,透明带也短缩,使龛影犹如有一个狭长的颈(图7-7a)。慢性溃疡周围瘢痕收缩,造成黏膜皱襞均匀性纠集,犹如轮辐状向龛影口部集中,且逐渐变窄直达口部边缘,是良性溃疡的特征(图7-7b)。\nContext:病人多数为瘦长体型,腹上角成锐角。消化性溃疡缺乏特异性体征,在溃疡活动期多数病人有上腹部局限性轻压痛,胃溃疡压痛点常偏左,十二指肠溃疡压痛点常偏右,少数病人可有贫血和营养不良的体征。后壁溃疡穿孔,可有背部皮肤感觉过敏区和明显压痛。出血时可见全身皮肤黏膜苍白。\n”

  }

Example

  {

        “id”:”index”,

        “question”: “Original question”,

        “level”:”Difficulty of the question”,

        ” options “:”The Options “,

        ” answer “:” The answer “,

        ” meta_info “:” Types of question “,

        ” answer_idx “:”The options index”,

        ” context “:” Relevant knowledge “,

  }

Metric

本次任务对每个样本采用Accuracy评估答案的预测,最终取所有测试样本的Accuracy均值作为测试结果,Accuracy越高,说明预测越精确。对于一个问题q,Accuracy的定义如下:

其中,TP(True Positives)是预测为正类且真实为正类的样本数,TN(True Negatives)是预测为负类且真实为负类的样本数,FP(False Positives)是预测为正类但真实为负类的样本数,FN(False Negatives)是预测为负类但真实为正类的样本数。

submit form

  {

        “id”:0,

        “question”: “以下关于老年人胃溃疡特点的描述,不正确的是(  )。”,

        “answer_idx”:”A”

  }