BioTextQA
评测集介绍
Introduction
生物文献问答数据集旨在通过生物学领域的文献来生成复杂的问答、推理和验证等问题。这些问题主要来源于PMC(PubMed Central)数据库中的生物学论文,涉及生物学各个学科的知识,如分子生物学、基因组学、药理学等。该数据集具有以下特点:
- 多样化问题类型:问题不仅包括常见的事实型问答,如查询某一基因的功能、某种药物的副作用等,还涵盖了推理性和验证性问题。例如,可能要求推断某种蛋白质与疾病之间的关系,或者基于实验数据验证某个假设的正确性。
- 推理能力要求高:许多问题需要从生物文献中提取并结合多篇文献的内容进行推理,特别是在复杂的生物机制和相互作用的分析中。例如,查询某一疾病与特定基因的关联可能需要根据不同文献的结论进行综合推理。
- 多步推理问题:部分问题要求进行多步推理,涉及多个概念之间的关系链。例如,某种蛋白质可能在某种疾病中扮演重要角色,但这个信息并非直接给出,需要通过相关文献的多步推导得出。
生物文献问答数据集不仅关注生物学知识的直接查询,还要求系统具有较强的推理和验证能力,为生物医学领域的文献挖掘与智能问答系统的研究提供了一个重要的基准。
Meta Data
本次任务对每个样本采用答案精确匹配(选择/判断),或利用生成式大语言模型评判(QA)。
{
“question”: “what is the three components that make up an RSS in the DNA sequence. Options:
- promoter, exon, intron
- operator, ligand, terminator
- monomer, codon, enhancer
- nonamer, heptamer, spacer”,
“answer”: [
“D”
],
}