评测数据集

PersonRelQA

开源收录

人物是人类社会活动和事件组成的核心要素之一,与人物相关的信息查询和推理问答很常见,与其他领域的问答不同,人物相关的问答具有以下两种特点:(1)涉及数值统计和计算,如查询某歌手在2024年发表的专辑数量,(2)涉及人物关系的复杂推理,如查询某人的侄子是谁,但此信息并未被显式存储,需要根据兄弟关系和儿子关系推理得出……

WTQ

开源收录

WikiTableQuestions是一个基于半结构化表格的问答数据集。它由HTML表格上的问答对组成,这些问答对是通过从维基百科中选取包含至少8行和5列的数据表构建的。 亚马逊机械土耳其工人被委托为每个表格编写关于表格的琐事问题。WikiTableQuestions包含了22,033个问题,这些问题并非由预定义的模板设计,而是由用户手工制作…… 

ReportFixer

闭源

在金融和经济领域,研究报告(研报)是专业分析师提供的关于特定资产、行业或市场趋势的深入分析和预测。由于这些报告直接影响投资决策,其准确性和一致性至关重要。然而,研报的内容有时会存在不一致或错误的地方,这可能由于数据处理错误、主观疏忽或者信息的更新不同步导致。在实际应用中,自动识别和纠正这些不一致性的……

MedQA

闭源

医疗信息是人类健康管理和疾病治疗的重要基础,与医疗相关的数据查询和推理问答在实际应用中非常普遍。与其他领域的评测不同,医疗相关的评测具有以下几种特点:(1)涉及专业医学知识的深度理解,例如,查询某种药物对特定疾病的疗效,这不仅需要了解药物的基本属性,还需要结合患者的个体情况(如年龄、既往病史等)进行综合……

AffairQA

闭源

在现代社会中,政务服务的数字化和智能化正逐步推进,以提高政府工作效率和公众满意度。知识图谱(Knowledge Graph, KG)作为一种结构化信息管理方式,通过语义关联和语境理解,为政务服务提供了全面的事实和数据支持。在涉及复杂政策、法规和程序时,快速而准确的信息检索能力显得尤为重要。本数据集专注于政务问答任务……

BioTextQA

闭源

生物文献问答数据集旨在通过生物学领域的文献来生成复杂的问答、推理和验证等问题。这些问题主要来源于PMC(PubMed Central)数据库中的生物学论文,涉及生物学各个学科的知识,如分子生物学、基因组学、药理学等。该数据集具有以下特点:(1)多样化问题类型:问题不仅包括常见的事实型问答,如查询某一基因的功能……

MatTextQA

闭源

材料文献问答(Materials Science Q&A)数据集旨在通过材料科学领域的文献生成多种类型的问答、推理和验证问题。该数据集来源于公开的材料科学文献,特别是期刊论文和会议论文,涵盖材料的性能、性质、合成方法、应用等内容。数据集的核心目标是支持基于材料科学文献的知识提取与问答任务,具有以下特点:(1)多样化问题……

PharmKGQA

闭源

基于PharmKG的数据集是一个专为生物医药领域设计的问答数据集,旨在通过整合药物知识图谱(PharmKG)中的结构化信息,为药物相关的多种问答任务提供支持。PharmKG是一个涵盖药物、疾病、靶点、药物作用机制等多维度信息的知识图谱,特别适用于药物发现、精准医疗和个性化治疗等研究领域。该数据集具有以下特点……

ChineseLawFact

闭源

ChineseLawFact是一项专注于中文法律领域的事实核查任务,旨在验证法律陈述的准确性。该任务要求模型不仅具备深厚的中文法律知识,还应具备严谨的法律推理能力。评测集规模包含9464个法律声明。评测指标使用Accuracy。数据集构建形式:问题由从法考客观题中抽取,解释从法考资料中抽取,并经过人工纠正校验……

VersiCode

闭源

VersiCode 是一个专门用于评估大模型在特定版本库中生成可验证代码能力的评测数据集。该数据集涵盖了超过 300 个不同的依赖库,涉及 2000 多种版本。VersiCode 设计了两种代码生成任务:版本限定的代码补全和版本感知的代码迁移,任务跨越三种不同的粒度,包括 token 级、line 级和block级。本次评测采用 block-level……

PersonRelQA

开源收录

人物是人类社会活动和事件组成的核心要素之一,与人物相关的信息查询和推理问答很常见,与其他领域的问答不同,人物相关的问答具有以下两种特点:(1)涉及数值统计和计算,如查询某歌手在2024年发表的专辑数量,(2)涉及人物关系的复杂推理,如查询某人的侄子是谁,但此信息并未被显式存储,需要根据兄弟关系和儿子关系推理得出……

WTQ

开源收录

WikiTableQuestions是一个基于半结构化表格的问答数据集。它由HTML表格上的问答对组成,这些问答对是通过从维基百科中选取包含至少8行和5列的数据表构建的。 亚马逊机械土耳其工人被委托为每个表格编写关于表格的琐事问题。WikiTableQuestions包含了22,033个问题,这些问题并非由预定义的模板设计,而是由用户手工制作…… 

ReportFixer

闭源

在金融和经济领域,研究报告(研报)是专业分析师提供的关于特定资产、行业或市场趋势的深入分析和预测。由于这些报告直接影响投资决策,其准确性和一致性至关重要。然而,研报的内容有时会存在不一致或错误的地方,这可能由于数据处理错误、主观疏忽或者信息的更新不同步导致。在实际应用中,自动识别和纠正这些不一致性的……

MedQA

闭源

医疗信息是人类健康管理和疾病治疗的重要基础,与医疗相关的数据查询和推理问答在实际应用中非常普遍。与其他领域的评测不同,医疗相关的评测具有以下几种特点:(1)涉及专业医学知识的深度理解,例如,查询某种药物对特定疾病的疗效,这不仅需要了解药物的基本属性,还需要结合患者的个体情况(如年龄、既往病史等)进行综合……

AffairQA

闭源

在现代社会中,政务服务的数字化和智能化正逐步推进,以提高政府工作效率和公众满意度。知识图谱(Knowledge Graph, KG)作为一种结构化信息管理方式,通过语义关联和语境理解,为政务服务提供了全面的事实和数据支持。在涉及复杂政策、法规和程序时,快速而准确的信息检索能力显得尤为重要。本数据集专注于政务问答任务……

BioTextQA

闭源

生物文献问答数据集旨在通过生物学领域的文献来生成复杂的问答、推理和验证等问题。这些问题主要来源于PMC(PubMed Central)数据库中的生物学论文,涉及生物学各个学科的知识,如分子生物学、基因组学、药理学等。该数据集具有以下特点:(1)多样化问题类型:问题不仅包括常见的事实型问答,如查询某一基因的功能……

MatTextQA

闭源

材料文献问答(Materials Science Q&A)数据集旨在通过材料科学领域的文献生成多种类型的问答、推理和验证问题。该数据集来源于公开的材料科学文献,特别是期刊论文和会议论文,涵盖材料的性能、性质、合成方法、应用等内容。数据集的核心目标是支持基于材料科学文献的知识提取与问答任务,具有以下特点:(1)多样化问题……

PharmKGQA

闭源

基于PharmKG的数据集是一个专为生物医药领域设计的问答数据集,旨在通过整合药物知识图谱(PharmKG)中的结构化信息,为药物相关的多种问答任务提供支持。PharmKG是一个涵盖药物、疾病、靶点、药物作用机制等多维度信息的知识图谱,特别适用于药物发现、精准医疗和个性化治疗等研究领域。该数据集具有以下特点……

ChineseLawFact

闭源

ChineseLawFact是一项专注于中文法律领域的事实核查任务,旨在验证法律陈述的准确性。该任务要求模型不仅具备深厚的中文法律知识,还应具备严谨的法律推理能力。评测集规模包含9464个法律声明。评测指标使用Accuracy。数据集构建形式:问题由从法考客观题中抽取,解释从法考资料中抽取,并经过人工纠正校验……

VersiCode

闭源

VersiCode 是一个专门用于评估大模型在特定版本库中生成可验证代码能力的评测数据集。该数据集涵盖了超过 300 个不同的依赖库,涉及 2000 多种版本。VersiCode 设计了两种代码生成任务:版本限定的代码补全和版本感知的代码迁移,任务跨越三种不同的粒度,包括 token 级、line 级和block级。本次评测采用 block-level……

PersonRelQA

开源收录

人物是人类社会活动和事件组成的核心要素之一,与人物相关的信息查询和推理问答很常见,与其他领域的问答不同,人物相关的问答具有以下两种特点:(1)涉及数值统计和计算,如查询某歌手在2024年发表的专辑数量,(2)涉及人物关系的复杂推理,如查询某人的侄子是谁,但此信息并未被显式存储,需要根据兄弟关系和儿子关系推理得出……

WTQ

开源收录

WikiTableQuestions是一个基于半结构化表格的问答数据集。它由HTML表格上的问答对组成,这些问答对是通过从维基百科中选取包含至少8行和5列的数据表构建的。 亚马逊机械土耳其工人被委托为每个表格编写关于表格的琐事问题。WikiTableQuestions包含了22,033个问题,这些问题并非由预定义的模板设计,而是由用户手工制作…… 

ReportFixer

闭源

在金融和经济领域,研究报告(研报)是专业分析师提供的关于特定资产、行业或市场趋势的深入分析和预测。由于这些报告直接影响投资决策,其准确性和一致性至关重要。然而,研报的内容有时会存在不一致或错误的地方,这可能由于数据处理错误、主观疏忽或者信息的更新不同步导致。在实际应用中,自动识别和纠正这些不一致性的……

MedQA

闭源

医疗信息是人类健康管理和疾病治疗的重要基础,与医疗相关的数据查询和推理问答在实际应用中非常普遍。与其他领域的评测不同,医疗相关的评测具有以下几种特点:(1)涉及专业医学知识的深度理解,例如,查询某种药物对特定疾病的疗效,这不仅需要了解药物的基本属性,还需要结合患者的个体情况(如年龄、既往病史等)进行综合……

AffairQA

闭源

在现代社会中,政务服务的数字化和智能化正逐步推进,以提高政府工作效率和公众满意度。知识图谱(Knowledge Graph, KG)作为一种结构化信息管理方式,通过语义关联和语境理解,为政务服务提供了全面的事实和数据支持。在涉及复杂政策、法规和程序时,快速而准确的信息检索能力显得尤为重要。本数据集专注于政务问答任务……

BioTextQA

闭源

生物文献问答数据集旨在通过生物学领域的文献来生成复杂的问答、推理和验证等问题。这些问题主要来源于PMC(PubMed Central)数据库中的生物学论文,涉及生物学各个学科的知识,如分子生物学、基因组学、药理学等。该数据集具有以下特点:(1)多样化问题类型:问题不仅包括常见的事实型问答,如查询某一基因的功能……

MatTextQA

闭源

材料文献问答(Materials Science Q&A)数据集旨在通过材料科学领域的文献生成多种类型的问答、推理和验证问题。该数据集来源于公开的材料科学文献,特别是期刊论文和会议论文,涵盖材料的性能、性质、合成方法、应用等内容。数据集的核心目标是支持基于材料科学文献的知识提取与问答任务,具有以下特点:(1)多样化问题……

PharmKGQA

闭源

基于PharmKG的数据集是一个专为生物医药领域设计的问答数据集,旨在通过整合药物知识图谱(PharmKG)中的结构化信息,为药物相关的多种问答任务提供支持。PharmKG是一个涵盖药物、疾病、靶点、药物作用机制等多维度信息的知识图谱,特别适用于药物发现、精准医疗和个性化治疗等研究领域。该数据集具有以下特点……

ChineseLawFact

闭源

ChineseLawFact是一项专注于中文法律领域的事实核查任务,旨在验证法律陈述的准确性。该任务要求模型不仅具备深厚的中文法律知识,还应具备严谨的法律推理能力。评测集规模包含9464个法律声明。评测指标使用Accuracy。数据集构建形式:问题由从法考客观题中抽取,解释从法考资料中抽取,并经过人工纠正校验……

VersiCode

闭源

VersiCode 是一个专门用于评估大模型在特定版本库中生成可验证代码能力的评测数据集。该数据集涵盖了超过 300 个不同的依赖库,涉及 2000 多种版本。VersiCode 设计了两种代码生成任务:版本限定的代码补全和版本感知的代码迁移,任务跨越三种不同的粒度,包括 token 级、line 级和block级。本次评测采用 block-level……