面向中文电子病历的医疗实体识别及属性抽取CCKS2019任务1描述文件v2.docxVIP

下载本文档

131
0
约2.29千字
约 4页
2023-11-09 发布于江苏
举报
版权申诉

面向中文电子病历的医疗实体识别及属性抽取CCKS2019任务1描述文件v2.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向中文电子病历的医疗实体识别及属性抽取本任务是CCKS围绕中文电子病历语义化开展的系列评测的一个延续，在CCKS 2017，2018医疗命名实体识别评测任务的基础上进行了延伸和拓展。包括两个子任务：1）医疗命名实体识别：由于国内没有公开可获得的面向中文电子病历医疗实体识别数据集，本年度保留了医疗命名实体识别任务，对2017年度数据集做了修订，并随任务一同发布。2）医疗实体及属性抽取（跨院迁移）：在医疗实体识别的基础上，对预定义实体属性进行抽取。本任务为迁移学习任务，即在只提供目标场景少量标注数据的情况下，通过其他场景的标注数据及非标注数据进行目标场景的识别任务。参赛队可同时选择两个子任务参赛，也可选择任一一个子任务单独参赛。一、医疗命名实体识别任务定义及描述对于给定的一组电子病历纯文本文档，任务的目标是识别并抽取出与医学临床相关的实体提及（entity mention），并将它们归类到预定义类别（pre-defined categories），比如疾病、治疗、检查检验等。形式化定义输入： 1.电子病历的自然语言文本集合： 2.预定义类别：C 输出：实体提及和所属类别对的集合：{ 其中mi=di,bi,ei是出现在文档di中的医疗实体提及（mention），预定义类别预定义类别定义如下： 1) 疾病和诊断：医学上定义的疾病和医生在临床工作中对病因、病生理、分型分期等所作的判断。 2) 检查：影像检查（X线、CT、MR、PETCT等）+造影+超声+心电图，未避免检查操作与手术操作过多冲突，不包含此外其它的诊断性操作，如胃镜、肠镜等。 3）检验：在实验室进行的物理或化学检查，本期特指临床工作中检验科进行的化验，不含免疫组化等广义实验室检查 4) 手术：医生在患者身体局部进行的切除、缝合等治疗，是外科的主要治疗方法。 5) 药物：用于疾病治疗的具体化学物质。 6) 解剖部位：指疾病、症状和体征发生的人体解剖学部位。数据集描述数据集由医渡云（北京）技术有限公司编写，并由医渡云公司组织专业的医学团队进行人工标注，仅限CCKS竞赛评测用。有关数据集的详细描述及标注规范，将随数据的发布一并加以说明，任务书中不再赘述。评价指标采用精确率（Precision）、召回率（Recall）以及F1-Measure作为评测指标。并按照预定义类别的5个不同类别，对每个子类进行分开评测。二、医疗实体及属性抽取（跨院迁移）任务定义及描述给定的一组电子病历纯文本文档，定义若干与医疗相关的目标字段，如肿瘤大小，肿瘤原发部位等，任务的目标是识别并抽取目标字段的答案实体，比如左肺，肺叶等。本任务为实体及属性抽取问题的跨院迁移任务，即在只提供需要识别的场景的少量标注数据的情况下，提供大量来自其他场景的已知数据分布不同的标注数据，以及大量非标注数据，进行目标场景的识别任务。问题实例实体类别定义结合数据源“癌症医疗影像检查与结论”的内容及特点，本任务字段类型聚焦在癌症原发部位，病灶大小，以及癌症转移部位三大类。每个文本的一个字段可能出现多个或0个目标实体，比如多个原发部位。 1) 原发部位：某种疾病最先发生于的组织或者器官，如肺癌原发与左肺上叶； 2) 病灶大小：原发部位的大小，通常以最大直径或者大小直径表示； 3) 转移部位：某种疾病从最先发生的组织或者器官转移到的其他组织或器官；数据集描述本次评测的训练数据将分为三部分(具体数量待定)： 900条非目标场景的标注数据； 100条目标场景的标注数据； 1000条各个场景的非标注数据。此外，本评测将使用400条目标场景的标注数据作为最终评测的测试集。有关数据集的详细描述也将随数据的发布一并加以说明。评价指标由于每个文本的一个目标字段可能出现多个实体，评测指标使用实体而非字段来计算准召率，最终使用实体的f1值作为评测指标。三、任务提交指南每一个参赛队需提交的材料如下（分子任务提交）：结果文件代码方法描述文档（非评测论文，评测论文撰写要求见CCKS 2019官网）结果文件用“参赛队名_result.txt”命名，文件具体格式另行通知。代码需打包成zip文件，用“参赛队名_code.zip”命名，要求提交所有的程序代码及相关的配置说明，确保程序能够正确运行，且运行结果与结果文件相一致。方法描述文档用“参赛队名_method.pdf”命名，包含算法描述及参数设置，pdf格式存储，页数不超过5页。四、任务交流平台本任务的交流平台为： CCKS2019-clinic@ 所有报名参赛的参赛队至少要有一名成员加入到该讨论组中，后续所有有关本任务评测及数据的相关说明和通知将只在讨论组中发布和交流，不再另行发邮件或更新官网通知，请所有参赛队务