面向肿瘤治疗的药物互作语料库构建及文本挖掘方法研究.pdfVIP

面向肿瘤治疗的药物互作语料库构建及文本挖掘方法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

面向肿瘤治疗的药物互作语料库构建及文本挖掘方法研究

随着生物医学研究的不断深入,相关文献数量增长迅速,这些文献中蕴含了丰富

的前沿生物医学信息,为学术研究和临床实践提供了极为宝贵的知识资源。面对日益

增长的数字化生物医学文献,文本挖掘技术因其发现和提取特定信息的强大能力,成

为推动生物医学研究发展的关键工具之一。然而,在实际应用中,文本挖掘技术仍面

临着诸多挑战。这主要归因于生物医学文本的高复杂性和专业性,并且这些文本的注

释工作既困难又成本高昂,尤其在药物互作研究这一重要的生物医学分支领域,这些

挑战尤为突出。为此,本研究面向肿瘤治疗的药物互作领域,围绕语料库构建、信息

检索、命名实体识别和关系抽取四个核心任务,深入探讨了文本挖掘在该领域应用的

关键技术,旨在创建高质量标注数据集、提升信息提取的效率,从而促进领域知识的

发现,为肿瘤治疗的药物互作研究提供新的视角和策略。

本文的研究内容主要包括以下四个部分:

(1)设计并构建了一个关于肿瘤治疗药物互作研究的两级语料库,用于文本分

类和命名实体识别研究。针对现有的生物医学语料库在特定的文本挖掘应用场景下存

在明显的局限性,特别是在肿瘤治疗的药物互作领域,目前尚缺乏用于文本挖掘研究

的相关语料库,本研究基于PubMed文献摘要,通过制定语料选取规范及注释流程,收

集并手动标注文本,以构建文本分类语料库。在此基础上进一步细化注释,标记句中

关键实体,构建命名实体识别语料库。经两阶段注释和系统的注释者间一致性评估方

法设计,最终对语料库的质量进行评估,结果表明两级语料库注释达到金标准,可用

于后续研究。该语料库的构建填补了肿瘤治疗药物互作研究在语料库方面的空缺,为

文本挖掘技术在该领域的应用以及药物互作知识的发现提供了重要的数据基础。

(2)提出了一种基于多重采样的主动学习策略,用于从大量数据集中检索与肿

瘤治疗的药物互作相关文本。由于从大量未标记样本集中检索相关文本时,标注样本

的稀缺和类别不平衡问题较为突出,显著影响了信息检索的效率。针对这一问题,本

文提出了一种融合多重采样策略的主动学习方法,该方法首先使用少量标注数据构建

神经网络模型,利用n-gram特征从词内部结构和文本上下文信息两方面表示文本以增

强模型对文本的理解。随后结合了不确定性采样、随机负样本采样、相似性采样以及

正采样技术对未标记样本进行筛选和标注,并加入训练集中参与主动学习的迭代训练。

此外,研究还设计了双样本池和双模型的集成学习策略,以提高模型特征学习能力并

哈尔滨工程大学博士学位论文

最大化信息检索效率。相较于传统主动学习,本研究提出的方法能够通过少量标注样

本进行有效训练,显著提升了信息检索性能,不仅为快速准确地检索文本提供了有效

的技术手段,也为后续药物互作文本挖掘研究提供了文本基础。

(3)提出了一种基于远程监督的正样本-无标签学习(PULearning)的命名实体

识别方法,实现了仅使用未标注样本和实体词典完成模型训练。针对在命名实体识别

任务中,文本中实体结构的复杂性和领域知识的未知性极大地增加了准确获取实体标

签的难度。该方法利用远程监督获取用于监督学习的训练集,并通过构建自注意力模

块提取词嵌入的关键特征,从而捕捉序列数据中的复杂模式和长距离依赖关系,并估

计未标记样本的正类概率。为了降低预测偏差,研究引入了自适应采样策略,旨在动

态扩展实体词典的覆盖范围,以迭代优化模型的训练。考虑到PULearning的数据分布

假设,设计了分布和置信度两类KL散度(Kullback-LeiblerDivergence)损失函数交替

优化模型。与现有无标签学习方法相比,本研究所提出的方法降低了深度学习模型的

数据标注成本,并提高了模型实体识别性能,不仅为药物互作的命名实体识别提供了

一种高效的学习策略,也为深入挖掘药物互作研究中的实体关系提供了数据支撑。

(4)提出了一种融合实体与语义特征的关系抽取方法,解决药物互作关系

文档评论(0)

n1u1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档