基于主动学习的临床脑电数据挖掘方法.docxVIP

基于主动学习的临床脑电数据挖掘方法.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于主动学习的临床脑电数据挖掘方法

脑电图(EEG)是判断大脑功能结构健康程度和检测大脑异常的重要手段。脑电图中的特定区域电活动异常可能是某些疾病发作的征兆,比如癫痫发作2。此外,临床脑电也被用于诊断脑炎、中风、帕金森病等疾病。有经验的医生可通过观察脑电图并根据专业知识评估和诊断神经系统疾病,但脑电信号存在个体差异,并且复杂多变,导致诊断结果往往具有主观局限性和一定的误诊风险。而借助人工智能技术自动识别并分析脑电信号4,可以大幅提高脑电诊断的效率和准确度,医生也能通过人工智能给出的分析进行进一步诊疗。

然而,在构建数据集的过程中,智能算法模型需要大量标注样本来提高性能,而大量的脑电数据需要手动标注,这极大延缓了脑电智能算法模型研究的进度。此外,模型性能与数据质量也有一定关系。因为数据集中的样本包含信息量不同,并且样本之间也可能存在重复的信息,因此需要一个能减少临床脑电数据标注工作量,并且在较少标注的情况下能够提高提炼数据集质量的方法。

在这种背景下,本文提出了一种基于主动学习的临床脑电数据挖掘方法,通过主动学习筛选潜在的高价值样本,并通过人工标注重新送入训练集对模型进行训练。首先通过基于数据池的主动学习方法进行基础训练,然后通过四种主动查询策略对临床脑电数据进行挖掘和筛选,最后利用所筛选出来的数据集训练EEG-Conformer算法进行测试。结果表明,该方法相比基准有所提升。

1.1主动学习

随机选择样本进行标注的方式没有考虑到高价值样本对模型训练效果的提升,而主动学习可以通过提前预设好的策略对样本进行筛选并标注,在较少样本标记的情况下获得较好的模型训练效果。主动学习在处理数据集样本时有两种方式:基于数据池和基于数据流

考虑到临床脑电数据集的规模大小以及标注成本,其更适用于基于数据池的主动学习方法,从有限的样本集中挖掘出高价值的数据。故本文采用基于数据池的主动学习方法,设计临床脑电数据挖掘方法。该方法的框架如图1所示。

首先,将初始标注注入已标注数据集D中,使用D训练模型M;然后,用模型M扫描未标注样本集S,并根据主动学习策略主动评估出高价值样本,注入高价值数据集H中;随后将H送至专家进行人工标注,这些新增的标注集被合并到D中;最后,利用更新后的D对模型M进行进一步的训练和优化。

1.2策略设计

主动学习方法的核心在于如何高效地挑选出对学习过程具有高价值的样本实例。本文采用基于不确定性的策略。该策略的核心思想是挑选出模型难以辨别或容易出错的样本进行标注。基于不确定性的策略通过计算不确定性度量来选择样本。本文主要采取以下四种不确定性方法。

(1)基于概率分布最大值特征的样本挑选策略,也称为最小置信度(leastconfidence)。该方法根据评估模型预测概率分布来衡量不确定性。如果预测概率最高类别的概率低于一定阈值,则表明模型对该分类信心不足,从而认为此样本具有较高的不确定性。此方法的公式为

式中,ρe为未标记的脑电数据样本,(204号,i为模型M下最大后验概率的预测脑电类别标签,为模型M在样本e预测为类别标签的概率,eLC*为不确定性最高的脑电数据样本。通过选择这些置信度最低的样本进行标注,可以帮助模型更好地理解模糊的分类样本,提高分类性能。

(2)基于最小分类差距(minimumclassificationmargin)的样本挑选策略,也称为边际采样。该方法是通过衡量模型对可能性最大和可能性第二大的脑电类别标签之间的预测概率差距来计算不确定性。样本在二者之间的预测概率差距越小,则模型在辨别时不确定性就越大。此方法的公式为

式中,和分别表示模型对可能性最大类别和可能性第二大类别的预测标签,为模型M在样本e预测为和的概率。eMcm表示最小分类差距的样本,分类差距越小,则表明分类器对此次分类的不确定性也越大。

(3)基于信息增益(informationgain)的样本挑选策略。该方法通过计算脑电标注样本后可能带来的信息增益来选择样本。通常基于熵(entropy)的变化来衡量信息增益。选择可能使模型信息增益最大化的脑电样本进行标注,通过优先标注这些样本,可以显著提升模型的分类能力,使模型在最短的时间内学习到更有价值的信息。此方法的公式为

式中,表示模型M在未标注脑电数据样本e属于类别下给出的置信度,eIG为信息增益最大化的脑电样本。该方法相对于上面两种策略,考虑了模型M对脑电样本e关于所有类别上的置信度。

(4)基于置信度波动(confidencevariability)的样本挑选策略。该方法通常可以通过均方差(meanvariance)实现,核心在于衡量模型对预测的波动性。置信度波动较大的脑电样本,说明模型对该样本的不确定性较高。标注这些样本,可以增强对波动较大的样本的理解,从而提升分

文档评论(0)

std365 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档