基于基因关联分析的贝叶斯网络疾病样本分类算法.pdfVIP

  • 3
  • 0
  • 约6.7万字
  • 约 10页
  • 2025-10-21 发布于江西
  • 举报

基于基因关联分析的贝叶斯网络疾病样本分类算法.pdf

JournalofComputerApplicationsISSN1001‐90812024‐11‐10

计算机应用,2024,44(11):3449-3458CODENJYIIDUhttp://www.joca.cn

文章编号:1001-9081(2024)11-3449-10DOI:10.11772/j.issn.1001-9081.2024030398

基于基因关联分析的贝叶斯网络疾病样本分类算法

11*23

李志杰,廖旭红,李元香,李青蓝

(1.湖南理工学院信息科学与工程学院,湖南岳阳414006;2.武汉大学计算机学院,武汉430072;

3.宾夕法尼亚大学医学院,美国宾夕法尼亚费城19019)

(∗通信作者电子邮箱lxh2402163.com)

摘要:基因表达数据作为生物学中一种特定类型的大数据,尽管基因表达值都是普通的实数值,但它们的相似

性不是基于欧氏距离度量,而是基于基因表达值是否展现同升同降趋势。目前的基因贝叶斯网络以基因表达水平值

为节点随机变量,没有体现这种子空间模式的相似性。因此,提出基于基因关联分析的贝叶斯网络疾病分类算法

(BCGA),从带类标签的疾病样本-基因表达数据中学习贝叶斯网络并预测新疾病样本的分类。首先,将疾病样本离

散化过滤以选择基因,并将降维后的基因表达值排序和置换为基因列下标;其次,分解基因列下标序列为长度为2的

原子序列集合,而这个集合的频繁原子序列对应一对基因的关联关系;最后,通过基因关联熵度量因果关系,并用于

贝叶斯网络结构学习。BCGA的参数学习也变得很容易,基因节点的条件概率分布只要统计该基因的原子序列和父

节点基因的原子序列出现频次即可。在多个肿瘤和非肿瘤基因表达数据集上的实验结果表明,相较于已有的同类算

法,BCGA的疾病分类准确率明显提高,分析时间有效缩短;另外,BCGA使用基因关联熵代替条件独立性,使用基因

原子序列代替基因表达值,可以更好地拟合基因表达数据。

关键词:基因表达数据;频繁原子序列;基因关联熵;基因序列贝叶斯网络;疾病分类

中图分类号:TP181文献标志码:A

DiseasesampleclassificationalgorithmbyBayesiannetworkwithgeneassociationanalysis

11*23

LIZhijie,LIAOXuhong,LIYuanxiang,LIQinglan

(1.SchoolofInformationScienceandEngineering,HunanInstituteofScienceandTechnology,YueyangHunan414006,China;

2.SchoolofComputerScience,W

文档评论(0)

1亿VIP精品文档

相关文档