蛋白质质谱数据挖掘方法研究模式识别与智能系统专业论文.docxVIP

  • 6
  • 0
  • 约6万字
  • 约 68页
  • 2019-01-30 发布于上海
  • 举报

蛋白质质谱数据挖掘方法研究模式识别与智能系统专业论文.docx

蛋白质质谱数据挖掘方法研究模式识别与智能系统专业论文

IUlllllll IUlllllll 11111 1 U l《 硕t论文 蛋白质质谱要 Y1 9 1 8 摘 要 准确诊断各类癌症至今仍是一个医学难题,尤其是对早期癌症的诊断。为此研究人 员提出蛋白质质谱数据分析方法,通过分析蛋白质质谱数据样本来检测是否患有癌症。 具体过程是:先提取样本关键特征训练分类器,然后用分类器对测试样本分类。由于蛋 白质质谱数据固有的高维数和噪声等特性,显著增加了蛋白质质谱数据分析的复杂度, 使得对蛋白质质谱数据的分类十分困难。本文采用卵巢癌和胰腺癌蛋白质质谱数据,并 运用多种方法进行分析研究,特征选择采用丁检验法、自组织神经网络和主成分分析法, 样本分类器采用支持向量机和概率神经网络。 本文研究五种蛋白质质谱数据分类方法,使用不同的特征选取方式和分类器。第一 种分类方法:特征选择采用r检验法,分类器采用支持向量机;第二种分类方法:特征 选择采用自组织映射网络,分类器采用支持向量机;第三种分类方法:特征选择采用r 检验法和二次主成分分析法,分类器采用支持向量机;第四种分类方法:特征选择采用 r检验法和MSDlOVIaximum Significant Difference And Independence)算法,分类器采用概 率神经网络;第五种分类方法:特征选择采用r检验法和本文提出的MSDSRI(Maximum Significant DifferenceAnd Square Root OfIndependence)算法,分类器采用概率神经网络。 本文针对上述蛋白质质谱数据的分类方法进行了详细的分析和深入的研究,得出结 论如下:样本识别率不仅与特征选择的方法有关,还与分类器种类和用于分类器训练的 特征数量有关。使用支持向量机作为分类器时,特征选择采用丁检验法比自组织映射网 络好,采用二次主成分分析法比主成分分析法好;使用概率神经网络作为分类器时:特 征选择采用MSDSRI算法比MSDI算法好。从整体分类性能方面考虑,基于MSDI的特 征选择算法和概率神经网络的分类方法,要好于基于二次主成分分析特征选择法和支持 向量机的分类方法。在卵巢癌切片组织检查中样本识别率可达到99.498%:在胰腺癌切 片组织检查中样本识别率可达到99.722%。 关键词:蛋白质组学,蛋白质质谱,特征选择,概率神经网络,支持向量机,自组织 映射,二次PCA 硕士论文Abstract 硕士论文 Abstract Accurate diagnosis of cancers is still a medical challenge till now,especially to inchoate cancers.To overcome this challenge,researchers introduced a method called Protein Mass Spectrometry Data Analysis,through which cRnc冶rs cRn be diagnosed by analyzing samples of protein mass spectrometry data.The detailed process is first extract key features of sample to train the classifier,and then classify test samples with the classifier.However,protein mass spectrometry data has features like huge volume and the presence of noise.These features highly increase the data analysis complexity and make classifying protein mass spectrometry data difficult.In this thesis,protein mass spectrometry data of ovary cancer and pancreatic are collected and analyzed by various methods.The feature selection applies T-TEST, SOM(self-organization mapping net)and PCA(principal components analysis)while the sample classifier applies SVM(support vector machine)and PNN(probabilist

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档