生物数据特征提取方法及应用分析-feature extraction method and application analysis of biological data.docx
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物数据特征提取方法及应用分析-feature extraction method and application analysis of biological data
要随着高通量技术的飞速发展,大量研究结果产生了海量的生物医学数据。如何从海量的生物医学数据发掘有生物意义的知识和规律是后基因时代人类所面临最具挑战性的生物学问题之一。序列数据飞速增长,而大量参与重要生命活动的基因和蛋白质功能仍然未知。由于生物数据本身的复杂性及不同研究领域存在的不同研究评价准则,人们很难仅从数据本身出发去发现基因和蛋白质的功能信息,因而人们开始通过特征特征提取方式来对生物信息数据中所存在的规律进行挖掘。生物数据的特征提取是生物信息学中最为基本的问题,特征提取算法的优劣直接关系到生物数据信息提取和分析的准确性。本文立足于基因数据和蛋白质数据,围绕基因数据和蛋白质数据的特征提取进行深入研究,根据相应数据自身的特点及其应用背景,提出了三种不同的特征提取算法,并在标准数据集上对方法的准确性、可靠性进行验证及分析。本文主要工作概括如下:(1)蛋白质特征提取是蛋白质相关应用问题的基础,特征提取的不完整是影响蛋白质特征有效提取的主要因素之一。针对该问题本文提出一种基于混合特征的序列特征提取方法。该方法主要是通过利用一些蛋白质序列特征信息构造出一个向量,并以此作为蛋白质的特征向量。基于该方法本文将该特征向量作为SVM或KNN分类器的输入来预测出蛋白质进行亚细胞的准确定位。通过跟其他的一些基于序列信息的蛋白质亚细胞定位方法比较,该方法能够在没有预先知道蛋白质结构知识的情况下自动地对蛋白质亚细胞定位进行预测。从实验结果和时间分析上可以看出本文所提方法在准确度上要优于其他的一些方法,说明了这种方法的正确性和有效性。(2)蛋白质特征提取方法中,研究人员大多偏重于局部信息的提取,这使得所构造的特征仍然不够完整。针对该问题本文提出一种序列数字特征提取方法,该方法忽略了蛋白质的结构和相互作用信息,基于疏水性,极性,电荷性等特性构造出一个向量并以此作为蛋白质的特征向量。该方法获得的特征既包含了蛋白质序列全局信息,又囊括了序列局部信息。基于该方法本文提取蛋白质序列的特征向量并结合最近邻分类算法(KNN)预测蛋白质的功能分类,以解决没有或者其相互作用信息很少的蛋白质功能类预测问题。为了讨论亚细胞定位信息是否对蛋白质功能预测有影响的问题,本文将亚细胞位置信息融入所提特征中,并将其用于蛋白质功能预测,实验显示其效果在某些方面优于其他方法,这也证实了所提方法的有效性。(3)基因表达数据具有高通量、高维、非线性、高噪声以及分布不均的特点,这直接影响了基因数据所含信息的有效提取。本文针对基因表达数据的特点提出了一种新的特征基因选择算法。该方法同时考虑了过滤法和缠绕法在特征选择中的应用,在对原始数据过滤后引入KNN方法对每一条基因进行聚类,然后引入聚类紧密度指标来进一步降低特征基因的维数;考虑到基因与基因之间的相互作用,本文在特征提取过程中引入一种新的特征基因搜索策略。该方法所选择特征基因在具有很好的识别精度的同时也具有较好的冗余。本文将该特征基因选择方法应用于肿瘤亚型识别试验以及关键SNP的选择实验中。结果表明,本章所提出的方法可获得很好的实验效果。关键词:特征提取;生物信息;特征基因;肿瘤亚型识别;功能预测;亚细胞定位AbstractWiththerapiddevelopmentofhigh-throughputtechnologies,afloodofbiomedicaldatahascomeintobeing.Oneofthemostchallengingbiologicalproblemswearefacinginthepost-genomeeraishowtoexcavatesignificancebiologicalknowledgeandlawfrommassivebiomedicaldata.Withtheboomingofsequencedata,thefunctionofgenesandproteinsinvolvedinimportantlifeactivitiesstillremainsunknown.Itisdifficulttodiscoverfunctionalinformationofgenesandproteinsfromthedataitselfduetothecomplexityofthebiologicaldataandthedifferenceofevaluationcriteriaexistedindifferentresearchareas.Andthuspeoplebegantominetheruleofbioinformaticsdatabymeansoffeatureextraction.Featureextractionisthemostfundamentalproblemsinbioinformati
您可能关注的文档
- 沈约诗歌分析—以对元嘉诗体的继承和变革为中心-analysis of shen yue's poems - centered on the inheritance and transformation of yuan jia's poems.docx
- 砂岩致密化形成机理探讨—以鄂尔多斯盆地东部山西组为例-discussion on the formation mechanism of sandstone densification - a case study of shanxi formation in eastern ordos basin.docx
- 沈阳周边村镇砌体结构学校建筑抗震性能分析-seismic performance analysis of masonry structure school buildings in villages and towns around shenyang.docx
- 沈知方时期世界书局出版活动特色探析1917-1940——以教科书和期刊为中心的考察-an analysis of the characteristics of the publishing activities of the world bookstore during shen zhifang period 1917 - 1940 - an investigation centered on textbooks and periodica.docx
- 沈知方时期世界书局出版活动特色探析19171940以教科书和期刊为中心的考察-an analysis of the characteristics of the publishing activities of the world book company during shen zhifang's time 1971940 investigation centered on textbooks and periodicals.docx
- 审查起诉阶段律师介入情况的调查报告──以重庆市某基层人民检察院为例-investigation report on lawyers' involvement in the prosecution stage - a case study of a grassroots people's procuratorate in chongqing city.docx
- 审查起诉阶段瑕疵实物证据补救规则分析-analysis of remedy rules for defective physical evidence in review and prosecution stage.docx
- 沙生克隆植物am真菌与土壤因子生态相关性分析-analysis of ecological correlation between am fungi and soil factors in psammophyte clonal plants.docx
- 沈约诗歌研究—以对元嘉诗体的继承和变革为中心-research on shen yue's poetry - centered on the inheritance and transformation of yuan jia's poetry.docx
- 审计管理信息化的问题与对策分析——以n市审计局为例-analysis on problems and countermeasures of audit management informationization - taking n city audit bureau as an example.docx
- 生物生态耦合技术处理农村生活污水的分析-analysis of bio-ecological coupling technology for rural domestic sewage treatment.docx
- 生物启发下复合纳滤膜的制备及性能分析-preparation and performance analysis of composite nanofiltration membrane inspired by biology.docx
- 生物炭对不同质地土壤结构及水力特征参数影响试验分析-experimental analysis of influence of biochar on soil structure and hydraulic characteristics parameters of different textures.docx
- 生物炭对pb cd污染土壤的修复试验研究-experimental study on remediation of pb cd contaminated soil by biochar.docx
- 生物塑料聚3-羟基-co-4-羟基丁酸酯p34hb及聚己二酸对苯二甲酸丁二酯pbat对聚乳酸pla性能改进研究-study on the performance improvement of poly ( 3 - hydroxy - co - 4 - hydroxybutyrate ) p34hb and poly ( butylene adipate ) terephthalate pbat on pla.docx
- 生物炭对潜流人工湿地中植物的影响-effects of biochar on plants in subsurface flow constructed wetlands.docx
- 生物炭对pb cd污染土壤的修复试验分析-experimental analysis on remediation of pb cd contaminated soil by biochar.docx
- 生物炭对pb、cd污染土壤的修复试验研究-experimental study on remediation of pb and cd contaminated soil by biochar.docx
- 生物炭覆盖对底泥氮、磷释放的影响及其吸附性能分析-effect of biochar mulching on nitrogen and phosphorus release from sediment and analysis of its adsorption performance.docx
- 生物炭和腐植酸对柴油和汽油在黄土上吸附行为影响的分析-effect of biochar and humic acid on adsorption behavior of diesel oil and gasoline on loess.docx
文档评论(0)