- 1、本文档共121页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析及其应用研究-计算机应用技术专业论文
摘要摘要模式识别,也被称为分类或者是统计分类,模式识别学科的研究目的就是为了构建能够自动判别输入数据类别信息的分类系统。聚类分析是一种无监督的模式识别方法,是模式识别研究中的一个重要领域。无监督的聚类分析算法能够探索输入数据的内部群组结构,目前已经被广泛应用于各种数据分析场合,包括计算机视觉分析,统计分析,图像处理,医疗信息处理,生物科学,社会科学和心理科学等。聚樊分析的慕本原理就是将输入数据分成不间的群组,同一组中的成员拥有相似的特性,相反不同组中的成员特性相鼻。本文主要针对聚类分析算法及其应用进行研究,本文研究的聚类分析算法主要应用于生物信息学数据分析,大规模选址问题,数据不规则形状分布聚类分析问题。主要的工作和取得的成果概括如下:(1)基因表达序列分析技术(Seria1Analysis ofgene expression,SAG巴)是一种快速详细的分析数以千计转录(甘 anscrip臼)的最佳方法,这项技术最开始由VictorVelculescu博士于1995年提出。聚类分析算法是一种非常有用的SAGE数据 分析方法,被用于发现SAGE数据集中潜在的新的或隐含的转录或者是基因组,因此已经被用于分析SAGE数据。尽管研究人员已经给出了多种用于SAGE数据 分析的聚类分析算法,但是这些算法通常都需要结合一些用户自己设定的参数,并且聚类分析的结果对参数选择有很强的依赖性。本文基于SAGE数据的Poisson统计特性和最近提出的仿射消息传播聚类分析算法提出一种自适应的聚类分析算法,在该算法中引入了一个聚类结果校验测度,并以该测度为代价函数对聚类结果进行优化调整以获得优化的聚类结果,该算法被命名为PoissonAPS。在多个实际生命数据集上的对比实验结果表明本文给出的方法能够对SAGE数据进行很好的聚类分析,并且产生有意义的可解释的分类结果。(2)随着高通量测序技术的发展,目前在生物信息数据库中已经累积了大蠢的蛋白质序列数据。但是由于实验确定蛋白质序列功能的速度无法赶上新序列测序的速度,因此造成大量的新测序的蛋白质序列尚未通过实验的方式来确定它们的生物功能和家族倩息。由于实验验证过程非常耗时并且昂贵,因此理想情况下希望仅仅依赖序列之间的相似性来探测未知功能序列和己知功能序列之间的同源关系,进而确定未知功能序列的信息。聚类分析方法能够通过将蛋白质序列分类摘要到不同的蛋白质家族获得有意义的信息。最近几年研究人员已经提出了多种用于蛋白质序列分析的聚类算法。面对众多的蛋白质序列聚类分析算法,有必要进行一个对比研究分析,分析的结果将有利于生命科学研究人员考察不同的算法并且选择合适的用于特定实验分析场合的算法。本文比较了四种典型的蛋白质序列分析算法,在多个数据集上考察算法的以下几方面的性能:缺省参数条件下的聚类算法性能分析:算法对蛋白质序列在数据集中所处位置是否敏感:数据集自身的真实类分布对聚类算法结果的影响;调节算法的参数,观察参数对聚类结果的影响。本文给出的实验结果能够帮助研究人员选择合适的分析算法。并且实验结果还表明蛋白质序列聚类分析算法还有很大的改进空间。(3)随着大量的未知功能的蛋白质序列数据的累积,目前已经无法通过实验的手段来标注米知功能的蛋白质序列。聚类分析方法通过将蛋白质序列分类到不同的同源组来确定米知功能的蛋白质序列的倍息。本文引入了一种用于大数据最蛋白质序列分析的无比对的在线聚类分析方法,命名为OnlineCAPS0该方浩具有速度快,可在有限内存环境下运行等优点,此外该方法还可以被部署在WEB服务器上。实验结果表明该方法能够快速的分析大数据量的蛋白质序列,并且获得的聚类结果的质量接近于其它算法。(4)选址布局问题是一个广泛研究的运筹学问题。通过将选址布局问题看作 聚类问题,结合聚类分析算法并且将候选地址的信息映射为特征向盘,本文提出了两种求解选址布周问题的方法:基于块划分的选址布局方法:基于道路网络的选址布局方法。文中使用模拟数据集和真实数据集来评估这两种方法,实验结果表明两种方法都能够求解设施资源受限和不受限情况下的选址布局问题,而且可以很好的解决大规模的选址布周问题。(5)探测数据不规则形状分布的自然类簇分布是模式识别研究领域的一个困 难的任务。本文给出了一种有效的数据不规则形状分布聚类分析算法,该算法结合了谱聚类和仿射消息传播聚类算法的优点,能够很好的分析数据不规则形状分布的类簇结构。与此同时,文中给出了一种新的基于邻居离散分析的相似度测度。本文给出的方法简单有效,在多个模拟数据和实际数据上检验了方法的性能。实验结果表明本文给出的方法能够探测数据中的自然类簇分布,并且聚类分析的结果和人的自然判断相一致。关键词t 模式识别,聚类,蛋白质序列,基因表达序列分析,选址问题日ABSTRACTABSTRACTPattemr
您可能关注的文档
- 日本新时期科技政策研究及其对我国的参考-管理科学与工程专业论文.docx
- 基于保护消费者的视角论我国转基因产品法律制度的完善-经济法学专业论文.docx
- 基于证据理论的工业报警器设计方法分析-控制理论与控制工程专业论文.docx
- 乡镇政府公务员工作满意度研究-行政管理专业论文.docx
- 统一电能质量调节器(upqc)直接控制策略研究-电气工程专业论文.docx
- 老年人健康监护产品界面设计-艺术设计专业论文.docx
- 聚吡咯纳米管pt基纳米复合材料的制备及其催化性能的研究-应用化学专业论文.docx
- 聚合物共混状态超声在线监测关键技术研究-精密仪器及机械专业论文.docx
- 室内mimo无线信道特性分析与建模-信息与通信工程专业论文.docx
- 腺病毒介导人白介素10离体转基因对大鼠移植肝脏保护作用的研究-外科学专业论文.docx
最近下载
- 田径裁判法教案.doc
- NB-T 11258-2023井工煤矿机电管理通用要求.pdf
- 江苏开放大学2024年秋形势与政策《060112》作业一二三四参考答案.pdf VIP
- 耐张线夹X光射线探伤技术规范书.doc
- AC311-67-2017-07关于AC311型机总距杆低距锁片检查和调整的技术.doc VIP
- TAHSX 2-2024 过瘤胃(包被)蛋氨酸.docx
- 2023北京海淀六年级下学期期末数学试卷及答案.pdf VIP
- 英汉对比研究-替换与重复.ppt VIP
- 河南省南阳市西峡县2023-2024学年七年级上学期期末语文试题(解析版).docx VIP
- 零售学第五版肖怡课后答案.doc
文档评论(0)