- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
山东大学博士研究生学位论文开题报告
姓名 李阳 院、部、所、中心 数学学院 专业 运筹学与控制论 学号 201111313 导师 李国君 研究方向 生物信息学 论文题目 多重基因共表达网络中搜索高频稠密子网络,系统生物学,复杂网络文献基因分析工具的发展改进与大,基因芯片数据积累,相关的数据逐步发展完善,例如GEO)数据库以及斯坦福大学的Stanford Microarray Database(SMD)。有了基因表达数据,用有效的工具分析数据目前的热点问题。最关键的问题就是从海量的()识别出关键的,例如的致病源此类问题,生物实验的方法仍然是最直接最工具,然海量的生物数据大规模积累,实验的成本和实验所需时间及人力限制此类问题高效快速解决瓶颈问题,于是生物医学领域着手从计算科学入手,开发相关的计算工具来应对这类问题。
系统科学作为一个新兴学科发展与之相关的交叉学科也发挥着日益重要的作用,和网络生物学的研究正在不断地拓展同时数据挖掘计算科学的大量工具系统生物学中得到了广泛地运用。基因芯片数据网络模型进行分析研究成为了基因表达数据分析的主流在,社团检测是一类重要的问题,类似地,对于通过基因芯片数据构建的网络,快速准确地搜索出稠密子网络是一类的系统生物学问题,数据挖掘的范畴,具有和医学意义。此类问题,目前存在多种启发式算法,其性能各有优劣,目前比较突出大规模的就是、怀特黑以及加州大学圣地亚哥分校合作开发的马尔科夫聚类算法开源系统生物学软件Cytoscape,目前应用。
生物实验过程中,由于生物体中存在的随机摄动以及实验测序技术的,一个单一的基因共表达网络研究难以客观地基因的表达情况因此对于大规模多重基因共表达网络的研究发展起来。的目标在于对于同一个生物体的基因共表达,通过设计算法快速有效地搜索出网络中频繁出现的稠密子网络,这个问题相对于之前的问题的研究,提出了一个更高的要求:搜索的出现的频率要达到规定的阈值;②稠密子网络的尽可能大,国内外的生物信息学家已经做了工作,的生物信息学研究团队近几年内曾设计出几个算法用于解决此类问题,这些算法的思想涵盖了、模拟退火以及图论算法。然而由于数据规模的庞大,上述算法的运行效率较低,从而不得不在运行之前要处理的网络进行大规模的,从而使计算难度降低。与此同时大量数据的丢失也会使得该算法在一定程度上丧失的客观性。高效准确地算法合理解决上述问题,并算法运行对实验的客观性成为改进的一个方向。
搜索稠密的问题组合优化是一重要的问题,该问题的研究目前算法,该问题涉及到图的同构问题,所以该问题是NP-hard问题,而目前已有的理论计算杂志的论文是解决两个图的公共稠密子图搜索问题。此外一个单一的图,搜索最稠密的子图问题一个P问题,存在快速准确算法但是最稠密的子图通常会得到毫无实际意义的解,相对而言,搜索阶数等于、大于等于或者小于等于某个k值问题更具实际意义这个问题已经是NP-hard问题对于多重图的情况更是如此。
背景下,前文提到的图的同构问题可以通过对网络结点进行标号来解决,因为网络中结点分别代表不同的基因,因此到生物计算,该问题的难度大大降低。该问题的难点还存在于网络子集合的数目之多从而使得计算复杂度增加。,如果能够设计得到一种高效的启发式算法解决多重基因共表达中高频稠密子图的问题,在理论计算中可以用启发式算法解决稠密子图的问题。因此基因表达网络相关算法的研究可以推进理论计算的发展。
,实际意义更为显著。的基因类似地功能,因此我们可以利用该算法的实验结果对未被注释的基因,进行大规模注释。目前癌症生存造成的严重威胁,快速确定癌症的病原从而进一步寻求是涉及到人类未来的关键议题。实验对于癌症病人具有杀伤力和破坏性,我们无法期望方法病因。在中,癌症的致病原恰好对应于基因共表达中的稠密子网络,因此如果我们癌症病人基因共表达网络进行搜索,确定这些稠密子网络的话,不仅极大地节约了生物实验所需的人力物力同时也消除了生物实验对于病人本身造成的。把结果和统计学里的生存分析相结合还可以通过图像准确地确定癌症病人的类型——轻微患者重病患者从而进一步,采用不同的治疗手段在时间上抢占先机。,该研究问题的实际意义是非常值得关注的。
所要解决的主要问题:
大量的多重基因共表达网络中搜索高频稠密子网络,基因表达网络的构建来自多个癌症病人的基因芯片数据
研究途径与方法:
的研究方法以组合算法为主,辅助以统计学的相关算法。参考相关文献了解目前该问题的研究现状以及已经存在的解决该问题的算法及思想。然后已经存在的算法其中的缺点和。之前的算法的缺点突破方向,着手解决目前在这类算法中存在的问题,算法的缺点逐步形成自己的算法来解决这类问题。
,数据的获取也是一个重要方面,要从现有的基因芯片——GEO和SMD中并下载原始的基因芯片实验数据然后现有的方法对原始数据
文档评论(0)