- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
利用滑动窗口和 KNN 算法识别差异甲基化区域.pdf
第 3 6 卷第 4 期 杭州电子科技大学学报(自然科学版) Vo 3 6 No 4
0 1 6 年 7 月 Jou na o angzhou D anz Un ve s y(Na u a Sc ences) Ju 0 1 6
DO :10 1 3 9 5 4/ cnk hdu 0 1 6 04 008
利用滑动窗口和 KNN 算法识别差异甲基化区域
李华兵,杨 昆
(杭州电子科技大学计算学院,浙江 杭州 3 00 8)
收稿日期:20 5- -20
基金项目:国家自然科学基金资助项目
作者简介:李华兵(99 )男,安徽芜湖人,硕士研究生,数据挖掘.通信作者:杨昆副教授,E-ma :yangkun@.
摘要:针对现有差异甲基化区域 DMRs 识别方法中过度删除显著性弱的甲基化位点、DMRs 长度
受限以及不能直接处理多类的问题,提出了一种利用滑动窗口和 KNN 算法识别不同类别间
DMRs 的算法.算法先通过滑动窗口结合 KNN 分类器筛选候选区域,再根据误差率合并候选区域
得到 DMRs.真实数据上的实验表明,算法的分类性能、聚类指数明显优于对照算法,扩展了对照
的 Ong 算法识别的 DMRs 长度,并能发现 Ong 算法未发现的 DMRs.
关键词:差异甲基化区域;滑动窗口;KNN 分类器;多类问题;聚类指数
中图分类号:TP39 .4 文献标识码:A 文章编号:00 -9 46(20 6)04-003 5-05
0 引 言
DNA甲基化是指在 DNA 甲基转移酶(DNA methyltransferase,DNMTS)作用下,将甲基添加到碱基
上,是一种重要的表观遗传修饰[ .不同条件下的生物学样本之间存在差异甲基化区域(Differentially
methylated regions,DMRs),可能参与到基因表达的调控,进而影响基因功能.相关研究表明,相对于单个位
点独立的识别方法,针对整个区域的识别方法更有生物学上的价值.DMRs 识别与通常意义上的特征选择
有显著区别:通常的特征选择往往假定特征间无关联性,然而 DMRs 是基因组上有位置关联的一个区域,
而且长的 DMRs 更有生物价值.识别 DMRs 是当前研究领域中重要且新颖的研究问题,有别于通常的特征
选择问题.目前,已有多个识别 DMRs 方法的提出,主要分 3 类:一类是通过分析计算一个区域中每个位点
的差异来确定一个 DMR,如 bump hunting算法[2 和 Slieker算法[3 ,这类算法缺点是过度删除了一些显著
性弱的单个位点;第二类算法是通过相邻位点间的相关性,先聚类甲基化位点,然后估计每组聚类间差异
性,如 Ong算法[4 ,这类算法的不足之处是在识别 DMRs 之前区域长度受限;第三类算法是一种利用判别
分析的 DDA算法[5 ,这类算法针对两个类别的问题,不能直接应用于多类别问题.针对上述存在的问题,
本文提出了一种利用滑动窗口和 K 近邻(k Nearest Neighbor,KNN)分类器的 DMRs 识别算法(Slide
Windows KNN Algorithm,SWKA),并通过实验分析对比了算法的有效性和准确度.
1 问题的描述和 SWKA 算法
1.1 问题的描述
令 p 个位点n 个样本的 DNA甲基化数据看作一个矩阵M=(x ij )n×p ,其中 p 个位点看作p 个特征,
代表 p 个维度,每个行向量 t i =(x i ,x i2 ,…,x ip )可看作为模式识别中的一个模式(pattern),其中 x ij 是
芯片测出的样本 t i 位点j 的甲基化水平值.不同类别样本中其 DNA上存在甲基化程度明显差异的 CpG
位点,具有位置关联的差异甲基化位点构成 DMRs.给定多个类别的 DNA甲基化数据,识别基因组上连
续的 DMRs 是本文的研究问题,本文主要针对 Infinium 450 K 甲基化数据开展工作.
1.2 SWKA 算法
SWKA算法是利用滑动窗口结合KNN分类器识别DMRs算法.算法详细流程如图 1所示,首先划分各
个染色体,探针不均匀的分布在染色体上,如图 1(a)所示,其中圆圈表示位点,并设定窗口滑动步长k;利用
滑窗方式将所要分析片段划分为位置关联的小片段(种子),如图 1(b),其中实心和空心圆圈分别表示甲基
化位点和非甲基化位点;再利用 KNN分类器估计每个种子对样本的分类能力,选取分类误差率小于误差
率阈值的种子为DMRs种子,如图 1(c);在满足合并后分类误差率小于合并前的原则下,将有重叠的DMRs
种子合并,得到候选DMRs,如图 1(d);在相邻候选DMRs间距离小于一定长度和合并后的分类效果优于合
并前的条件下对 2个相邻候选 DMRs进
您可能关注的文档
- 2000-2012年山西省旅游业碳排放的时空差异.pdf
- C形状分析在函数和路径层次上的并行化.pdf
- GBT 22849《针织T恤衫》新旧标准差异浅析.pdf
- Hunt-HessⅢ~Ⅳ级动脉瘤性蛛网膜下腔出血患者血管介入栓塞与开颅夹闭手术后并发脑积水差异的比较及预后分析.pdf
- miRNA 在哮喘小鼠肺组织及肥大细胞中的表达差异.pdf
- MRI各序列上的信号特点差异在诊断类风湿性关节炎中的价值探讨.pdf
- OLCC与CUCC丛编编目差异分析.pdf
- WSN中层次型拓扑控制与网络资源配置联合设计方法.pdf
- “纵向四层次,横向四模块”的高职院校内部治理结构研究.pdf
- “要害”、“地气”与“理性的乐趣”--议论文写作教学中逻辑层次的导入与解构.pdf
最近下载
- 一种堆芯结构及空间核反应堆.pdf VIP
- 核反应堆总论 第十一章核燃料设计.ppt VIP
- 物流运输中的突发事件应急处理.pptx VIP
- 1.2 区域整体性和关联性 说课稿 2024-2025学年高二上学期 地理 人教版(2019)选择性必修2.docx VIP
- 机动车尾气技术检测 GB3847培训.pptx VIP
- 人口老龄化背景下城市老年人的社会适应问题研究.pdf VIP
- 物流运输中的突发事件应急响应.pptx VIP
- 儿科-病例分析.docx VIP
- 三一汽车起重机STC350C5-1_产品手册用户使用说明书技术参数图解图示电子版.pdf VIP
- 山东省建筑工程消耗量定额(2016).pdf
文档评论(0)