- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
低维输入空间的支持向量机识别人类剪接位点
刘利, 李前忠, 樊国梁
( 内蒙古大学理工学院物理系,呼和浩特 010021 )
摘要:真核生物剪接位点的识别作为基因结构注释的重要环节,一直以来倍受关注。
本文利用离散增量和权重矩阵构成的向量来表示序列,用支持向量机在六维向量空间中寻找
最优超平面将真实的剪接位点和虚假的剪接位点进行分类。计算结果表明,利用我们设计的
算法预测人类的剪接位点,有较高的预测能力。对于供体位点,真实位点识别率为 96.7%,
虚假位点的识别率为 93.4% ;对于受体位点,真实位点识别率为94.3%,虚假位点的识别率
为 92.9% 。
关键词:离散增量;权重矩阵;支持向量机;剪接位点
中图分类号:Q 61
0 引言
生物信息学的一项主要任务就是在基因组中对基因的结构进行完整的注释,
真核生物的 DNA 结构主要由启动子(promoter )、 翻译起始密码子(translation
start codon )、外显子(extron )、内含子(intron )、终止密码子(stop codon )等
构成。由于内含子的存在,真核生物基因结构的预测目前还存在一定的困难。内
含子的结构虽然具有明显特征,其 5’末端大多为 GT,3’末端多数为 AG ,即通
常我们所说的供体位点(donor site)和受体位点(acceptor site) ,统称为剪接位点
(splice junction site )。但背景序列中存在很多这样的虚假位点,这就需要我们进
一步统计信号序列附近的特征,并且选择其中能够很好表达属性的特征结合优秀
的分类算法区分它们达到预测基因的目的。对人类基因组外显子和内含子的边界
(即剪接位点)的预测是重要的研究内容。近年来,国内外很多学者相继提出各
种预测基因剪接位点的算法,但很多算法所用到的序列长、参数多、方法复杂,
不利于预测的推广。例如:GeneSplicer[1]结合隐马尔可夫模型和最大依赖分解方
收稿日期:
基金项目:国家自然科学基金资助项目,高等学校博士学科点专项科研基金资助课题.
通讯作者:李前忠,电话(0471)4992958,
E-mail :qzli@
1
法对拟南芥和人类的剪接位点预测取得了较好的结果,但用到了剪接位点前后
[2]
80 碱基的序列信息;文献 基于多样性指标的二次判别方法成功地预测了五种模
式生物的剪接位点,对于人类基因他们同样用到了剪接位点前后 80 个位点的碱
[3]
基信息及碱基关联信息;文献 用了贝叶斯网络分析了人类基因剪接位点,他们
发现供体位点前 3 个碱基和后 7 个碱基是保守的,受体位点前 27 个碱基和后 1
个碱基是保守的,他们预测时则分别用到了供体位点前后 9 个碱基及受体位点前
27 个位点和后 9 个位点。本文对于供体位点只用了剪接位点前 7 个碱基和后 8
个碱基的关联信息,对于受体位点用剪接位点前 20 个碱基和后 10 个碱基的关联
信息,利用离散量和权重矩阵提取序列信息后组成六维向量输入给支持向量机
(SVM ),此方法精确地预测了人类基因的剪接位点,效果优于使用同一数据库
[4] [5]
的NNSplice (神经网络)方法 。文献 同样是使用支持向量机的方法,但他们
是把四种碱基转换成 0001、0100、0010、0001 直接作为参数输入给SVM,用到
了供体位点前后20 个位点和受体位点前后 30 个位点,分别是 160 维向量和 240
维向量,预测结果也远不如我们得到的结果。
1 材料与方法
1.1 数据
我们所用的数据是从/sequence/human-datasets.html 下
载的,也是NNSplice
您可能关注的文档
- 雌性哺乳动物促黄体素受体研究进展.ppt
- 次贷危机下大陆股市与国际股市间相依性的研究.pdf
- 次贷危机下大陆股市与国际股市间相依性的研究21298.pdf
- 次氯酸钠应用于二次供水安全消毒小试的研究.pdf
- 刺参体腔细胞吞噬功能初步的研究.pdf
- 从尺规到NURBS_用于辅助设计曲面型建筑几何工具沿革.pdf
- 从工业废弃地到城市游憩空间转化与更新——以安徽省淮南大通矿生态区改造为案例.pdf
- 从工业废弃地到绿色公园_景观设计与工业废弃地更新.pdf
- 从工业废弃地到绿色公园--景观设计与工业废弃地更新.pdf
- 从净饮机市场应用来看饮用水安全现状与可持续发展.doc
- 2025年伤口胶带项目提案报告模板.docx
- 综合解析青岛版7年级下册数学期末试卷【word】附答案详解.docx
- 综合解析青岛版7年级下册数学期末测试卷附答案详解(达标题).docx
- 综合解析青岛版7年级下册数学期末测试卷(历年真题)附答案详解.docx
- 综合解析青岛版7年级下册数学期末测试卷附答案详解【基础题】.docx
- 综合解析青岛版7年级下册数学期末测试卷(夺冠系列)附答案详解.docx
- 综合解析青岛版7年级下册数学期末测试卷附答案详解(满分必刷).docx
- 综合解析青岛版7年级下册数学期末测试卷标准卷附答案详解.docx
- 综合解析青岛版7年级下册数学期末试卷带答案详解(基础题).docx
- 综合解析青岛版7年级下册数学期末试卷附完整答案详解【历年真题】.docx
文档评论(0)