- 0
- 0
- 约1.62万字
- 约 22页
- 2026-02-03 发布于北京
- 举报
employtheBP(backpropagation)algorithmtotrainNNbyuseoftheNeuralNetwork
ToolboxinMATLABsoftwarepackage.Inthispaper,twothree-storyNNarecreatedto
inputtheextractedDNAcharactervectorsassamplesintothem.Afterthetraining,
charactersareextractedfromthe20unclassifiedartificialsequencesamplesand182
naturalsequencesamplestoformthecharactervectorsasinputofthetwoNNfor
clustering.Theresultsshow:theclusteringmethodpresentedinthispapercanclassify
theDNAsequencesinquitehighaccuracyandprecision.Itisquitefeasibletoapplythe
artificialneuralnetworktoDNAsequenceclustering
DNA分类模型
杨健,王驰,杨勇
指导老师:王鸣
(北京大学,北京100871)
编者按:本文将DNA序列的碱基的组合看作“文章”的关键词,用逐步优选法对关
键词进行优选并用分层分类的方法进行分类从理论上说,这一方法可以提取较好的
特征,而且分类也较精细这一模型有一定创造性,分析问题比较精细而贴近实际,
思路清楚,叙述通顺简练
摘要:本模型充分利用了所给数据的特点,运用统计、最优化等数学方法,从已知
样本序列中提炼出能较好代表两类特征的关键字符串,据此提出量化的分类标准,
能较好的对任给DNA序列进行分类。首先,从已知样本序列中用广度优先法选出
所有重复出现的字符串,并计算其标准化频率及分散度。然后,利用样本数据结合
最小二乘法确定两类字符串各自的优先级函数,并且逐步优化其参数使之达到稳定,
提高了可信度。最后,根据优先级函数找出关键词,然后确定权数,用层次分析法
对未知样本进行分类,并定出显著水平,从而得到了一个比较通用的分类方法。经
过检验,此方法对21—40号待测样本进行了很好的分类,对后面的182个DNA序
列进行同样的操作,也有较好的效果
1问题的重述(略)
2模型假设
(1)假定待分类样本21—40中既不属于A类也不属于B类的样本百分比不超过
5%
(2)假设keyword的重要性与和有确定的关系,且只与和有关(,定义
见下).
(3)假设不代表A、B类特征的字符串在DNA序列中是均匀分布的
3模型的分析
从所给的DNA序列观察发现,很多字符串重复出现的频率很高,而且有些字符串
在A类和B类中出现的次数有很明显的差距,这暗示把某些字符串作为A、B两类
的一个分类标准所以应对A、B两类已知样本做统计分析,找出其中可能代表该类
特征的字符串因为每个字符串重要性可能不一样,所以对这些字串的重要性排序,
选出最能代表该类特征的一部分字串然后用这些字串作为标准判断验证A、B两类,
看所选的标准的准确性,最后用于任何一个DNA序列的分类
4定义与符号说明
A类样本:编号为1-10的DNA序列
B类样本:编号为11-20的DNA序列
词(word):由,,,组成的在样本中重复至少两次的字符串
关键词(keyword):能代表A类或B类的特征由a,c,t,g组成的词
分散度():指某一类中包含某个word的DNA序列的个数
出现次数():某一字符串在DNA序列中的出现次数
序列长度():DNA序列的长度
字符串长():字符串的长度
4
标准化频率():=标准化了的词的出现次数
优先级函数():衡量词重要性的指标,是和的函数
权值(D):衡量DNA序列类别特征的量化指标
5模型的建立与求解
(1)Keywords的选择
选择keyword是所有工作的基础,
您可能关注的文档
- 凤凰古城风情与自然景观描述及排序.pdf
- 高精度快速油品自动配样机技术特性与应用.pdf
- 油品自动配样机技术特性与应用概述.pptx
- 盲人职业心理咨询师认证培训与鉴定.pdf
- 四口之家:电信工程师、工作者与航空业者温馨生活.pdf
- 四季度考核试题汇编:港口与航道工程技术出题.pdf
- 高二下学期第三次学月考试物理试题.pdf
- 法教学参考:著作权、专利权与商标权核心内容.pdf
- 技能二叉树访问通道构建技巧.pdf
- 定语从句概念与应用实例.pdf
- 中国国家标准 GB/T 46899.1-2025电能表 试验设备、技术和程序 第1部分:固定式电能表试验装置(MTUs).pdf
- 《GB/T 46899.1-2025电能表 试验设备、技术和程序 第1部分:固定式电能表试验装置(MTUs)》.pdf
- 《GB/T 8242-2025船体设备 术语》.pdf
- GB/T 46899.1-2025电能表 试验设备、技术和程序 第1部分:固定式电能表试验装置(MTUs).pdf
- 中国国家标准 GB/T 3352-2025人造石英晶体 规范与使用指南.pdf
- GB/T 8242-2025船体设备 术语.pdf
- 中国国家标准 GB/T 8242-2025船体设备 术语.pdf
- 中国国家标准 GB/T 31487.3-2025直流融冰装置 第3部分:试验.pdf
- GB/T 31487.3-2025直流融冰装置 第3部分:试验.pdf
- 中国国家标准 GB/T 46857.1-2025医疗装备运维服务 第1部分:通用要求.pdf
最近下载
- 青岛大学《高等数学》2020-2021 期中考试.docx VIP
- 重难点培优07 立体几何解答题题型全归纳(复习讲义)(全国通用)2026年高考数学一轮复习讲练(原卷版).docx
- ABB 615系列保护测控装置3.0版本操作手册 手册(中文).pdf
- 中医病证诊断疗效标准.pdf VIP
- 北京大学数字普惠金融指数(PKU-DFIIC)2011_2020.xlsx VIP
- MDIJade6.5使用手册(2022年-2023年).pdf VIP
- 阑尾疾病试题答案.doc VIP
- 固态电子器件_30964概念.pdf VIP
- 诺如病毒胃肠炎护理查房.pptx VIP
- HSK标准教程5上 课件 L16.ppt VIP
原创力文档

文档评论(0)