- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
? 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术学院 2012 * ? 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术学院 2011 * ? 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术学院 2011 * 习题-2: 数据(或属性)的类型有哪几种?怎样区分这些类型?每种类型举一个例子。 标称属性的值只提供足够的信息以___区分__对象. 序数属性的值提供足够的信息确定对象的__序___. 对于比率属性的值,进行_差_和___比率__操作都是有意义的. 摄氏温度、年龄、质量、长度、基因表达量、一号染色体的基因起始位置,它们分别属于什么数据类型。 数据集的类型主要有几类?每种类型又包含哪些具体的数据集子类型。 数据矩阵是一种特殊的记录数据类型。与记录数据类型相比,特殊在哪里? 目前有100多个代谢通路,如葡萄糖代谢、嘌呤代谢等,那么葡萄糖代谢属于带有对象之间联系的数据还是具有图形对象的数据? 如下是酵母细胞在多个时间点上的全基因组表达情况。该数据集属于哪种具体的数据集类型?这种数据有什么特点。 噪声和离群点的区别? 产生遗漏值的原因有哪些?怎样处理遗漏值? 数据预处理主要有什么方法? 聚集的主要目的有:数据归约、使数据性质更加稳定、________。 (判断对错!)OMIM数据库中每个疾病已知的疾病基因很少,因此难以利用他们来识别相应的通路。为此我们可以利用特征选择的方法把疾病亚类汇集起来,如肝移植、肾移植、…等疾病,称为器官移植疾病。然后得到较多的基因,再进行识别通路。(错,聚集的方法) 统计学使用抽样是因为__获得__(获得、处理)感兴趣的整个数据集的费用太高、太费时间。数据挖掘使用抽样是因为__处理__(获得、处理)所有的数据的费用太高、太费时间。 已知人类基因有2万个,我们检测了所有1000疾病基因对在通路中的距离,结果发现它们的平均距离(d)很小。但我们不确定这种现象是否是疾病基因特有的。试利用抽样方法来验证这种现象。 连续属性离散化方法主要有_______、_______和_______。 叙述等宽和等频离散化方法的原理。 当数据有一些离群点时,采用均值和标准差进行数据标准化受离群点影响大。这时可用_中位点 和__绝对标准差 代替。 对象之间相似度和相异度测量方法主要有哪些? 明可夫斯基距离 ,当r=1时,该距离称为_城市块距离_。当r=2时,该距离称为__________。 有两个数据对象,他们都是一维的数据(即简单属性),那么当他们是标称、序数、或连续属性时,他们之间的相似度和相异度怎样计算。 如果利用基因表达谱来构建基因相关网络,可以把每个基因当作数据对象,然后计算对象间的表达相关度。那么计算这种相关度可以使用___皮尔森相关系数__测度。阐述你选择这种测度的理由?并叙述怎样利用这种测度来构建网络。(因为是连续的) 疾病的发生、发展与通路密切相关。目前已知的通路有100个。研究人员发现皮肤癌与其中的30个通路相关,中风与其中的20个通路相关。而且这两个疾病共享的通路有10个。选择一种方法计算这两个疾病的相似性值? SMC = (f11 + f00)/(f01 + f10 + f11 + f00) = (10+60) / (10+20+10+60) = 0.7 J = (f11) / (f01 + f10 + f11) = 10 / (10 + 20 + 10) = 0.25 习题-6 随机森林方法原理 怎样利用多棵决策树来寻找疾病风险基因 随机森林与组合决策方法的异同点 详细阅读组合决策方法论文 组合决策还适用于解决哪些生物学(医学)问题 习题-9 稀疏化的好处 OPOSSUM聚类算法中重要一个步骤是稀疏化,叙述该稀疏化方法 Chameleon算法使用接近性和互连性概念以及簇的局部建模。关键思想是:使用______和______概念,仅当合并后的结果簇______原来的两个簇时,这两个簇才合并。 Jarvis-Patrick(JP)聚类算法首先计算______图,然后使用相似度阈值,稀疏化该图找出稀疏化图的连通分支。 基于SNN密度的聚类不象JP聚类简单地使用域值,然后取______作为簇,基于SNN密度的聚类使用基于SNN密度和_______方法。 SNN密度的优势。
您可能关注的文档
- 哈尔滨工业大学《思想政治》黄磊-自然辩证法选修日历.doc
- 哈尔滨工业大学《思想政治》黄磊-中国特色社会主义经济建设专题下2015.ppt
- 哈尔滨工业大学《思想政治》黄磊-中国特色社会主义经济建设专题上2016.ppt
- 哈尔滨工业大学《系统建模与仿真》8分布式仿真.ppt
- 哈尔滨工业大学《系统建模与仿真》第2章 系统建模方法.doc
- 哈尔滨工业大学《系统建模与仿真》第3章 连续系统仿真方法.doc
- 哈尔滨工业大学《系统建模与仿真》第5章 混合系统建模与仿真.doc
- 哈尔滨工业大学《系统建模与仿真》第6章 仿真计算机-仿真软件-接口装置.doc
- 哈尔滨工业大学《系统建模与仿真》第9章 VR技术简介.doc
- 哈尔滨工业大学《系统建模与仿真》第10章 VV&A.doc
最近下载
- 川崎 Kawasaki 2022款 Z 400 中文用户手册 使用说明书2021年4月14日印刷.doc VIP
- 最新2025年秋开学第一课主题班会PPT课件(含抗战胜利80周年内容).ppt
- [北京]冷轧带钢工程薄板酸轧设备基础施工方案.doc VIP
- 脑卒中睡眠障碍.pptx VIP
- 全国教学能力比赛《声临其境·影视配音要旨》教案(一等奖).pdf
- (高清版)DB36∕T 713-2013 高速公路红砂岩路基施工技术规范 .pdf VIP
- 全国教学能力比赛《声临其境·影视配音要旨》教学实施报告(一等奖).pdf
- 2025年人教版小升初英语试题及参考答案.docx VIP
- 2024-2025学年小学数学三年级上册(2024)人教版(2024)教学设计合集.docx
- 马复:新版教材特色与创新 (1).pdf VIP
文档评论(0)