- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
浙江大学远程教育学院
《数据挖掘》课程作业
姓名:李东学 号:714030242005年级:14年秋信息管理学习中心:合肥学习中心—————————————————————————————
引言
一、填空题
(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理 、 数据集成 、 数据选择 、 数据变换 、 数据挖掘 、模式评估 和 知识表示
(2) 数据挖掘的性能问题主要包括: 算法的效率 、 可扩展性 和 并行处理
(3) 当前的数据挖掘研究中,最主要的三个研究方向是: 统计学 、 数据路技术 和
机器学习
(4) 孤立点是指: 一些与数据的一般行为或模型不一致的孤立数据
二、简答题
(1)什么是数据挖掘?
答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的,有用的,隐含的,先前未知的和可能有用的模式或知识。
(2)一个典型的数据挖掘系统应该包括哪些组成部分?
答:1,数据库、数据仓库或其他信息库;2,数据库或数据仓库服务器;3,知识库;4,数据挖掘引擎;5,模式评估模块;6.图形用户界面。
(3)Web挖掘包括哪些步骤?
答:数据清理(可能有占全过程的60%的工作量);将数据存入数据仓库;建立数据立方体;选择用来进行数据挖掘的数据;数据挖掘(选择适当的算法来找到感兴趣的模式);展现挖掘结果;将模式或者知识应用或者存入知识库。
(4)请列举数据挖掘应用常见的数据源。
(或者说,我们都在什么样的数据上进行数据挖掘)
答:常见的数据源包括关系数据路、数据仓库、事务数据库和高举数据库系统和信息库。其中国际数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象关系数据库、异种数据库和遗产数据库、文本数据库和万维网等。
第二章 认识数据
一、填空题
(1)两个文档向量d1和d2的值为:d1 = (1, 0, 3, 0, 2),d2 = (3, 2, 0, 0, 1),则它们的余弦相似度为: 5/13
(2)数据离散度的常用度量包括 极差 、 分位数 、 四分位数 、 百分位数
四分位数极差 和 标准差
(3)一种常用的确定离群点的简单方法是: 出落在至少高于第三个四分位数或低于第一个四分位数1.5*IQR处的值 。
二、单选题
(1)对于下图所示的正倾斜数据,中位数、平均值、众数三者之间的关系是:
A、中位数=平均值=众数; B中位数平均值众数;
C、平均值中位数众数; D;众数中位数平均值
选C
(2)下面的散点图显示哪种属性相关性?
A不相关; B正相关; C负相关; D先正相关然后负相关;
选C
三、简答题
(1)什么是基于像素的可视化技术?它有什么缺点?
答:对于一个M维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点;难以呈现对维空间的数据分布,不显示数据子空间是否存在稠密区域。
(2)对称的和不对称的二元属性有什么区别?
答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而对不对称的二元属性中,变量的两个状态的重要性是不同的,对称的二元属性可以使用简单匹配系数苹果它们的相异度;不对称的二元属性使用jaccard系数评估它们的相异度。
第三章 数据预处理
填空题
(1)进行数据预处理时所使用的主要方法包括:数据清理 、 数据集成 、
数据变换 和 数据规约
(2)数据概化是指: 沿概念分层向上概化
(3)数据压缩可分为: 有损压缩 和 无损压缩 两种类型。
(4)进行数值归约时,三种常用的有参方法是: 线性回归方法 、 多元回归
和 对数线性模型
二、简答题
(1)常用的数值属性概念分层的方法有哪些?
答:分箱、直方图分析,聚类分析,基于熵的离散化和通过自然划分分段。
(2)请描述主成份分析(PCA)算法步骤
答:1.规范化输入的数据:所有属性落在相同的区间内;2,计算k个标准正交向量,即主成分;3,每个数据数据的向量都是这k主成分向量的线性组合;4,主成分按照重要程度降序排序。
(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处
您可能关注的文档
- 施工组织LJ-5解说.doc
- 《模具机械制图》中篇1_制图与识图基础探究.ppt
- 《目标点燃希望-理想拥抱成功》主题班会(47张)探究.ppt
- 施工组织设计(第三水厂)解说.doc
- 《能源资源的开发——以我国山西省为例》4探究.ppt
- 《哦,十分钟》探究.ppt
- 《爬天都峰》.探究.ppt
- 施工组织设计标解说.doc
- 《爬天都峰》课堂用报告探究.ppt
- 施工组织设计中施工机械设备、劳动力计划表解说.doc
- 小学科学:ESP8266智能插座电路原理与动手实践研究教学研究课题报告.docx
- 《金融开放浪潮下我国多层次监管体系构建与创新研究》教学研究课题报告.docx
- 区域教育质量监测中人工智能应用的数据质量分析与优化策略教学研究课题报告.docx
- 《金融科技监管中的数据治理与合规性要求》教学研究课题报告.docx
- 《3D打印技术在航空航天领域中的多材料制造与复合材料应用》教学研究课题报告.docx
- 《绿色金融发展中的政府职能与市场机制研究》教学研究课题报告.docx
- 《植物工厂多层立体栽培光环境调控技术对植物生长发育节律的调控机制探讨》教学研究课题报告.docx
- 销售团队年度业绩总结.docx
- 银行风险管理与金融危机防范.docx
- 银行网络攻击预警与快速响应机制.docx
最近下载
- 2022医院医疗机构开展违反中央八项规定精神突出问题专项治理的实施方案(详细版).pdf VIP
- 半导体工艺炉的炉门及半导体工艺炉.pdf VIP
- 测绘行业安全生产汇报.pptx VIP
- 半导体后端工艺半导体封装的作用、工艺和演变.docx VIP
- 半导体工艺原理--半导体工艺原理(贵州大学).ppt VIP
- 麦肯锡中国银行业CEO季刊(2020年秋)-麦肯锡-224页正式版.pdf VIP
- 走进潮汕文化ppt课件(优质ppt).pptx
- DG_TJ 08-2439-2024 建筑工程“多测合一”技术标准(正式版).pdf VIP
- Camera客观标准测试.pdf VIP
- 2024年湖北省恩施州恩施市六角亭街道招聘社区工作者真题参考答案详解.docx VIP
文档评论(0)