该数据挖掘文档是高校必做的题目的精华版本,附准确,详细的答案数据挖掘作业+答案.docVIP

下载本文档

90
0
约2.99万字
约 42页
2017-08-21 发布于云南
举报
版权申诉

该数据挖掘文档是高校必做的题目的精华版本,附准确,详细的答案数据挖掘作业+答案.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

姓名：王燕学号：109070018 数据挖掘思考和练习题第一章 1．1 什么是数据挖掘？什么是知识发现？简述KDD的主要过程。答：（1）数据挖掘（Data Mining）是指从大量结构化和非结构化的数据中提取有用的信息和知识的过程，它是知识发现的有效手段。（2）知识发现是从大量数据中提取有效的、新颖的、潜在的有用的，以及最终可理解的模式的非平凡过程。（3）KDD的过程主要包括： KDD的过程主要由数据整理、数据挖掘、结果的解释评论三部分组成。可以由模型表示出来： 1．确定挖掘目标：了解应用领域及相关的经验知识，从用户的观点出发确定数据挖掘的目标。这一步是实现数据挖掘的重要因素，相当于系统分析，需要系统分析员和用户的共同参与。 2．建立目标数据集：从现有的数据中，确定哪些数据是与本次数据分析任务相关的。根据挖掘目标，从原始数据中选择相关数据集，并将不同数据源中的数据集中起来。在这一阶段需要解决数据挖掘平台、操作系统和数据源数据类型等不同所产生的数据格式差异。 3．数据清洗和预处理：这一阶段即是将数据转变成“干净”的数据。目标数据集中不可避免地存在着不完整、不一致、不精确和冗余地数据。数据抽取之后必须利用专业领域地知识对“脏数据”进行清洗。然后再对它们实施相应的方法，神经网络方法和模糊匹配技术分析多数据源之间联系，然后再对它们实施相应的处理。 4．数据降维和转换：在对数据库和数据子集进行预处理之后，考虑了数据的不变表示或发现了数据的不变的表示情况下，减少变量的实际数目，设法将数据转换到一个更易找到了解的空间上。 5．选择挖掘算法使用合适的数据挖掘算法完成数据分析。确定实现挖掘目标的数据挖掘功能，这些功能方法包括概念描述、分类、聚类、关联规则。其次选择合适的模式搜索算法，包括模型和参数的确定。 6．模式评价和解释根据最终用户的决策目的对数据挖掘发现的模式进行评价，将有用的模式或描述有用模式的数据以可视化技术和知识表示技术展示给用户，让用户能够对模型结果作出解释，评价模式的有效性。结果不能令决策者满意，需要重复以上数据挖掘过程。 1．2 简述数据挖掘涉及的数据类型以及数据的聚合形式。答：数据挖掘中涉及的数据类型有：非数值数据，离散数值数据和连续数值数据，结构化数据和非结构化数据，超文本数据、多媒体数据、空间数据。在聚类处理的数据类型中包括区间标度变量、二元变量、标称型变量等等。时间和日期型数据可以经过适当的函数变换成数值数据后再进行处理。（1）非数值数据向数值数据的转化：神经网络方法只能处理数值数据，因此需要将非数值数据转为数值数据。方法是建立非数值型变量的不同状态值和离散数值之间的对照表。（2）离散数值数据的转化：当变量取一组离散值时，必须对它作某种转化，使得每个离散致值都能产生唯一的一组神经网络输入值。数据的聚合形式：构造数据立方体。 1．3 简述数据挖掘的相关领域及主要的数据挖掘方法。答：（1）数据挖掘的相关学术应用领域包括：模糊数学方向，数据库，统计学，可视化计算，机器学习，神经网络，决策树，模式视频，支持向量，基于规则的系统，高性能计算，模糊集，聚簇分类等方向。（2）数据挖掘的方法：决策树：决策树方法是利用信息论中的互信息（信息增益）寻找数据库中具有最大信息量的属性字段，建立决策树的一个结点，再根据改属性字段的不同取之建立树的分支。神经网络：它是模拟人类的形象思维，在生物神经网络研究的基础上，根据生物神经元和神经网络的特点，通过简化、归纳、提炼总结出来的一类并行处理网络，利用其非线性映射的思想和并行处理的方法，用神经网络本身的结构来表示输入和输出的关联知识。粗糙集：它是研究不精确、不确定性知识的数学工具。它能在缺少先验知识的情况下，对数据进行分类处理。基于粗糙集的数据挖掘算法实际上就是对大量数据构成的信息系统进行约简，得到一种属性归约集的过程，最后抽取规则。遗传算法：一种基于生物自然选择与遗传机理的随机搜索算法。基本思想是基于进化论和遗传学说。算法从一组随机产生的初始解，称为种群，开始搜索。经过若干代之后，算法收敛，它很可能就是最优解。概率论与数理统计：它是目前数学中最重要、最活跃的学科之一。模糊集：基于模糊数学的一种处理方法。模糊集强调本身的含混性，研究的是属于同一类的不同对象对集合的隶属关系，重在隶属程度。关联分析：它分为两种：关联规则和时序分析。关联规则即在当前记录的各个特征间寻找内在的联系。时序分析即在历史数据中寻找具有时间上相关的记录间的规律性。 1．4 如果面对学校数据库，你人为数据挖掘的目标是什么？答：面对学校数据库，可以挖掘出老师的科研能力，学生的学习情况，教师的人事管理情况，后勤服务情况等等。例如： 1）通过对每年招收的新生的学习成绩的分类，可以挖掘出哪个省的