2017-2018学期数据挖掘作业.pdfVIP

下载本文档

5
0
约9.82千字
约 9页
2020-09-22 发布于广东
举报
版权申诉

2017-2018学期数据挖掘作业.pdf

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2017 ‐2018学期数据分析与挖掘课程试题 1. 请简要介绍数据挖掘技术的产生背景。（5 ’）答：随着通信、计算机和网络技术的快速发展，数据正以空前的速度产生和被收集。在各行各业许多公司已经开始认识到客户对业务非常重要，客户信息是他们的宝贵财富。大量信息在给人们带来方便的同时也带来了一大堆问题 :信息冗余、信息真假难以辨识、信息安全难以保证、信息形式不一，难以统一处理等，人们淹没在数据中而难以快速制定合适的决策。在强大的商业需求驱动下，商家开始注意到有效的解决大容量数据的利用问题具有巨大商机，学者们开始思考如何从大容量数据集中获取有用信息和知识。面对这一挑战，数据挖掘技术应运而生，并显示出强大的生命力。利用数据挖掘工具进行数据分析可以发现重要的数据模式，这对商务策略、知识库、科学有重大贡献。 2. 请介绍数据挖掘包括哪些任务，并简要描述具体任务的工作内容。（5 ’）答：数据挖掘任务可以分为预测性和描述性任务。预测性任务如回归、分类、离群点检测，描述性任务如聚类分析、关联分析、序列模式挖掘。 (1) 聚类 (Clustering) 分析：“物以类聚，人以群分”。聚类分析技术试图找出数据集中的共性和差异，并将具有共性的对象聚合在相应的类中。聚类可以帮助决定哪些组合更有意义，广泛应用于客户细分、定向营销、信息检索等等。 (2) 分类 (Classification) 分析：通过分析示例数据库中的数据为每个类别做出准确的描述或建立分析模型或挖掘出分类规则，然后用此分类规则对其它数据库中的记录进行分类。分类分析广泛应用于用户行为分析、风险分析、生物科学等。 (3) 关联 (Association) 分析：关联分析，发现特征之间的相互依赖关系，通常是从给定的数据集中发现频繁出现的模式知识 (又称为关联规则 )。关联分析广泛用于市场营销、事务分析等领域。 (4) 离群点 (Outlier) 检测：离群点检测就是发现与众不同的数据。可应用于商业欺诈行为的自动检测，网络入侵检测，金融欺诈检测，反洗钱，犯罪嫌疑人调查，海关、税务稽查等。 (5) 回归 (Regression ) 分析：回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种分析方法。其可应用于风险分析、作文自动评分等领域。 (6) 序列模式 (Sequential Pattern) 挖掘：序列模式挖掘是指分析数据间的前后序列关系，包括相似模式发现、周期模式发现等。其应用领域包括客户购买行为模式预测、 Web 访问模式预测、疾病诊断、网络入侵检测等 3. 请简要介绍 C4.5 决策树算法。（5 ’）答： C4.5 是一系列用在机器学习和数据挖掘分类问题中的算法。它的目标是监督学习，给定一个数据集 ,其中的每一个元组都能用一组属性值来描述 ,每一个元组属于一个互斥的类别中的某一类。 C4.5 的目标是通过学习 ,找到一个从属性值到类别的映射关系 ,并且这个映射能用于对新的类别未知的实体进行分类。 C4.5 决策树的生长算法描述如下：（a ）如果训练集全部属于同一个类别，那么创建一个叶节点；（b ）否则计算训练集中每个属性的信息增益率，选择增益率最大的属性作为决策属性，并以该决策属性创建结点；（c ）对上一步中决策属性结点的每个取值添加一个分支；（d ）对每个分支的训练集，转至（ a）。 C4.5 决策树的剪枝处理算法描述如下：（a ）计算待剪子枝中叶结点的加权估计误差；（b ）如果待剪子枝是一个叶结点，则结束；（c ）否则，计算其子树误差和所有的分支误差；（d ）如果叶结点误差小于子树误差和最大的分支误差，则剪枝，设置待剪子枝的根节点为叶结点；（e ）如果最大的分支误差小于子树误差，则剪枝，以误差最大的分支替换待剪子树；（f ）否则，不剪枝。 4. 请简要介绍 K ‐Means算