2017-2018学期数据挖掘作业.pdfVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2017 ‐2018学期数据分析与挖掘课程试题 1. 请简要介绍数据挖掘技术的产生背景。 (5 ’) 答:随着通信、计算机和网络技术的快速发展,数据正以空前的速度产生和被收集。在各 行各业许多公司已经开始认识到客户对业务非常重要,客户信息是他们的宝贵财富。大量信息 在给人们带来方便的同时也带来了一大堆问题 :信息冗余、信息真假难以辨识、信息安全难以 保证、信息形式不一,难以统一处理等,人们淹没在数据中而难以快速制定合适的决策。在强 大的商业需求驱动下,商家开始注意到有效的解决大容量数据的利用问题具有巨大商机,学者 们开始思考如何从大容量数据集中获取有用信息和知识。面对这一挑战,数据挖掘技术应运而 生,并显示出强大的生命力。利用数据挖掘工具进行数据分析可以发现重要的数据模式,这对 商务策略、知识库、科学有重大贡献。 2. 请介绍数据挖掘包括哪些任务,并简要描述具体任务的工作内容。 (5 ’) 答:数据挖掘任务可以分为预测性和描述性任务。预测性任务如回归、分类、离群点检测, 描述性任务如聚类分析、关联分析、序列模式挖掘。 (1) 聚类 (Clustering) 分析:“物以类聚,人以群分”。聚类分析技术试图找出数据集中的共性和 差异,并将具有共性的对象聚合在相应的类中。聚类可以帮助决定哪些组合更有意义,广 泛应用于客户细分、定向营销、信息检索等等。 (2) 分类 (Classification) 分析:通过分析示例数据库中的数据为每个类别做出准确的描述 或建 立分析模型或挖掘出分类规则,然后用此分类规则对其它数据库中的记录进行分类。分类 分析广泛应用于用户行为分析、风险分析、生物科学等。 (3) 关联 (Association) 分析:关联分析,发现特征之间的相互依赖关系,通常是从给定的数据 集中发现频繁出现的模式知识 (又称为关联规则 )。关联分析广泛用于市场营销、事务分析 等领域。 (4) 离群点 (Outlier) 检测:离群点检测就是发现与众不同的数据。可应用于商业欺诈行为的自 动检测,网络入侵检测,金融欺诈检测,反洗钱,犯罪嫌疑人调查,海关、税务稽查等。 (5) 回归 (Regression ) 分析:回归分析是确定两种或两种以上变数间相互依赖的定量关系的一 种分析方法。其可应用于风险分析、作文自动评分等领域。 (6) 序列模式 (Sequential Pattern) 挖掘:序列模式挖掘是指分析数据间的前后序列关系,包括 相似模式发现、周期模式发现等。其应用领域包括客户购买行为模式预测、 Web 访问模式 预测、疾病诊断、网络入侵检测等 3. 请简要介绍 C4.5 决策树算法。 (5 ’) 答: C4.5 是一系列用在机器学习和数据挖掘分类问题中的算法。它的目标是监督学习, 给定一个数据集 ,其中的每一个元组都能用一组属性值来描述 ,每一个元组属于一个互斥的类别 中的某一类。 C4.5 的目标是通过学习 ,找到一个从属性值到类别的映射关系 ,并且这个映射能用 于对新的类别未知的实体进行分类。 C4.5 决策树的生长算法描述如下: (a )如果训练集全部属于同一个类别,那么创建一个叶节点; (b )否则计算训练集中每个属性的信息增益率,选择增益率最大的属性作为决策属性, 并以该决策属性创建结点; (c )对上一步中决策属性结点的每个取值添加一个分支; (d )对每个分支的训练集,转至( a)。 C4.5 决策树的剪枝处理算法描述如下: (a )计算待剪子枝中叶结点的加权估计误差; (b )如果待剪子枝是一个叶结点,则结束; (c )否则,计算其子树误差和所有的分支误差; (d )如果叶结点误差小于子树误差和最大的分支误差,则剪枝,设置待剪子枝的根节点 为叶结点; (e )如果最大的分支误差小于子树误差,则剪枝,以误差最大的分支替换待剪子树; (f )否则,不剪枝。 4. 请简要介绍 K ‐Means算

文档评论(0)

拉拉链 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档