数据挖掘习题(中文版)答案.docx

  1. 1、本文档共158页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
介绍数据挖掘教师的解决方案手册陈甘美华Pang-NingMichael教授Vipin Kumar版权所有2006年Pearson Addison-Wesley。 保留所有权利。三1介绍讨论是否执行下列每项活动的是一种数据miningtask。把客户的公司根据他们的性别。否。 这是一种简单的数据库查询。把客户的公司根据他们的盈利能力。第 这是一种会计计算、应用程序的门限值。 然而,预测盈利的一种新的客户将数据挖掘。计算的总销售公司。否。 这又是简单的会计工作。排序的学生数据库基于学生的身份证号码。第 再次,这是一种简单的数据库查询。预测结果丢(公平)的一对骰子。否。 既然死是公正的,这是一种概率的计算。 如果死是不公平的,我们需要估计的概率对每个结果的数据,那么这更象研究的问题数据挖掘。 然而,在这种特定的情况下,要解决这一问题是由数学家很长一段时间前,因此,我们不认为它是数据挖掘。预测未来股价的公司使用。historicalrecords是的。 我们将试图创建的模型,可以预测未来的持续价值的股票价格。 这是一例的?2第1章介绍领域的数据挖掘预测模型。 我们可以使用回归分析。这一建模,尽管研究人员在许多领域已经开发了多种技术来预测时间序列。监控在患者心率异常。是的。 我们将构建一种型号的正常行为的心率和提高报警当寻常心的行为发生。 这将涉及领域的数据挖掘被称为异常检测。 这也可以看作是一种分类的问题如果我们的例子两个正常和不正常的心的行为。监测地震波地震活动。是的。 在这种情况下,我们将构建模型的不同类型的地震波的行为与地震活动和提高报警时,这些不同类型的地震活动。 这一例子说明,在区域的数据挖掘已知的分级。解压的频率的声音波形。否。 这是信号处理。假设您是作为一种数据挖掘咨询顾问的互联网搜索引擎公司。 介绍如何将数据挖掘可以帮助该公司的具体的例子,说明技术,如群集、分类、关联规则挖掘和异常检测可以被应用。下面的示例将可能的答案。群集可以组的结果与类似的主题和现在的他们的用户以更精简的形式,例如,报告了10个最常见的词集。分类可以将结果以预定义的类别如“体育”、“政治”等。连续的关联分析可以检测到这种特定的查询按照某些其他的查询使用的概率很高,从而更有效的高速缓存。异常检测技术可以发现不寻常的模式的用户流量,例如,一主题已突然变得更?受欢迎。 广告策略可以调整,以利用这种事态发展。3对于下面的每个数据集说明数据是否privacyis一项重要的问题。普查数据的收集从1900年—1950年。 无IP地址和访问次数的Web用户访问你的网站。单击“是”图像从地球轨道运行的卫星。 无名字和地址的人从电话通讯簿。 无姓名和电子邮件地址收集网。 无2数据在最初的例子第2章、统计师说:“是的,字段2和3基本上是相同的。您能告诉我从三条线的样本数据所显示的为什么她说吗?7对所显示的值。 虽然它可以是危险的结论从这样的小样本,两个字似乎包含基本相同的信息。分类以下属性为Binary、离散或连续的。 还将其归为质量(名义或序数)或数量(时间间隔或比例)。 某些情况下可能会有多个解释,简要说明你的理由如果您认为可能有某些含糊不清之处。例如:?年龄。?答:?独立的、定量的、比率时间在上午或下午。 Binary、定性、序号亮度计测量光度计。持续不断的、定量的、比率亮度测量人的判决。 离散的、定性的、序号角度以度为单位0?和360?。 持续不断的、定量的、比率铜牌、银牌和金牌颁发的奖项在奥运会上。 离散的、定性的、序号高度海平面以上。 持续不断的、定量的、间隔/比例(取决于海一级被认为是一种任意的来源)。多的病人在医院里。 离散的、定量的、比率ISBN号的书籍。 (查找格式在Web上的)离散的、定性的、名义上的(ISBN号码没有订单信息,虽然)第2章数据可以通过指示灯的以下值:不透明、半透明、透明。 离散的、定性的、序号军衔。 离散的、定性的、序号中心的距离园区。 持续不断的、定量的、间隔/比例(取决于)密度的物质以克每立方厘米。 离散的、定量的、比率检查涂层的编号。 (当你参加活动,你可以常常giveyour衣的人将为您提供的号码,您可以使用要求您的外套当你离开。)离散的、定性的、名义您接触的营销总监,当地一家公司,他认为他已设计出一种简易的方法来衡量客户的满意度。 他解释了他的计划:“它是如此的简单,我不相信没有人想过。 我只是保持跟踪客户投诉的每个产品。 我读的是数据挖掘的图书,计数率的属性,因此,我国的产品满意度必须是比特性。 但当我的产品都是基于我的新的客户满意度测量和显示出他们对我的老板,他告诉我,我忽略了很明显的,我的措施是毫无价值的。 我认为他是疯了,因为我们最畅销的产品,最满意的,因为它的投诉最多。 你可以帮我把他直吗?”谁是谁的营销总监或

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档