数据挖掘导论中文答案1.2.3.4.6.8.10章.pdfVIP

数据挖掘导论中文答案1.2.3.4.6.8.10章.pdf

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
习题一: 1。讨论是否每个以下活动是一个数据挖掘的任务。 (a)将公司的客户根据他们的性别。 不。这是一个简单的数据库查询。 (b)将公司的客户根据他们的盈利能力。 不。这是一个会计计算,紧随其后的是应用程序一个阈值。然而,预测的盈利能力客户将数据 挖掘。 (c)计算一个公司的总销售额。 不。再次,这是简单的会计。 (d)排序一个学生数据库基于学生身份证号码。 不。再一次,这是一个简单的数据库查询。 (e)预测结果掷双骰子(公平)。 不。因为模具是公平的,这是一个概率计算。如果死是不公平的,我们需要估计的概率每个结 果的数据,那么这是更像的问题认为数据挖掘。然而,在这种特定的情况下,解决方案这个问题 是由数学家很长时间前,因此,我们不会认为它是数据挖掘。 (f)预测未来股价的公司使用历史记录。 是的。我们将尝试创建一个模型,该模型可以预测连续价值的股票价格。这是一个的例子数 据挖掘领域称为预测模型。我们可以使用回归建模,尽管在许多领域的研究者开发了各种各 样的技术来预测时间吗系列。 (g)监测病人的心率异常。 是的。我们可以建立一个模型,心脏的正常行为率和不同寻常的心行为发生时发出警报。这 将涉及到数据挖掘的区域称为异常检测。这也可以被认为是一个分类问题如果我们有正常和 异常的心行为的例子。 (h)监测地震活动的地震波。是的。在本例中,我们将构建一个不同类型的模型地震波与地震 相关的活动和行为提高警报当其中一个不同类型的地震活动被观察到。这是数据挖掘领域的 一个例子被称为分类。 (i)提取声波的频率。 不。这是信号处理。 2.假设你被录用作为一个互联网数据挖掘咨询顾问搜索引擎公司。描述数据挖, 掘可以帮助公司通过给具体的例子如何技术如聚类分类、关联规则挖掘和异常, , 检测可以应用。 答:以下是可能的答案的例子。•聚类可以把结果与类似的主题用户在一个更简洁的形式, 例如通过报告集群中的十大最频繁的词语。•分类可以将结果分配给预定义的类别等“体育”、 “政治”,等等。•顺序关联分析可以发现,某些查询遵循一定的概率高的其他查询,允许更高 效的缓存。•异常检测技术可以发现不寻常的模式用户流量。,这一个话题突然变得太多更受 欢迎。可以调整广告策略这种发展的优势。 3.为每个数据集后解释是否数据隐私是一个重要的问题。, (a)调查1900年至1950年收集的数据。 没有( b)的IP地址和访问时间的网络用户访问你的网站。 是的 (c)从地球轨道卫星图像。 没有 (d)的人的姓名和住址,电话本。 没有 (e)的姓名和电子邮件地址从网上收集。 没有 习题二 1 , , ,2 3 。在最初的第二章的例子统计学家说 “是的 和字段 基本上是相同的。“你 能告诉三行示例数据这是为什么她说吗? 字段2场3≈7显示的值。虽然它可能是危险的得出结论从这样一个小样本,似乎两个字段包 含本质上相同的信息。 2。分类下面的属性作为二进制、离散或连续的。也把它们归入定性 名义或序数( ) 或定量 间隔或率 。某些情况下可能有多个解释简要说明你的推理如果你觉得( ) , , 可能会有一些歧义。例如年龄。: 答:离散、定量比率 (a)时间点或点。二进制、定性顺序 (b)亮度测光表来衡量。连续、定量、比 (c)亮度以人们的判断。离散的、定性的、序数 (d)的角度来衡量在0度◦◦和360。连续、定量、比 (e)铜、银和在奥运会上获得金牌。离散,定性,顺序 (f)海拔高度。连续、定量、间隔/比率(视情况而定海平面是否被认为是一个任意的起源) (g)在医院的患者数量。离散、量化、比例 (h)ISBN编号为书。(在网上查找格式。)离散,定性,名义(ISBN编号有订单信息,虽然) (i)的能力,通过光的以下值:不透明,半透明的,透明的。 离散的、定性的,顺序 (j)军衔。离散的、定性的,顺序 (k)距离校园的中心。连续、定量、间隔/比(取决于) (i)用每立方厘米表示物质的密度。离散量化,比 (m)外套核对数目。(当你参加一个活动,你可以经常给反过来,你的外套的人给你一个号码,你 可以使用你的外套当你离开)。离散的、定性的,名义上的 3。

文档评论(0)

smashing + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档