第1章 数据挖掘概述_2.0.docVIP

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一部分 正确认识数据挖掘技术 数据挖掘概述 案例分析1: 假如一个医院将诊断过的所有病人的情况记录在一个数据库中,下表是数据样本的一个小部分,分析人员希望归纳出判断病人是否患了链球菌种感染性炎症的诊断规则,于是他们运用一些我们即将介绍的方法进行了分析。 表1 疾病诊断假想训练数据 患者 嗓子疼 发烧 淋巴肿 充血 头疼 诊断结果 1 是 是 是 是 是 链球菌种感染性咽喉 2 否 否 否 是 是 敏感性 3 是 是 否 是 否 感冒 4 是 否 是 否 否 链球菌种感染性咽喉 5 否 是 否 是 否 感冒 6 否 否 否 是 否 敏感性 7 否 否 是 否 否 链球菌种感染性咽喉 8 是 否 否 是 是 敏感性 9 否 是 否 是 是 感冒 10 是 是 否 是 是 感冒 经过一段时间,分析人员从以上数据中归结出以下规则: 1.如果病人淋巴肿,则可以诊断为链球菌感染性咽炎症; 2.如果病人没有淋巴肿的症状,但是发烧,则可以诊断为感冒; 3.如果病人没有淋巴肿的症状,也不发烧,则可以诊断为敏感症。 案例分析2:一些会计学者对数据挖掘的误解 美国鲍勃·瑞安等人合著的《财务和会计研究方法与方法论》中,作者总结了会计学研究的传统领域,以及研究内容的发展和研究范式的演变,从中可以发现会计研究的基本目标。 1.早期的规范会计理论:归纳学派和演绎学派. 1929年的世纪大萧条使得对会计理论的研究受到重视,对会计准则的研究成果纷纷涌现。 2.先验研究方法 反对会计进行武断地理论解释,呼吁采用科学的严谨的方法对会计学科构造科学的大厦,建立符合经济学原理又符合会计规则的收益计量原理模型。 运用先验的理论假说对现存的理论进行演绎推导。 3.经验研究方法 20世纪60年代后期,会计准则的研究成为美国英国的主要问题,但是由于缺少前后如一的理论框架,并且不同利益集团对会计的立场不同,导致美国会计准则公布的31份意见公告书和4份报告得不到承认。 由此认为,没有理想的收益计量模型,只是不同决策背景下的使用者要求使用不同的收益模型,会计学这应该建立符合使用者的收益决定模型,并且有助于做决策。 4.实证会计研究方法 对于“实证会计”的批评从一产生就存在了,在20世记50年代实证研究的开始阶段,就有学者对此产生怀疑,例如Stephen A.Ross等人在《公司理财》第6版中认为: 对实证会计方法感到怀疑的人批评这种所谓的“数据挖掘”。研究人员在研究过程中选择那些特别的参数常常是因为它们已经显示出与收益有关。例如,对于美国亚利桑那州的SAT成绩与其它变量之间的关系,但是你可能发现成绩与长颈鹿的生长有密切的关系,而数据也能够显示出之中关系。可是,事实上果真如此吗?由于,相关性的偶然性是显示于其它更多的地方,所以单纯的分析并不能够说明内在的实证规律。 会计人员更多地习惯了“假设---检验”模式的数据分析思路,许多人不能正确地理解数据挖掘。由于对数据挖掘理解的错误或者不准确造成对数据挖掘的误解,原因可以归结为如下几点原因: (1)所处的年代没有为他们提供理解数据挖掘所必需的技术环境; (2)他们自身的学术背景使得他们自己不能透彻理解数据挖掘技术; (3)他们对知识的发现过程持有不同的观念,他们反对“透过现象来归纳知识”,而是喜欢从一个推论到另外一个推论; 数据挖掘的定义 数据挖掘(Data Mining)的定义多种多样,但是基本上可以将其看作利用一种或者多种计算机学习技术,自动分析数据库中的数据并提取知识的处理过程,或者说数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来作出决策或预测。 数据库中的知识发现,以下简称为KDD(Knowledge Discovery in Database),是一个通常可以和DM互换的术语。 于是,上述定义可以知道,数据挖掘(DM)具有以下几个特征: 1.数据挖掘处理的是“海量数据”,事先对数据中的规律并不晓得,但是可能有一个基本的预期; 2.强调计算机自动处理; 3.揭示事物本质的面貌,需要领域知识和数据挖掘知识的结合; 同时,可见知道数据挖掘的本质如下: 1.数据挖掘并非漫无目的,只是在挖掘之前并不知道最终的结果 挖掘,野地里挖宝。应该是有针对性的挖 掘,但是确实不知道最终的结果。 案例分析3: 1984年,一台推土机在狮子山村西南取土的时候偶然铲出了一批汉代兵马俑,根据经验分析这是汉墓的一部分,象征着卫戍王陵的部队。但是,考古队耗费了大量的资金却没有能够发现最终的墓地。 后来,在6年之后的一次 闲谈中,考古家王垲在村里和人交谈的时候,了解到村里一户人家的地窖特别大,超过了一般人的想象,于是感到有点奇怪。于是,经过挖

文档评论(0)

tkhyxy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档