现代统计方法及案例分析听后感.docVIP

下载本文档

39
0
约3.84千字
约 4页
2017-09-24 发布于河南
举报
版权申诉

现代统计方法及案例分析听后感.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

现代统计方法及案例分析听后感.doc

数据挖掘方法讲座听后笔记一．数据挖掘的定义数据挖掘的定义非常模糊，对它的定义取决于定义者的观点和背景。如下是一些DM文献中的定义：数据挖掘是一个确定数据中有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。 --Fayyad。数据挖掘是一个从大型数据库中提取以前未知的，可理解的，可执行的信息并用它来进行关键的商业决策的过程。--Zekulin。数据挖掘是用在知识发现过程，来辩识存在于数据中的未知关系和模式的一些方法。--Ferruzza 数据挖掘是发现数据中有益模式的过程。--Jonn 数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程。 --Parsaye 数据挖掘是。。。。决策树。神经网络。规则推断。最近邻方法。遗传算法—Mehta 这些表达方式虽然不同，但从各自的角度描述出了对数据挖掘的理解。由此也可以发现，数据挖掘的含义是广泛的，每个人有每个人不同的体会，每个人有每个人的见解。但这些体会、见解是有许多共通之处的，从而可以归纳出数据挖掘的技术定义以及商业定义： 1.数据挖掘的技术定义从技术角度，数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学科。由于每个人的思维方式不同，这个定义可以被解读为以下几个层次： ①数据源必须是真实的、大量的、含噪声的； ②发现的是用户感兴趣的知识； ③发现的知识要可接受、可理解、可运用； ④这些知识是相对的，是有特定前提和约束条件的，在特定领域中具有实际应用价值。 2.数据挖掘的商业定义从商业应用角度看，数据挖掘是一种新的商业信息处理技术。也可以描述为：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，且进一步将其模型化的数据处理方法。数据挖掘在商业信息处理中，可以被应用到金融、医疗保健、市场业、零售业、制造业、司法、工程和科学、保险业等诸多领域，大致做法是：对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。简而言之，数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史，只不过在过去数据收集和分析的目的是用于科学研究，另外，由于当时计算能力的限制，对大数据量进行分析的复杂数据分析方法受到很大限制。现在，由于各行业业务自动化的实现，商业领域产生了大量的业务数据，这些数据不再是为了分析的目的而收集的，而是由于纯机会的商业运作而产生。分析这些数据也不再是单纯为了研究的需要，更主要是为商业决策提供真正有价值的信息，进而获得利润。但所有企业面临的一个共同问题是：企业数据量非常大，而其中真正有价值的信息却很少，因此从大量的数据中经过深层分析，获得有利于商业运作、提高竞争力的信息，就像从矿石中淘金一样，数据挖掘也因此而得名。因此，数据挖掘可以描述为：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。二、数据挖掘与知识发现知识发现过程可以粗略的理解为三部曲： ①数据准备(data preparation) ②数据挖掘(data mining) ③结果的解释评估(interpretation and evaluation) 1.数据准备数据准备可分为三个子步骤： ⑴数据选择目的是确定发现任务的操作对象，及目标数据。它是根据用户的需求从原始数据库中抽取的一组数据。 ⑵数据预处理一般包括消除噪声、推导计算机缺值数据、消除重复记录、完成数据类型转换等。 ⅰ噪声数据的处理噪声(noise)是一个被测变量中的随机误差或偏差。1）数据的平整一个数值型的特征y可能包括许多不同的值，这些数据之间的小小差异也许并不重要，但是却有可能影响到挖掘方法的性能甚至最终结果。实际上我们也可以把这些数据之间的差异看成是同一数值的随机变差，因此有时对这些数据进行平整处理还是很重要的。 2）Bin方法。 3）聚类方法通过聚类分析可以检测到异常数据，也就是孤立点。聚类将相似或相邻近的数据聚合到一起形成了各个聚类集合。直观地看，落在聚类集合之外的值就被认为是孤立点，孤立点之值作为噪声处理，将其删除，试用“聚类”中心值代替。 4）回归分析法可以通过回归关系，根据大量统计数据，找出变量之间在数量变化方面的统计规律，从而消除变量之间的随机关系，以达到拟合函数对数据平滑的目的。例如可以借助线性回归(linear regression)，拟合一个变量与其他多个变量之间的关系，这样就可以用这一关