6 数据挖掘.docVIP

下载本文档

8
0
约 9页
2015-07-24 发布于河南
举报
版权申诉

6 数据挖掘.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘维基百科，自由的百科全书跳转到：导航、搜索数据挖掘（英语：Data mining），又译为数据采矿、数据挖掘。它是数据库知识发现（英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性（属于Association rule learning）的信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。目录 [隐藏] 1 定义 2 方法 3 例子 4 历史 5 数据捕捞 6 数据挖掘的过程 6.1 挖掘 6.2 结果验证 7 隐私的关注 8 算法 9 组合博奕数据挖掘 10 商业解决方案 11 参考文献 11.1 参考书 12 外部链接 13 参见编辑] 定义数据挖掘有以下这些不同的定义： “从数据中提取出隐含的过去未知的有价值的潜在信息”[1] “一门从大量数据或者数据库中提取有用信息的科学。”[2] 尽管通常数据挖掘应用于数据分析，但是像人工智能一样，它也是一个具有丰富含义的词汇，可用于不同的领域。它与KDD的关系是：KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程；而数据挖掘是KDD通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。事实上，在现今的文献中，这两个术语经常不加区分的使用。 [编辑] 方法数据挖掘的方法（Strategy）包括监督式学习(supervised learning)、非监督式学习(unsupervised learning)、关系分组（Affinity Grouping，作关系性的分析）与购物篮分析（Market Basket Analysis）、聚类（Clustering）与描述（Description）。监督式学习包括：分类（Classification）、估计（Estimation）、预测（Prediction）。 [编辑] 例子数据挖掘在零售行业中的应用：零售公司跟踪客户的购买情况，发现某个客户购买了大量的真丝衬衣，这时数据挖掘系统就在此客户和真丝衬衣之间创建关系。销售部们就会看到此信息，直接发送真丝衬衣的当前行情，以及所有关于真丝衬衫的资料发给该客户。这样零售商店通过数据挖掘系统就发现了以前未知的关于客户的新信息，并且扩大经营范围。 [编辑] 历史数据挖掘是因为海量有用数据快速增长的产物。使用计算机进行历史数据分析，1960年代数字方式采集数据已经实现。1980年代，关系数据库随着能够适应动态按需分析数据的结构化查询语言（Structured Query Language, SQL）发展起来。数据仓库开始用来存储大量的数据。因为面临处理数据库中大量数据的挑战，于是数据挖掘应运而生，对于这些问题，它的主要方法是数据统计分析和人工智能搜索技术。 [编辑] 数据捕捞通常作为与数据仓库和分析相关的技术，数据挖掘处于它们的中间。然而，有时还会出现十分可笑的应用，例如发掘出不存在但看起来振奋人心的模式（特别的因果关系），这些根本不相关的、甚至引人误入歧途的、或是毫无价值的关系，在统计学文献里通常被戏称为“数据捕捞”（Data dredging, data fishing, or data snooping）。数据挖掘意味着扫描可能存在任何关系的数据，然后筛选出符合的模式，（这也叫作“过度匹配模式”）。大量的数据集中总会有碰巧或特定的数据，有着“令人振奋的关系”。因此，一些结论看上去十分令人怀疑。尽管如此，一些探索性数据分析还是需要应用统计分析查找数据，所以好的统计方法和数据数据的界限并不是很清晰。更危险是出现根本不存在的关系性。投资分析家似乎最容易犯这种错误。在一本叫做《顾客的游艇在哪里？》的书中写道：“总是有相当数量的可怜人，忙于从上千次的赌轮盘的轮子上查找可能的重复模式。十分不幸的是，他们通常会找到。”[3] 多数的数据挖掘研究都关注于发现大量的数据集中，一个高度详细的模式。在《大忙人的数据挖掘》一书中，西弗吉尼亚大学和不列颠哥伦比亚大学研究者讨论了一个交替模式，用来发现一个数据集当中两个元素的最小区别，它的目标是发现一个更简单的模式来描述相关数据。[4] [编辑] 数据挖掘的过程数据预处理一般包括数据清理、数据集成、数据变换和数据规约四个处理过程 [编辑] 挖掘 [编辑] 结果验证 [编辑] 隐私的关注与数据挖掘有关的，还牵扯到隐私问题，例如：一个雇主可以通过访问医疗记录来筛选出那些有糖尿病或者严重心脏病的人，从而意图削减保险支出。然而，这种做法会导致伦理和法律问题。对于政府和商业数据的挖掘，可能会涉及到