- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(二)数据挖掘 数据挖掘(Data Mining),又译作数据开采,其前身是知识发现(KDD),属于计算机学习的范畴,也是数据库发展与人工智能技术相结合的产物。 作为目前国外的研究热点,也是数据库学者的研究热点。技术的思想早在计算机应用于商业之初就有,是长期研究和产品不断发展的结果。 提到数据挖掘的概念,就使人们会同时想到一个现在同样流行的概念——知识发现(KDD)。 人们在改造客观世界的实践中所获得的认识和经验的总和为知识。 1、数据挖掘与知识发现 目前对这二者的关系主要存在两种看法: 一种观点认为知识发现是从数据中发现有用知识的整个过程,数据挖掘是知识发现过程中的一个特定步骤,它用专门算法从数据中抽取模式。 另一种观点则认为知识发现是用一种简洁的方式从数据中抽取信息,这些信息是隐含的、未知的,并且是潜在、有用的。 数据挖掘则是通过处理大量已存在的数据,以期发现一些“意外的关系”。 数据挖掘主要包括统计分析、知识发现和其他技术,如,可视化系统、地理信息系统、分形分析等。 2、数据挖掘的概念 数据挖掘是一种从大型数据库或数据仓库中提取隐藏的预测性信息的新技术,它能挖掘出数据间潜在的模式,找出最有价值的信息,指导商业行为或辅助科学研究。 它由以下三个成熟技术支持: ·大规模数据采集 ·功能强大的多处理器计算机 ·数据挖掘算法 3、数据挖掘可实现的功能 (1)自动进行统计分析。 数据挖掘利用统计分析来检查异常的数据模式,然后通过统计模型和数学模型解释这些数据模式。 通常使用的模型有线形分析和非线形分析、连续回归分析和逻辑回归分析、单变量和多变量分析、以及时间序列分析。 对数据仓库中的数据进行统计分析可解决市场营销、电话销售、商业管理、医疗研究和产品授权等大量的商业问题。 (2)动预测趋势和行为 数据挖掘自动在数据仓库中寻找预测性信息。 以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。 一个典型的例子是市场预测问题。数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户。 其他可预测的问题包括预报破产以及认定对指定事件最可能作出反映的群体。 (3)自动发现以前未知的模式 数据挖掘工具搜索数据库并认定隐含着的模式。 一个模式发现的例子是通过对零售数据的分析,找出表面上互不相关却常被一起购买的商品。 另一个模式发现的问题是检测信用卡诈骗交易并识别出某些不规则数据的错误。 4、数据挖掘的主要方法和技术 数据挖掘之所以能够准确地告诉人们一些未知的事情或将要发生的事情,关键是通过建模。即在已知答案的环境中建立模型,把它应用于未知的环境。 其主要过程是计算机装入各种各样的情况和答案信息,然后数据挖掘运行这些数据,精炼出其中的共性,找出其中的模型。一旦建立了这种模型,就可用此模型找出相似情况下的答案。 5、用于建模的最常使用的方法有 ①神经网络方法 ②决策树方法 ③遗传学算法 ④最临近算法 ⑤公式发现方法 6、数据仓库和数据挖掘的结合—决策支持新技术 传统的决策支持系统由数据库、模型库、知识库、方法库以及人机交互等几个部件组成的。通过综合利用各种数据、信息、知识、特别是模型技术,辅助各级决策者解决半结构化决策问题。 将决策支持系统与专家系统结合,就形成了高级形式----智能决策支持系统。 随着技术的发展,现在又出现了新的决策支持技术----数据仓库与数据挖掘相结合用于辅助决策。 案例:Sears利用数据仓库和OLAP工具竞争 Sears公司正在完成一个项目,该项目使得公司将客户购买趋势信息与存货和销售数据结合起来。作为该项目的一个部分;Sears正在购买更多的EMC Symmetrk磁盘阵列、一种新的WorldMark Unix服务器以及NCR的Teradata数据库。附加的硬件和数据存储设备将使得Sears能够将其存货和销售数据仓库与客户数据仓库合并到一个服务器中,并提供140TB数据量的访问。Sears还要与EMC合作构造一个25TB的存储区域网络(SAN),从Unix和Windows NT服务器中链接附加数据,用于产品分类计划、人力资源和企业资源规划。新硬件约花费1500万美元。 近来零售市场的低迷以及价格与商品的竞争,使得Sears认识到必须更加聪明地使用收集到的巨量数据。将存货和销售数据与客户信息数据综合起来,使得Sears的员工能够分析客户的购买习惯、存货水平和销售数据。其目的是通过购物篮分析,获得对客户购物习惯的更好的理解,从而改进货物销售和库存控制能力。为保持竞争力,Sears必须确保比竞争者更快地让客户在商店里找到他们所想要的商品和服务,同时排除他们所不想要的。 在数据综合之前,Sears能从基层商店向下跟踪销售。例如;某个公司的某个商店在某
文档评论(0)