一种面向商业智能数据挖掘体系结构应用研究.docVIP

下载本文档

0
0
约3.16千字
约 7页
2018-05-28 发布于福建
举报
版权申诉

一种面向商业智能数据挖掘体系结构应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种面向商业智能数据挖掘体系结构应用研究

一种面向商业智能数据挖掘体系结构应用研究　　[摘要] 大量商业交易数据中隐含着许多对商业决策有益的知识，数据挖掘技术可以发现这些隐藏的模式和关系。本文分析并指出了通用数据挖掘体系结构的特点和不足，应用并行处理技术和数据挖掘结果存储两方面对现有数据挖掘体系结构进行改进。提出了面向商业智能应用的带有模式存储的并行数据挖掘体系结构，并对其特点进行了分析，分析表明所提出的并行数据挖掘体系结构对于商业智能的应用具有可行性。　　[关键词] 并行数据挖掘体系结构商业智能模式库　　　　引言　　企业为迎接市场的挑战，必须对市场运作有准确的分析。商业流通领域积累的大量交易数据中隐含着许多对商业决策有益的知识，传统的分析方法很难从中提取出这些知识，利用数据挖掘技术可以得到准确、及时的信息，决策人员以企业的数据仓库为基础，通过联机分析处理(OLAP)、数据挖掘和决策规划人员的专业知识，借助商务智能的核心技术，利用企业中长期积累的海量数据可以实现四方面的应用：客户分类和特征分析、市场营销策略分析、经营成本与收入分析、欺诈行为分析和预防，数据挖掘技术可以发现这些隐藏的模式和关系。　　并行数据挖掘体系结构是并行数据挖掘技术研究的重要内容，是实现并行数据挖掘的基础，选择适当的、高效的、具有较高性价比的商用并行体系结构是整个研究工作的基础。　　一、通用数据挖掘系统结构　　特定领域的数据挖掘工具主要针对某个特定领域的问题提供解决方案。在进行数据挖掘算法设计时，设计者需要充分考虑特定领域的数据特点和挖掘需求等特殊性，并有针对性地对数据挖掘算法进行优化。　　通用的数据挖掘应用系统大都以数据仓库或大型关系数据库为基础，且具有查询、分析、表示等功能，它是企业决策支持系统的核心组成部分，可以将这些现有数据挖掘系统的共同特点抽象成图1所示的结构。　　二、通用的数据挖掘系统结构的不足及改进思路　　通用的数据挖掘系统己经在一定程度上满足用户的需要，但是在应用实施过程中也存在着一些问题和不足。主要有以下几点:数据挖掘的效率??待进一步提高;历史模式不能得到有效利用;不同系统之间的互操作性差;面向不同应用对象的针对性不强。　　数据挖掘往往面对的是巨大的数据集，即GB甚至TB数量级的数据集，数据挖掘技术研究的核心问题之一就是如何提高数据挖掘的效率，提高数据挖掘效率的途径主要有以下几个方面：　　1.对数据集进行预处理，去除噪音数据，按照挖掘要求对数据进行清理和迁移，尽可能减少挖掘的数据量。　　2.针对各种数据挖掘和数据分析要求，研究、设计效率更高的各类数据挖掘算法。　　3.提高数据挖掘系统应用的硬件性能或者采用并行处理技术提高数据挖掘的速度。　　4.借用缓存的概念，对挖掘结果进行存储再利用，以提高用户挖掘请求的响应速度。　　针对一般商业智能应用领域的实际情况和需要，以提高数据挖掘应用的效率为目标，本文将主要从并行处理技术和体系结构方面对现有数据挖掘系统进行改进和提高。　　三、并行数据挖掘体系结构设计及特点　　为解决通用数据挖掘系统中存在的一些问题和针对商业智能的特点，面向商业智能应用的并行数据挖掘体系结构如图2所示，由6部分组成：　　1.高性能并行计算环境：并行数据挖掘体系结构中采用了高性价比的并行体系结构COW(Cluster of Workstations)、数据挖掘算法由串行算法改为并行算法以及采用“缓存”概念将数据挖掘结果保存在模式库中。并行处理技术的运用无疑对于数据挖掘效率的提高具有重要意义和实用价值，为数据挖掘效率的提高奠定了坚实的基础，对于商业智能应用的推广也具有重要作用。　　2.数据源：数据仓库和其他数据源是数据挖掘的基础，商业智能应用系统应具有多种数据来源的处理能力，例如普通文件(电子邮件等)、关系数据库、数据仓库、数据集市等。　　3.模式库：为了提高数据挖掘的效率以及商业逻辑的处理速度，借助硬件内存的“缓存”概念，将最近数据挖掘或者数据分析的结果（模式也许只是一个简单的规则描述）保存在模式库中，以便再次发生类似或者相同操作请求时能先在模式库中查找挖掘结果，从而尽量避免每次都从海量数据中进行挖掘操作，这样可以较大幅度提高处理速度。因此，模式库的建立为历史模式的有效利用提供了可能和基础　　另外，由于模式库中存储的是历次挖掘出来的模式，可以从分析模式的变化来进行趋势预测，从而为决策支持提供了更多的分析手段。　　4.学习和推荐Agent：增加了一个用户兴趣分析档案库，由学习Agent进行更新维护，供推荐Agent分析使用。学习Agent将根据权值的计算方法对用户兴趣档案中没有出现过的关键字进行加权操作。推荐Agent根据已有的用户兴趣档案，分析用户可能感兴趣的模式，并推