- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于工作流自动商业数据挖掘
基于工作流自动商业数据挖掘
摘要:本文旨在提出使用工作流为中型商业实体开发出适合其规模的数据挖掘软件的思想,使用者能够跳过冗长的建模及算法,使数据挖掘应用能够应用到更加广泛的商业领域中。
关键词:数据挖掘工作流
中图分类号:TP2 文献标识码:A 文章编号:1672-3791(2011)02(b)-0070-01
数据挖掘技术逐渐在越来越多的商业决策中扮演重要的角色。
从应用软件的开发对象层面考虑,许多中小型企业并未有专业团队来管理并建立该公司的数据仓储或从技术层面分析算法或调整参数。本文旨在为软件开发商针对该用户群提出使用工作流来开发面向应用的软件的思想。
1数据挖掘
1.1 数据挖掘
数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
数据挖掘(Data Mining)从技术上讲,就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
简而言之,数据挖掘其实是一类深层次的数据分析方法。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于商业运作而产生。分析这些数据主要是为商业决策提供真正有价值的信息,进而获得利润。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
1.2 数据挖掘一般流程
(1)定义主题。
确定用户想要得到什么样的信息。
(2)数据选择。
从数据库中抽取需要的数据,建立数据cube等。确立数据仓储的维度和粒度。常用方法有分区收集、减少数据噪音、剔除部分冗余数据等。
(3)分析数据。
对建立的数据仓储进行初步的分析和清洗,使其能够胜任随后的数据挖掘分析。常用方法有数据抽样、数据转换、缺损数据处理等。
(4)样本生成。
建模样本:为下个阶段准备测试样本:对模型进行修正和检验。
(5)模型建立。
对数据进行分析并利用各种数据挖掘技术和方法在多个可供选择的模型中找出最佳模型,这个过程是一个循环迭代的过程,常用的分析模型主要有:决策树、贝叶斯网络、神经网络等。
(6)模型的评估与检验。
测试通过该模型所得到的结果是否为使用者所需要的结果。
(7)应用模型。
2工作流
工作流(Workflow)就是“业务过程的部分或整体在计算机应用环境下的自动化”,它主要解决的是“使在多个参与者之间按照某种预定义的规则传递文档、信息或任务的过程自动进行,从而实现某个预期的业务目标,或者促使此目标的实现”。简单地说,工作流就是一系列相互衔接、自动进行的业务活动或任务。一个工作流包括一组任务(或活动)及它们的相互顺序关系,还包括流程及任务(或活动)的启动和终止条件,以及对每个任务(或活动)的描述。
工作流在大多数的实际应用中的情况可以这样来简单地描述:在网络、服务器和多台计算机客户端的硬件平台上,业务过程按照预先设定的规则并借助应用程序和人对相关数据的处理而完成。
3自动数据挖掘工作流
3.1 自动工作流流程文字描述如下
(1)数据准备。
针对原始数据库,包含初步的数据抽取和清洗工作,为数据挖掘做好准备。
(2)多模型建立。
选择模型、对准备后的数据进行多个模型的建立。
(3)多模型测试。
对已建立的模型分别进行测试。
(4)多模型结果比较。
(5)数据分析需求是否满足。
得到满足:应用该结果到商业处理中。
未得到满足:提交管理员处理,如扩大数据源、扩大模型选择数量等。
3.2 工作流流程图实现图例
工作流流程图实现图例见图1示。
4结语
在商业数据挖掘过程中,使用工作流来加强数据挖掘的自动性和增强数据挖掘的智能化,从应用软件的开发对象层面考虑,对于众多中小型企业来说,其并未有专业团队来管理并建立该公司的数据仓储、从技术层面分析算法或调整参数。使用工作流来开发面向应用的软件,只需掌握少量数据挖掘知识的软件管理人员,就能从其公司的数据库中找出利于其发展的商业信息。
参考文献
[1] 韩家炜.数据挖掘导论.
[2] Java Data Mining API 1.0, JSR 73.
[3] 韩光臣,王军强,孙书栋.企业CRM与ERP系统信息集成[J].航空制造技术.
文档评论(0)