- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于粗集的数据挖掘在电子商务中的应用
基于粗集的数据挖掘在电子商务中的应用
[摘要] 电子商务是现代商业的主流趋势,基于数据挖掘技术可以充分利用企业的信息数据,从海量数据中挖掘出对企业有用的信息。文中主要介绍了基于粗糙集的数据挖掘过程:数据预处理、约简和规则提取。 [关键词] 电子商务 粗集 数据挖掘 决策规则 一、引言 在当前信息化时代,世界电子商务发展速度非常快,传统行业的电子商务也得到了广泛的应用。在日益激烈的电子商务买方市场竞争中,任何与消费者行为有关的信息对商家来说都是非常宝贵的。虽然电子商务网站的后台数据库能够记录下来丰富的交易信息和顾客相关的数据,但是这些数据资源中所蕴涵的大量有益信息至今却未能得到充分地挖掘和利用。粗糙集作为一种新的数据挖掘的手段,在这一领域的应用有不错的前景。在数据挖掘的过程中,存在大量冗余数据影响我们的决策,粗糙集理论在得到的决策规则和推理过程方面是最有利的工具,它不但可以在不影响数据所表达的信息下使原来的数据量大为减少,而且可以产生决策规则,从而可以挖掘数据中的有效的模式。 二、基于粗集的数据挖掘方法 1.粗集的基本概念 粗糙集(Rough Set,简称RS)理论由波兰逻辑学家Pawlak教授于1982年提出,由于它能有效处理不精确、不一致及不完整等不完备信息,并从中发现隐含的知识,揭示潜在的规律,近年来越来越多的研究人员开始对它进行研究,从理论上建立了Rough集理论的数据模型,还提出了很多算法,在机器学习、数据挖掘、人工神经网络等方面得到了广泛应用。粗糙集理论和数据挖掘关系密切,它为数据挖掘提供了一种新的方法和工具。 在粗集理论中,“知识”被认为是一种将现实或抽象的对象进行分类的能力。关于U的一个知识库可以理解为一个关系系统,其中U为论域,R是U上的一簇等价关系。决策表信息系统又叫决策表,他是一类特殊而重要的知识表达系统,也是一种特殊的信息表,它表示当满足某些条件时决策(行为、操作、控制)应当如何进行。它是一张二维表格,每一行描述一个对象,每一列描述对象的一种属性。属性分为条件属性和决策属性,论域中的对象根据条件属性的不同,被划分到具有不同决策属性的决策类。 2.基于粗集的数据挖掘过程 数据挖掘研究的实施对象多为关系型数据库,关系表可被看作为粗糙集理论中的决策表,这给粗糙集方法的应用带来极大的方便,现实世界中的规则有确定性,也有不确定性的,从数据库中发现不确定性的知识,为粗糙集方法提供了用武之地。数据挖掘中采用的其它技术,如神经网络的方法,不能自动地选择合适的属性集,而利用粗糙集方法进行预处理,去掉多余属性,可提高发现效率,降低错误率。基于粗糙集的数据挖掘过程主要有数据预处理、约简(包括属性约简和属性值约简)及规则提取。 (1)数据预处理 在利用粗糙集进行自动规则获取时,第一步要进行的工作是数据的预处理。 数据预处理主要包括两个方面:数据的补齐和数据的离散化。运用粗糙集理论处理决策表时,要求决策表中各值用离散值表达。如果决策表中某些条件属性或决策属性的值域为连续取值(浮点数表达),则在处理前必须经过离散化。离散化在整个规则获取过程中起着至关重要的作用,好的离散化算法不仅丢失信息很少,而且得到的规则的适应性较强。 (2)属性约简 基于粗糙集的数据挖掘方法的一个显著的特点就是它具有显式的知识表达形式。根据粗糙集理论中信息系统的定义,把属性A分为了条件属性C和决策属性D,那么我们很容易根据信息表得到If C Then D的产生式规则。理论上我们针对信息系统中的每一条记录,都可以得到这样一条规则。但是直接由信息表得到的规则,条件项较多,规则的泛化能力弱,适用范围窄。 一般情况下,信息系统中的条件属性并不是同等重要的,有些条件属性是多余的,删除这些属性并不影响原来的系统。属性约简就是在不影响原来的系统的情况下,删除不相关或不重要的条件属性,使原有的系统得到简化。通过应用粗糙集理论对决策表约简,就是约简决策表中的条件属性及属性值,约简后的决策表具有约简前决策表相同功能,但条件属性达到最小化从而使我们用最少的信息量即可做到一个正确的判断,决策表的约简很有意义。 (3)属性值约简 值约简的目的是为了提取决策规则,那么这些缺失的属性值是肯定要被约简掉的,和属性约简不同,值约简是针对每一个对象而言的。虽然对整个决策表来说没有冗余的属性,但对于每一个对象来说,仍然存在着属性冗余,去掉这些属性对今后决策规则的提取、规则的简化有重要的作用。根据定义一般值约简算法基本描述如下:对于规则集合中的每条规则,对于该规则中的任意条件属性,如果去掉该属性,该规则不和集合中的其他规则冲突,则可以从该规则中去掉该条件属性。 (4)规
您可能关注的文档
- 基于椭圆曲线的高效分级群签名.doc
- 基于概率悖论的人工智能思考.doc
- 基于概率极限状态设计的复合桩基分项系数研究.doc
- 基于概率统计的贝叶斯分类器设计.doc
- 基于概率虚拟样机的机械产品可靠性设计分析.doc
- 基于楚雄公交线路合理性的探究.doc
- 基于模型的分时段软件测试工具TPT.doc
- 基于模型的批量发酵优化的交互式进化计算.doc
- 基于模型迁移方法的回转窑煅烧带温度T-S模糊神经网络软测量.doc
- 基于模极大值小波域去噪算法之改进.doc
- 2025AACR十大热门靶点推荐和解读报告52页.docx
- 财务部管理报表.xlsx
- 高中物理新人教版选修3-1课件第二章恒定电流第7节闭合电路欧姆定律.ppt
- 第三单元知识梳理(课件)-三年级语文下册单元复习(部编版).pptx
- 俄罗斯知识点训练课件-七年级地理下学期人教版(2024).pptx
- 课外古诗词诵读龟虽寿-八年级语文上学期课内课件(统编版).pptx
- 高三语文二轮复习课件第七部分实用类文本阅读7.2.1.ppt
- 高考物理人教版一轮复习课件第4章第3讲圆周运动.ppt
- 高考英语一轮复习课件53Lifeinthefuture.ppt
- 2025-2030衣柜行业风险投资发展分析及投资融资策略研究报告.docx
文档评论(0)