Ｗｅｂ挖掘在电子商务系统中的应用.docVIP

下载本文档

3
0
约3.03千字
约 6页
2016-02-19 发布于北京
举报
版权申诉

Ｗｅｂ挖掘在电子商务系统中的应用.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Ｗｅｂ挖掘在电子商务系统中的应用 [摘要] 本文阐述了在电子商务应用中，利用Web挖掘技术，有效地将用户访问过程中的数据记录到日志文件中，并对日志文件进行有效地分析和挖掘；利用Apriori改进算法FT－树增长算法，找出对电子商务系统有指导作用的关联规律。　　[关键词] 电子商务数据挖掘日志挖掘知识发现人工智能　　随着电子商务的发展，企业的数据越来越多，而当其数据积累到一定程度时，必然会反映出一定规律性的东西，也就是说，企业的海量、分布、动态、复杂、非结构化的数据中蕴含有可以为其利用的规律。因此，人们迫切希望使用一种技术，从中挖掘出具有价值的规律来，形成对企业的技术和经营的指导。数据挖掘技术是可以用来挖掘这些规律的一种有效工具。　　Web中包含的丰富和动态的超链接信息，以及Web页面的访问和使用信息，为数据挖掘提供了丰富的资源。如何对Web中的数据进行有效的资源和知识发现，是Web挖掘需要解决的问题。　　　　一、Web信息数据的特征　　　　传统数据挖掘的信息局限于数据库中的结构化数据，而Web信息数据是半结构化或非结构化的,具有如下特征: 一是大规模海量数据信息。二是信息分布广泛。三是异质、动态的信息源。Web及其数据的更新、增长速度极快, Web上的信息几乎都是隐藏的、未知的。四是信息具有丰富的内涵。既有涉及各方面丰富的信息内容,又蕴涵着访问页面、路径、时间、用户IP地址等这些潜在的访问信息。　　　　二、数据挖掘及Web挖掘技术　　　　1.数据挖掘　　数据挖掘，又称数据库中的知识发现，近几年来已被数据库界所广泛研究。它是在数据仓库或大型数据库的基础上，从大量的、模糊的、随机的数据中提取出数据间重要的但容易被人工分析忽略的知识和信息。数据挖掘技术涉及数据库、人工智能、神经网络、预测理论、机器学习和统计学等多种相关技术。数据库中的知识发现（KDD）是从大量数据中提取出可信的、新颖的、有效的并能被人们理解的模式的高级处理过程。模式可以看作是我们所说的知识，它给出了数据的特性或数据之间的关系，是对数据包含的信息更抽象的描述。　　2.Web挖掘　　Web挖掘是对数据挖掘的一种新的发展和应用，但不同于传统的数据挖掘，其主要区别在于传统的数据挖掘的对象局限于数据库中的结构化数据，并利用关系表等存储结构来挖掘知识，而Web挖掘的对象是半结构化或非结构化特征。　　Web挖掘就是从大量的Web文档和Web活动中发现、抽取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。它以数据挖掘、文本挖掘、多媒体挖掘为基础，并综合运用计算机网络、数据库与数据仓库、人工智能、信息检索、信息提取、机器学习、统计学、概率理论、可视化、计算机语言学、自然语言理解等多个领域的技术，并将传统的数据挖掘技术与Web结合起来。Web挖掘分为：Web内容挖掘、Web结构挖掘和Web使用记录挖掘，如下图所示。　　图 Web挖掘的分类　　　　三、基于Web日志挖掘的算法　　　　Web日志记录了用户访问的信息，包括用户的访问方式、访问时间、访问人数、用户IP地址、被请求文件的URL HTTP版本号、传输字节数、引用页的URL等。　　1.符号与定义　　Web日志文件是由一条记录组成的，一条记录实际上记录的是用户对Web页面的一次访问。　　定义1关联规则：设I是Web日志的一条记录，即I={i1,i2,…,im},其中ij(1≤j≤m)是某用户访问一种商品的数据，每次访问一种商品都包含有如商品编号、访问时间、访问次数、客户号、客户IP地址等数据，称此类数据为数据项。Ti∈I为I的一个子集。D={T1,T2,…,Tn}是关于Ti的集合，且X∈I，Y∈I，X∩Y =Ф，则记录X=gt;Y为在集合D中X与Y相互关联的规则。　　定义2支持度：如果X=gt;Y在T中的S%成立，则称X＝gt;Y的支持度为S%，即　　S% =(|{t|t中含有X,Y}|/|T|)·100% 　　支持度S%表示X=gt;Y中出现的普遍程度。　　定义3置信度C% 　　C%=(|{t|t中含有X,Y}|/|{t|t中含有X}|)·100% 　　置信度表征的是规则的强度。　　定义4频繁模式：大于给定的支持度的模式X=gt;Y称为频繁模式，并将它看成是T中一条有意义的关联规则。　　2.算法描述　　根据FP－增长或频繁模式增长（Frequent-pattern Growth）算法，将关联规则的挖掘分为两个步骤实施：根据所提供的最小支持度和最小置信度找出所有的频繁项集；利用所产生的频繁项集，产生合理的关联规则。　　（1）FP－增长算法的具体算法描述如下：　　输入事务数