Web挖掘在电子商务中应用研究.docVIP

下载本文档

3
0
约3.77千字
约 8页
2018-08-11 发布于福建
举报
版权申诉

Web挖掘在电子商务中应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web挖掘在电子商务中应用研究

Web挖掘在电子商务中应用研究　　摘要：主要介绍了Web挖掘的定义，并对日志挖掘进行详细的说明，介绍了常用的Web挖掘方法，本文还讨论了分类算法的实际应用，最后总结了Web挖掘在电子商务中的应用。　　关键词：Web挖掘电子商务 Web 　　　　 1.引言　　 Internet的迅速发展推动了世界经济的发展，随着网络技术的发展，各种在线交易和交易平台不断涌现，随着网络信息量的急剧增加，人们越来越关心如何来利用这些信息。然而，实际中现在的一些工具和技术还不能够满足人们的需要。另一方面，电子商务的繁荣，网络信息处理技术的相对滞后，在这样的环境下产生了Web挖掘，很快它成为网络信息搜索和信息服务领域的热门课题。　　 2.Web挖掘　　 2.1 Web挖掘的定义和分类　　 Web挖掘是从www上抽取知识的过程，它是从与WWW相关的资源和行为中抽取感兴趣的有用的模式和隐含信息。按照挖掘对象的不同，可以将Web挖掘分为3大类[1]：Web内容挖掘、Web结构挖掘和Web日志挖掘。　　 2.2 Web内容挖掘　　 Web内容挖掘是指从Web页面内容及其描述信息中获取潜在的、有价值的知识或模式的过程。Web内容挖掘分为文本挖掘和多媒体挖掘两大类：对于文本文档（包括txt、PostScript、PDF、HTML）的挖掘称为文本挖掘。Web文本挖掘的数据对象既可以是机构化的，也可以是非机构化的、半机构化的。Web文本挖掘的结果既可以是对某个文本内容的概括，也可以是对整个文本集合的分类结果或聚类结果，还可以利用Web文档进行趋势预测等[2，3]。　　多媒体信息挖掘[4]，主要是指通过对Web上的音频、视频数据和图像进行预处理，应用存储和搜索技术与标准的数据挖掘方法的集成，对其中潜在的、有意义的信息和模式进行发掘的过程。多媒体信息挖掘可以应用于语音识别、图形和图像处理等研究领域。　　 2.3 Web结构挖掘　　 Web结构包括不同网页之间的超链接结构和一个网页内部的可以用HTML、XML表示成的树形结构，以及文档URL中的目录路径结构等[5]。　　 Web结构挖掘是从WWW的组织结构和链接关系中推导知识。主要是通过对Web站点的结构进行分析、变形和归纳，将Web页面进行分类，既利于信息的搜索。　　 Web结构挖掘所得到的模式，可以揭示许多蕴涵在Web内容之外的有用信息。如通过文档之间的超链接，可以挖掘出文档之间的引用关系，从而帮组我们找到与用户请求相关的权威页面；通过分析Web网页内部树形结构，可以发现与给定页面集合相关的其它页面；Web页面的URL同样可以反映页面的类型以及页面之间的从属关系，通过分析页面的URL信息，可以找到改变了位置的Web页面的新位置[5]。　　 2.4 Web日志挖掘　　 Web日志挖掘（也称为Web用户访问模式挖掘），是从Web的存取模式中获取有价值的信息或模式的过程，就是对用户访问Web时在服务器留下的访问记录进行挖掘。数据预处理主要包括数据净化、用户识别、用户会话识别和事物识别几个步骤。Web日志包括服务器log、代理log和客户端log。数据清理主要是指把Web日志转化为适合数据挖掘的可靠的精确的数据。包括如下几个方面：数据精简：删除Web日志中与数据挖掘不相关的的冗余项。Web日志记录包括IP地址、用户ID、用户请求访问的URL页面、请求方法、访问时间、传输协议、传输的字节数、错误代码等属性，其它属性可以去掉。URL页面中除了用户关心的正文外，往往还有图像、声音、视频等辅助信息。挖掘Web日志的目的是找出用户的共同访问模式，关于辅助信息的记录是无用的，可以删除。可通过检查URL的后缀来实现，后缀为.gif、.jpeg、.cgi的记录都去掉[6]，不过对于图形类的网站当另外处理。用户识别：不同的ID属于不同的用户，当用户端浏览器软件或操作系统发生改变，就认为是新用户。会话识别：会话识别是将用户的访问分成一个一个的会话。不同的用户访问该站点属于不同的会话，如果同一个用户访问的时间超出了timeout，则认为该用户开启了新的会话。事物识别：事物识别是对用户会话进行语义分组的过程。挖掘算法实施之前通常都要将用户会话分割成更小的事物。通常采用Chen[7]等人提出的最大向前引用路径来定义事物。　　 3.Web挖掘在电子商务中的应用　　在电子商务环境下，企业之间的竞争更加激烈，对于开展电子商务的公司来说，最大的挑战就是如何更好的了解公司客户的兴趣爱好、价值取向等，为了提升竞争力，企业需要应用最新的挖掘技术来分析网络服务器日志以及顾客的外部信息等。总的来说Web挖掘在电子商务中的应用主要体现在以下几个方面。　　 3.1 客户管理中的应用