Ｗｅｂ挖掘技术与电子商务.docVIP

下载本文档

2
0
约3.66千字
约 8页
2016-02-19 发布于北京
举报
版权申诉

Ｗｅｂ挖掘技术与电子商务.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Ｗｅｂ挖掘技术与电子商务 [摘要] Web挖掘是一项涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域的综合技术，利用Web挖掘可以提高电子商务系统对消费者的服务能力和竞争优势。文章从四个方面对Web挖掘进行了论述。　　[关键词] 数据挖掘Web挖掘电子商务　　随着互联网的高速发展和企业、个人上网的普及，电子商务成为未来商务交易的主要运营方式，电子商务是运用互联网技术进行的经济贸易活动，是一种基于因特网、以交易双方为主体、以银行电子支付和结算为手段、以客户数据为依托的全新商务模式，其内容包括广告、交易、支付、服务等活动。商家与其合作伙伴、客户通过计算机网络进行商务活动，可以拉近企业与客户的距离，缩短生产时间，降低流通成本，提高产品质量，为生产者和消费者提供更多的信息，扩大客户的选择，提高企业的竞争力。　　利用网络提供优质的产品及优良的服务是今天电子商务发展的核心与重点。如何在电子商务活动中通过技术手段来与顾客沟通，了解其消费偏好、习惯以及潜在的消费意识，进而设计出满足不同客户群体的个性化网站，以完成对每一个客户的优质个性化服务，这些已成为电子商务活动中迫切需要解决的问题。利用Web数据挖掘技术就可以有效解决以上问题。　　　　一、Web挖掘的概念　　　　数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是从人工智能和机器学习中发展起来的，它是一种新的信息处理技术，其主要特点是对大量的数据进行抽取、转换、分析和其他模型化处理，从中提取人们感兴趣的知识。数据挖掘的对象可以是数据库，也可以是文件系统，还可以是其他任何组织在一起的数据集合。　　Web挖掘是从数据挖掘发展而来，Web挖掘是从Web文档和Web活动中发现、抽取感兴趣的潜在的有用模式和隐藏的信息，它是一项综合技术，涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域。　　虽然Web挖掘由数据挖掘发展而来，但其与数据挖掘相比有独特之处。传统数据挖掘的对象局限于数据库中的结构化数据；而Web挖掘的对象是大量、异质、分布的Web文档，其是半结构化或无结构的且缺乏机器可理解的语义。　　　　二、Web挖掘的类型　　　　根据控制对象的不同，Web挖掘可以分为三类：Web内容挖掘、Web结构挖掘、Web数据的使用挖掘。　　　　1.Web内容挖掘　　Web内容挖掘，就是从Web页面上的文件内容及其描述信息中获取潜在的、有价值的知识和模式的过程。Web内容挖掘包括文本文件的挖掘和多媒体文档的挖掘。　　　　2.Web结构挖掘　　Web结构挖掘，是从Internet的整体结构和网页的相互链接以及网页的本身结构中发现知识的过程。　　在整个Web空间，有用的知识不仅包含在页面的内容之中，而且也包含在页面的结构中。Web结构挖掘主要针对的就是页面的超链接结构，如果有较多的超链接指向它，那么该页面就是重要的，发现的这种知识可以用来改进搜索路径等。　　　　3.Web数据的使用挖掘　　Web数据的使用挖掘，是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者和顾客的行为模式。　　尽管WWW作为一个信息资源是繁杂、异质和庞大的，然而从局部来说，在每一个提供信息资源的服务器上都有一个结构化的记录集，即Web访问日志。每当有获取资源的请求到来时，Web服务器都将记录和积累这些关于用户交互作用的数据。分析不同的Web站点的Web访问日志可以帮助人们理解用户的行为和Web的结构，从而提高网站的实际工作效率。　　　　三、Web数据的使用挖掘过程　　　　Web使用挖掘遵循传统数据挖掘的研究思路，挖掘过程分为4个阶段：源数据收集、数据预处理、模式发现和模式分析。　　　　1.源数据收集　　在Web数据的使用挖掘中，数据最直接的来源是Web服务器上的Web日志文件。Web日志文件非常明确地记录了访问者的浏览行为，Web日志文件包括服务器log、代理log和客户端log。　　　　2.数据预处理　　收集到的实际数据一般都具有不完全性、冗余性和模糊性，要想更有效地挖掘出知识，就必须对收集到的数据进行预处理，为挖掘提供准确、简洁的数据。数据的预处理包括数据清理、用户识别、用户会话识别、访问路径补充和事务识别等步骤。　　(1)数据清洗的主要任务就是删除Web日志中与数据不相关的冗余项，缩小被挖掘数据对象的范围。　　(2)在数据净化后就必须确定单一的用户，用户识别的目的就是对用户唯一性的识别。用户识别可以借助于cookie技术、用户登记技术和启发性规则来实现。　　(3)