基于数据中心模式的多网站数据挖掘技术研究.docVIP

下载本文档

2
0
约4.1千字
约 7页
2016-10-08 发布于北京
举报
版权申诉

基于数据中心模式的多网站数据挖掘技术研究.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于数据中心模式的多网站数据挖掘技术研究.doc

基于数据中心模式的多网站数据挖掘技术研究　　摘要：随着互联网的快速发展，Web上的数据飞速增长。面对海量的数据，如何从中找出有价值的信息，运用到商业决策的制定中，已经成为越来越多的人关心的课题。该文主要介绍了web数据挖掘的概念和分类，论述了在电子商务中web挖掘的过程和方法，揭示了数据挖掘在电子商务中广泛的应用前景。论文实现了一个面向多电子商务平台的数据挖掘系统，系统面对多电子商务平台，实现了统一的数据收集和预处理过程，对用户的访问日志进行分析，从网站、商品类别、商品等角度进行数据分析，并又对用户的访问数据进行挖掘，从这些数据中发现潜在的规律，把握用户动态，帮助企业制定商业决策，使电子商务更具个性化和针对性。　　关键词：数据挖掘；Web挖掘；电子商务系统；用户兴趣分析　　中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2013）31-6948-03 　　现今，随着网络技术和数据库技术的迅猛发展，有效推动了商务活动由传统活动向电子商务变革。随着商务活动活动的电子化、数字化和网络化，如何从这些大量的数据中找出有利于商业运作、提高竞争力和为访问客户提供更多更优质的服务的信息，成为电子商务成败的关键因素，越来越受到电子商务经营者的高度关注，这也对计算机数据技术提出了新的要求。数据挖掘技术应运而生，它是一种能够从网上获取大量数据，并能有效地提取有用信息供企业决策者分析参考，以便科学合理制定和调整营销策略，为客户提供动态、个性化、高效率服务的全新技术。　　1 Web数据挖掘技术及其在电子商务中的应用　　Web数据挖掘[1]，即Web挖掘，它是指从Web资源上抽取信息或知识的过程，它将传统的数据挖掘思想和方法应用于Web之上，从Web文档和Web活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息。它以从Web上挖掘有用知识为目标，以数据挖掘、文本挖掘、多媒体挖掘为基础，并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术，将传统的数据挖掘技术与Web结合起来。建立在对大量的网络数据进行分析的基础上，采Web数据挖掘用相应的数据挖掘算法，在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析，最后做出归纳性的推理、预测客户的个性化行为以及用户习惯，从而帮助进行对网站以及网页的改进。　　Web挖掘是数据挖掘技术在Web环境下的应用，是集Web技术、数据挖掘、计算机技术、信息科学等多个领域的一项新技术[2]。目前，随着电子商务网站的兴起，经过分析一定时期内站点上的用户的访问信息，发现该商务站点上潜在的客户群体、相关页面、聚类客户等数据信息，对各种商业领域具有重要的实用价值，因而，电子商务必将是未来Web数据挖掘的主攻方向。Web数据挖掘技术在电子商务中的应用主要包含以下几方面：（1）寻找潜在客户；（2）留住访问客户；（3）提供营销策略参考；（4）完善商务网站设计。　　2 Web数据挖掘的过程和方法　　根据Web数据挖掘的方法，Web数据挖掘的一般流程[3]分为：数据收集（采集）、数据预处理、模式发现、模式分析四个步骤。　　Step1：数据收集（采集），从客户端、服务端或者是代理网站端获取数据。数据收集的对象以文本形式存在的，数据是粗糙、未经处理的，比如Web日志；　　Step2：数据预处理，通过数据清洗，数据格式化对收集海量数据中的有用数据进行筛选，供下一步数据挖掘和分析；　　Step3：模式发现，对预处理后的数据进行分析和挖掘，发现数据中存在的模式。　　Step4：模式分析，针对发现的模式进行分析，提取其中有用的信息。得出的结果可以应用到制定商业决策或优化网站结构中。　　3 数据收集和预处理模式的改进　　3.1 传统的数据收集和预处理模式　　传统的数据收集模式，获取的日志格式取决于各网站所使用的服务器日志格式，或者用户自定义的日志格式。这就导致获取的多个Web服务器日志文件的异构性，即记录的格式不同，内容排版也不同，无形中增加了数据收集的难度。　　传统的数据预处理模式也存在相同的问题。由于数据的来源网站可能是多个，不同网站的网站路径结构都不一样，这导致大多数数据挖掘系统预处理后的信息只局限于来源url，访问url，访问的文档列表，流量等信息，无法得到定制化的信息，如用户点击了哪个商品类别等。　　3.2 基于数据中心的数据收集和预处理模式　　数据中心[4]是集数据收集、预处理、分析为一体的统一式数据管理中心系统，客户端只需要调用统一的数据中心接口，即可传递必需的数据，由数据中心统一的记录到日志文件中。因为数据都是有数据中心服务器的日志系统进行记录的，这样做就屏蔽了传统数据收集模式中，由于各个网