Web使用模式研究中的数据挖掘.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web使用模式研究中的数据挖掘

Web使用模式研究中的数据挖掘 摘要:Web使用模式挖掘是利用Web使用数据的高级手段。是对Web使用数据的深层次分析,从而挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的知识,以帮助管理决策。综述了,leb使用模式的数据挖掘研究技术的内容、现状和研究的方向。 关键词:Web使用模式;数据挖掘 1引言 近年来,数据挖掘和万维网应用研究是信息时代两大活跃的研究领域,两者的结合构成了另外一大活跃的研究领域一Web数据挖掘研究。Web数据挖掘有两方面的内容:一个是Web内容的挖掘,主要是从庞大的网络数据资源里发掘信息;另一个是Web使用(Web usage和Web usability)模式数据挖掘,主要是挖掘网站访问日志,从中发掘出用户访问模式。 1.1问题提出的背景 Internet的本质是信息的自由便捷流通,是对时间和空间障碍的跨越,Internet的出现改变了信息抵达受众的模式。除了Internet,以外途径(电视、广播)传递的信息由于其固有的单向性,信息是“推”向受众的,受众充其量具有一定限度范围的选择权。在Internet上传递的信息在理论上讲是无限发散的,世界上任何一个人都可以在任何时候获取自己愿意得到的信息,这种“拉”的模式改变了信息受众在获取信息上的地位一更具有主动权。因此,Internet有效地改变了信息对其受众的不对称性。那么,一切传统产业中由于信息不对等而带来的组织模式和利益模型都受到不同程度的威胁。正因为Internet给人类带来的革命性变革,使得随着Internet网进一步发展,各种基于Internet网络的应用业务也如雨后春笋般地发展起来,例如网上商店、网上银行、远程教育、远程医疗等。特别是方便、快捷、高效的电子商务,在1998年到2002年里,其发展速度将超过30%。网上购物的金额在1999年增长到120亿美元,2000年底也将会达到411亿美元。到2002年,全球消费者的电子贸易额将达到数千亿美元的规模。毫无疑问,未来的商战战场将是Interneta 也就是说,随着越来越多的组织、企业在互联网上开展业务,传统的市场营销策略、企业战略制定技术也都纷纷转向Internet o Web是Internet上储存和发布信息最普遍的载体。人们从Web上获取信息的模式、获取信息的类型也就反映了其兴趣偏好所在。因此,用户访问Web的规律,成了Internet环境下各企业共同关注的一大热点。 1.2研究的意义 分析用户访问Web的规律有助于企业确定顾客消费的生命周期,针对不同的产品制定相应的营销策略:分析用户访问Web的规律也可以找出如何优化一个网站组织结构的策略:分析用户访问Web的规律也可以确定预传哪些页面到客户端,从而提高网站的效率。另外,对那些要通过World Wide Web发送广告的企业,分析用户访问模式有助于有针对性地在某些用户经常访问的地方插播广告条。 2 Web使用模式的数据挖掘研究流程 Web使用模式数据挖掘的研究依然遵循数据挖掘的研究思路,其研究框架如图1所示。简单地讲分为四个阶段:源数据的收集、数据预处理、数据挖掘和对挖掘出来的模式进行分析。 2.1源数据的收集 在KDD(Knowledge Discovery in Database)中有一个很重要的步骤就是要为挖掘算法找到合适的数据。在Web使用模式数据挖掘中,数据最直接的来源是Web服务器。由于服务器非常明确地记录了访问者的浏览行为,因此,Web服务器日志(见表1)在Web使用模式数据挖掘中有很重要的地位。Web服务器记录访问日志有两种格式:一种是普通型,一种是扩展型。 表中阴影部分是扩展服务器日志附加的几个域的日志文件。扩展服务器格式的文件提供了日志文件之后的信息,比如,检测到Session开始和结束的时间。 另外,Web月及务器还可以存储其它的Web使用信息,比如Cookie,以及用户提交的查询数据。Cookie是由服务器产生的,用于记录用户的状态或者访问路径。由于涉及到用户的隐私问题,使用Cookie需要客户的配合。查询数据是用户在查询自己需要的信息时在服务器端产生的记录。另外,服务器同时也记录文件的有关信息,例如文件的创建者、修改时间等。 但是,由于在Web浏览中那些驻留在缓存中的页面和通过Post技术传递的重要信息没有记录在服务器访问日志中,因此,用服务器端记录的数据进行Web使用模式挖掘也不完全可靠。 2. 2数据预处理 数据预处理阶段,目标是要将用户访问网站留下的原始日志整理成事务数据库,以供数据挖掘阶段使用。数据预处理主要是指用户浏览页面川、用户川、用户期间(Sessions)和用户访问序列川等的确定。 ·浏览页面的确定。浏览页面就是一个用户请求的

文档评论(0)

xjj2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档