Web用户访问模式和半结构化、层次数据的模式发现-计算机软件与理论专业论文.docxVIP

Web用户访问模式和半结构化、层次数据的模式发现-计算机软件与理论专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web用户访问模式和半结构化、层次数据的模式发现-计算机软件与理论专业论文

PAGE PAGE 1 论文第一部分 基于 MFP 方法和 WUAP-tree 结构的 Web 用户访问模式的模式发现 摘要: 许多机构和社团(如现代化企业、股票公司、广告公司、Web 服务中心等) 在每天的日常工作中经常制作和收集大量的数据,从大量存储在网络服务器的 访问日志中原始的半结构化数据中挖掘出有意义的用户访问模式及相关潜在 顾客群,是现代企业发展电子商务的重要支撑技术之一。本文针对 Web 用户访 问模式问题(路径游历问题)提出了一种新的挖掘用户频繁访问路径的方法 MFP(Maximal Frequent Path),该方法可以挖掘出更有意义的模式。同时提出 了 WUAP-tree 结构并采用 E-OEM 模型,综合考虑了页面拓扑结构及用户浏览 路径等多个数据源,提出了 Web 访问模式挖掘算法 WUAP-mine。该算法采用 WUAP-tree 结构,不用产生候选集和递归的方法,只对事务数据库进行一次扫 描,对 WUAP-tree 结构进行深度优先遍历一次,即可从 WUAP-tree 结构上直 接查询出 Web 用户频繁访问模式,并从理论和实践上推导和验证了它的有效性 和高效性。 关键字: 用户访问模式、潜在客户群、模式发现、E-OEM 模型、MFP 方法、WUAP-tree 结构、WUAP-mine 算法 ⒈ 引言 用户使用 Web 获取信息的过程中,需要不停地从一个 Web 站点/页面通过 超文本链接跳到另一个站点/页面,这种过程中存在一定的普遍性,并发现此规 律即是 Web 用户访问模式发现【 43, 44】。在分布式信息环境中,获取用户访问 模式就称为挖掘路径游历模式【60】。 在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是 用户的背景信息,此部分信息主要来自于用户的登记表;而另一方面数据主要 来自浏览者的点击流(Click-stream),用户背景信息数据主要用于考察用户的 行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息 填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不 得不从浏览者的表现数据(点击流)中来推测客户的背景信息,进而再加以利 用【41】。 访问者每通过点击链接物而访问一次网页,称点击一次。点击次数的多少 反映了访问者对该网页的信息(如广告)感兴趣的程度,是否希望得到更详细 的商家资料。因此,点击次数(clicks)可以客观地反映网页的信息效果。某网页 的浏览总数与所有页面的浏览总数之比,称作 clicks ratio(点击率)。它是衡量网 页吸引力的较为精确的一个标志之一。 另一方面,访问某页面的用户数量多少也反映了访问者对该网页的信息 (如广告)感兴趣程度,是否多数用户迫切希望得到更详细的商家资料。因此, 用户访问的次数也可以客观地反映出网页的信息效果。同样,访问某网页的用 户数量与所有用户的总数之比,它也是衡量网页吸引力的较为精确的一个标志 之一。 由 WCA(W3C Web Characterization Activity)定义【18】 users:通过浏览器访问网页的个体。用户可通过不同的机器、不同的代理 访问网站。 page view:用户一次点击得到的浏览器的一个显示。它可能由许多文件构 成。一个 page view 代表一次用户行为。 click-stream:是一系列 page view 请求的序列。 user session:一个用户访问整个网站的一个 click-stream。 server session:一个网站的某用户的 user session 中的一个 click-stream,也 称为一个 visit,即,某一段时间内向站点发出请求的行为。用户进入一个网站 后进行的一系列点击以获取网络信息。当用户在超过规定时间没有再次点击要 求信息,下一次点击将被视为另一次访问。 episode:是 user session 或 sever session 的一个子集。 高效地挖掘这种点击流数据(click-stream data)、理解 Web 上的用户访问 模式有如下好处:辅助改进分布式网络系统的设计性能,如可在有高度相关的 站点/页面间提供快速有效的访问通道;能帮助更好地理解用户访问 Web 的动 机;能帮助改善市场营销决策及 Internet 信息服务的质量,对实行电子商务战 略的商家起到了重要的作用。如把广告放到合适的 Web 页上或更好的理解顾客 的兴趣等等。对大量的顾客数据、日志数据的挖掘分析,可以对数据库设计者 提供了相当可观的财富。 网络服务器对每一个访问都记录一个日志条款,存储着所请求的 URL(源 IP 地址)和时间戳等。随着 World-Wide-Web(www)技术的快速发展和日志

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档