网站链接结构和使用信息可视化研究与应用.docVIP

网站链接结构和使用信息可视化研究与应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网站链接结构和使用信息可视化研究与应用

网站链接结构和使用信息可视化研究与应用   摘要:信息时代的到来,网站信息量呈现出的爆炸式发展导致用户无法定位其中信息,使用网站信息可视化辅助用户导航网站是解决上述问题的主要方法。由于网站中信息复杂多变,如何融合展现网站中的各类信息是目前的难点问题。在此使用RadialView树型布局算法绘制由超链接信息组成的网站拓扑结构。提出一种可视化规则在网站结构图的基础上添加对网页关联、热度等使用信息的可视化;以聚变数据库网站为实际应用案例,分析了该文关于网站信息可视化方面的工作在辅助用户导航网站方面的效果。   关键词:网站信息可视化;结构信息;网站使用信息;聚变数据库   中图分类号:TN91134文献标识码:A文章编号:1004373X(2012)18006704   引言   随着网站信息量的扩展,网站结构愈加复杂,如何迅速在网站中寻找信息越来越困难。使用网站信息可视化方法对网站进行导航是解决上述问题的主要途径[1],因此网站的信息可视化逐渐成为一个热点研究领域。早期使用可视化技术主要关注网站的结构信息,如E.H.Chi在文献[2]中使用conetree的可视化技术展现WebSpace结构,文献[3]使用图布局技术可视化网站等。但是上述研究无一例外地忽视了网站的一个重要组成因素:网站用户。随着网站用户的增多以及网站使用信息量的扩充,分析并可视化网站使用信息逐渐被提及和关注,如文献[45]中可视化了诸如用户的访问模式、网页的访问频率等网站使用信息。其中如何将网站的结构信息与日志文件中所包含的使用信息相融合,并以容易理解的方式可视化出来是一个难点问题。鉴于此,JiyangChen在文献[6]中提出了一种新的多边形可视化技术,可以在保持网站原有链接结构的基础上,展示一种及多种网站使用信息;Makiko在文献[7]中融合展现了网站链接结构信息和访问模式信息。   基于上述已有的一些网站信息可视化工作,本文提出使用RadialView[8]树型布局算法对网站的结构信息进行了可视化;并在网站结构信息可视化结果的基础上添加网站使用信息的可视化效果。在此认为,对网站的此类信息进行可视化能够辅助用户在网站中寻找信息,有利于重构网站即对网站内容重新布局。   1方法概述   有很多利用信息可视化方法辅助导航网站用户的案例,其可视化信息内容的主要关注点有:一个是关注网站本身的信息结构,因为一个清晰的信息空间结构和网页结构有利于简化迷失方向的问题;另一个是可视化网站的使用信息。总之使用网站信息可视化结果对辅助用户导航网站效果较为显著。   所以本文提出并实现了一种可视化网站的结构信息和使用信息的方法,具体过程见图1所示。主要包括以下几个步骤:   (1)为了让用户可以从总体上把握整个网站的内容分布,对网站结构一目了然,本文使用网络爬虫工具抓取网站的超链接结构信息,使用点线的布局算法,即节点代表网页,线代表网页间的超链接关系,绘制网站的结构图形,生成网站地图。   (2)本文还从网站的服务器日志中提取网页的热度信息和关联信息,目的让用户可以选择对热度值较高的网页进行访问,同时在选择某个网页时,与该网页相关的一系列网页呈现给用户,从而减少用户导航网站时间,提高信息命中率。   (3)为了在一个可视化空间内有效展现网站中各类信息,本文定义一套可视化策略,用以融合显示网站背后隐藏的使用信息和网站结构信息。   由图1可知,本文关于网站信息可视化的工作主要分为两部分,即网站信息的提取和具体信息的可视化。   2网站信息的提取   网站信息可视化的前提是要获取网站中的各类信息,本文实现网站信息可视化的数据主要来源于:   (1)通过网络爬虫工作构建的网站拓扑结构信息。   (2)通过网站服务器日志获取的网页关联和热度信息。   本文使用的服务器日志数据默认是标准的格式,即收录了网站用户的IP、访问的网页URL和时间等信息。   2.1结构信息的提取   网站中负责页面间跳转的是网页中的超链接信息,可以将超链接视为线,网页视为结点,这样就组成了一个图的结构,被称之为网站的拓扑结构。本文使用基于htmlparser[9]的网络爬虫工具提取网页中的超链接信息,同时剔除了网页中夹杂的无效链接、多媒体链接和站外链接。由于网站拓扑结构呈现出来是图结构,不利于用户的理解和导航,本文拟将其组织成层次性结构,所以本文特别设计了图的广度遍历算法将网站的拓扑结构转换成树型结构,以便用户认知和使用。   2.2使用信息的提取   (1)网页间关联信息的提取   网页关联关系的提取过程如图2所示,首先对网站服务器日志进行预处理,识别出其中的会话,如图2(a)中对会话期间访问的网页进行标识;接着使用关联规则算法分析会话期间访问的网页集合,如图2(b)所示,得到最终的最大频繁项

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档