- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于可见图web日志实证分析
基于可见图web日志实证分析
摘 要 运用可见图算法将某教育机构四周的web访问日志的时间序列映射成相应的网络。在统计四周每天用户的访问量以后,发现访问量的曲线波动规律与该教育机构群体用户的活动行为有关。通过分析不同时间尺度序列的Hurst指数和非周期循环长度,发现序列都具有正相关性和分形特征。然后通过可见图方法得到的相应网络具有无标度性质。网络的平均群聚系数基本一致,表明该机构的网络结构是稳定的。
关键词 可见图 无标度网络 复杂网络
中图分类号:N94 文献标识码:A
近年来,复杂网络理论得到了广泛的发展,真实世界中有很多系统可以用网络来描述,例如Internet、社会关系网络、学术合作网络以及生物中的食物链网络等等豍豎豏。这些网络与我们的生活实践息息相关,研究它们不仅可以促进新科学分支的发展而且可能引起人类生活的重要变革豐。
网络日志记录着用户上网的历史活动,用户浏览网页的行为深深的烙印在网络服务器的日志文件中豑。分析和探讨这种行为规律,可以提高系统的性能,提高互联网信息服务终端对用户的服务质量,并分析潜在的客户对电子商务的影响等等豒。在本文中,用用户每一分钟访问网页的数量构成时间序列,通过该序列很容易观察到的该校群体用户的行为与该校的日常活动息息相关。
一、算法模型
(一)可见图算法。
西班牙马德里理工大学的Lacasa豓等提出的一个简单快速的新方法,将一个时间序列映射成一个网络,该方法具体操作是:序列上的每个数值点对应于网络上的一个结点,考虑任意两个数值点(ta,ya)和(tb,yb),及它们之间的任一点(tc,yc),如果满足:
ycyb+(ya-yb)(tb-tc)/(tb-ta) 其tatctb中,则这两个结点在网络上是可见的。如图1豓所示,有边连接,反之没有。
二、实证分析
(一)数据处理。
本文根据上海某高校网络中心服务器的网页浏览日志,时间跨度为四周,从2010年4月1日凌晨0点开始到2010年4月28日凌晨23时59分59秒结束。该校的群体用户在这四周内一共访问的主站数为92014 个,最多的一天发出1720232个访问请求,最少的一天发出1352102个访问请求。日志中共包含有11 个字段(大部分教学机构的记录都是采取11段式来保存访问信息),对本文研究有用的字段是用户网络地址、用户访问网页、访问时间。对数据进行预处理,提取其中的用户网络地址、用户访问的网页、访问时间的记录。经统计,在四周内平均每天的访问用户有2583个,发出的访问请求有1521032个。
(二)基于时间序列的Hurst 指数分析。
本文中,首先根据用户访问网页浏览日志,构建用户网络数据库,按不同的时间尺度构建5个序列,序列的观测值为所有用户访问网页的数量。数据库一天的网页浏览日志按分钟构建成序列1,按秒构建成序列2。同理对28天的网页浏览日志分别按天、小时、分钟分别构建序列3、序列4、序列5。然后用重标极差法对序列进行Hurst指数计算,并计算了V 统计量图,从而获得了每个序列的Hurst指数和非周期循环长度,如表1所示。通过表1可知,各个访问量序列的Hurst指数都大于0.5,说明访问行为不服从随机游走,而是具有长期的稳定性和正相关性,网页访问量的将来变化趋势与过去的变化趋势相近。发现各个序列在不同时间标度下的非周期循环长度具有一致性,说明该度量与时间标度无关,体现了系统的分形特征,如表1的参数r所示,r为时间标度和非周期循环长度的比值。Hurst指数越大,循环周期越短,这是因为具有较大Hurst指数的序列具有较强的长期正相关性,事件趋向于按照同一种方式出现,因而必然会缩短循环长度。
Hurst指数是时间序列分析中的一个重要参数,体现了时间序列的长期记忆效应,图2是利用重标极差法对序列1计算Hurst指数,Hurst指数在0.65左右。当 时,表明序列具有持续性,存在长期记忆性的特征。即前一个时期序列是向上走的,那下一个时期将多半继续是向上走的。通过分析V统计量图,发现曲线有上升趋势,则表明此序列中存在长期正相关性,如图3所示。
(三)基于可见图的网络分析。
研究网页浏览日志的行为特征,可以通过网络图来刻画。而可见图算法很好的把时间序列和网络图连接起来。本文用可见图算法分别把序列转化为相应的网络,如表1所示。图4是序列1转化的网络1,图中红色的点代表着度很大的节点,也就是这个时刻的用户的访问量比较多,通过计算发现访问量的几个峰值出现在上午10:00 至11:00、下午13:30 至14:00、晚上20:00至21:00 几个时间段。显然,前两个时间段是高校办公的高峰期,而后一个时间段则是学生晚上上网娱乐的高峰期。白天的两个网络访
您可能关注的文档
最近下载
- 一种新型功交换式能量回收装置.pdf VIP
- 生猪屠宰兽医卫生检疫人员考试题库答案.pdf VIP
- 生猪屠宰兽医卫生检疫人员考试题及答案.doc VIP
- 《仲景食品公司应收账款管理现状、问题及对策》6000字.doc VIP
- 2024《仲景食品公司应收账款精益化管理研究》9100字.docx VIP
- 2024《调味配料企业应收账款管理问题及对策—以仲景食品公司为例8600字》.docx VIP
- 2024《企业应收账款管理的现状分析—以仲景食品公司为例》8400字.doc VIP
- 生猪屠宰兽医卫生检验人员理论考试题库及答案.pdf VIP
- 仲景食品有限公司应收账款风险分析与防范.docx VIP
- 仲景食品有限公司应收账款风险分析与防范.docx VIP
文档评论(0)