一种对移动Web访问日志中层次数据的提取方法.pdf

一种对移动Web访问日志中层次数据的提取方法.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种对移动Web访问日志中层次数据的提取方法.pdf

文章编号:1007—1423(2015)12—0047-07DOI:10.3969/j.issn.1007-1423.2015.12.011 一种对移动Web访问日志中层次数据的提取方法 高丽峰1,高丽萍2,李梦颖1 (1.I四)ll大学计算机学院,成都610065;2.北京南瑞智芯微电子科技有限公司,昌平102200) 摘要: 提出一种基于可视分析的层次数据提取方法,实现对移动Web访问日志中层次数据的精确高效提取。通过数据样本 建立数据字典,确保没有信息遗漏,并根据字典统计样本并记录相关数据,建立数据网络权重图。可视化该网络,并以 可视分析的方法确定数据间的层次结构,并以此构建数据层次结构有向图,结合结点权重进行拓扑排序,使用得到的 拓扑序列更新数据字典。将待提取日志与数据字典中的关键词依次进行正则匹配,并保存提取结果。对移动Web访 现数据的精确提取。 关键词: 数据提取;可视分析;层次数据;移动Web访问日志;User-Agent 基金项目: 四川省科技厅项目(No.2013GZ0015) 0 引言 其中一个。我们定义有从属关系的同一属性数据为层 次数据.而如何从这些层次数据中提取出具有代表性 随着大数据的迅速发展.日志文件得到越来越多 的数据这一问题亟待解决。其中典型代表就是User— 人的青睐。通过对Et志文件的分析.可以挖掘出用户的 Agent域中浏览器数据的提取。通过移动姚b访问日 若干行为,统计分析用户的爱好、习惯等属性,以及这 些属性的地域性、时域性等。从而可以帮助开发者针对 晰该设备使用的浏览器,对于网页适配、市场调研等具 用户喜好开发对应的软件.使得生活更便捷:帮助设备 有重要意义。浏览器信息提取需要考虑:若干浏览器使 提供者设计更多人性化的设施。 用同一个搜索引擎:双核浏览器的开发使得同一个浏 日志文件有如下特点:实时性.日志文件随着用户 览器可能在不同情况下对应不同的搜索引擎:为了更 访问不断产生,存在明显的时空局域性;异构性,日志 好的兼容性.浏览器之间经常相互伪装。使得在一条 文件结构不规范,数据多呈半结构化或无结构:高内 User~Agent域中往往会出现多个浏览器信息。 涵.日志文件包含用户一次访问以及所使用设备的所 有相关信息。此外,移动Web访问日志文件的属性相 浏览器信息)的提取难点在于确定数据(浏览器)间的 对更多,主要表现在IP、User—Agent等域。该域中,涉及 层次结构及提取顺序。本文提出基于可视分析的层级 到移动访问设备的品牌、操作系统,以及浏览器等信 数据提取方法来解决上述问题.该方法同样适应其他 息。 领域层次数据的提取。首先.统计样本中所有字段信 然而。一些域中的一条记录可能会出现代表某一 息,建立相关数据字典:其次,通过数据字典对样本数 属性的若干字段:这些同时出现的字段相互联系.又有 据进行重新提取.并记录数据问的相关关系和出现频 一定的从属关系:真正代表该记录该属性的字段只有 万方数据

文档评论(0)

文档精品 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6203200221000001

1亿VIP精品文档

相关文档