一种对移动Web访问日志中层次数据的提取方法.pdf

下载文档

5
0
约 8页
2015-09-20 发布于湖北
举报
版权申诉
保障服务

一种对移动Web访问日志中层次数据的提取方法.pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文章编号：1007—1423(2015)12—0047-07DOI：10．3969／j．issn．1007-1423．2015．12．011 一种对移动Web访问日志中层次数据的提取方法高丽峰1，高丽萍2，李梦颖1 (1．I四)ll大学计算机学院，成都610065；2．北京南瑞智芯微电子科技有限公司，昌平102200) 摘要：提出一种基于可视分析的层次数据提取方法，实现对移动Web访问日志中层次数据的精确高效提取。通过数据样本建立数据字典，确保没有信息遗漏，并根据字典统计样本并记录相关数据，建立数据网络权重图。可视化该网络，并以可视分析的方法确定数据间的层次结构，并以此构建数据层次结构有向图，结合结点权重进行拓扑排序，使用得到的拓扑序列更新数据字典。将待提取日志与数据字典中的关键词依次进行正则匹配，并保存提取结果。对移动Web访现数据的精确提取。关键词：数据提取；可视分析；层次数据；移动Web访问日志；User-Agent 基金项目：四川省科技厅项目(No．2013GZ0015) 0 引言其中一个。我们定义有从属关系的同一属性数据为层次数据．而如何从这些层次数据中提取出具有代表性随着大数据的迅速发展．日志文件得到越来越多的数据这一问题亟待解决。其中典型代表就是User— 人的青睐。通过对Et志文件的分析．可以挖掘出用户的 Agent域中浏览器数据的提取。通过移动姚b访问日若干行为，统计分析用户的爱好、习惯等属性，以及这些属性的地域性、时域性等。从而可以帮助开发者针对晰该设备使用的浏览器，对于网页适配、市场调研等具用户喜好开发对应的软件．使得生活更便捷：帮助设备有重要意义。浏览器信息提取需要考虑：若干浏览器使提供者设计更多人性化的设施。用同一个搜索引擎：双核浏览器的开发使得同一个浏日志文件有如下特点：实时性．日志文件随着用户览器可能在不同情况下对应不同的搜索引擎：为了更访问不断产生，存在明显的时空局域性；异构性，日志好的兼容性．浏览器之间经常相互伪装。使得在一条文件结构不规范，数据多呈半结构化或无结构：高内 User～Agent域中往往会出现多个浏览器信息。涵．日志文件包含用户一次访问以及所使用设备的所有相关信息。此外，移动Web访问日志文件的属性相浏览器信息)的提取难点在于确定数据(浏览器)间的对更多，主要表现在IP、User—Agent等域。该域中，涉及层次结构及提取顺序。本文提出基于可视分析的层级到移动访问设备的品牌、操作系统，以及浏览器等信数据提取方法来解决上述问题．该方法同样适应其他息。领域层次数据的提取。首先．统计样本中所有字段信然而。一些域中的一条记录可能会出现代表某一息，建立相关数据字典：其次，通过数据字典对样本数属性的若干字段：这些同时出现的字段相互联系．又有据进行重新提取．并记录数据问的相关关系和出现频一定的从属关系：真正代表该记录该属性的字段只有万方数据