- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于IP地址招生信息访问量分析
基于IP地址招生信息访问量分析
摘 要:介绍了基于IP地址的定位技术。利用网站服务器Tomcat日志系统信息,根据网页URL筛选出访问招生计划信息页面的所有记录,使用IP地址查询接口服务,将访问记录中的IP地址按属地分类,得到各省市的访问量。结合各省市的招生计划数量,对该省市生源情况进行预测分析,为招生部门提供信息参考。
关键词:IP地址定位;Tomcat;日志系统;招生计划
DOIDOI:10.11907/rjdk.1511022
中图分类号:TP301
文献标识码:A 文章编号文章编号2015)012003802
0 引言
招生工作是学校重要工作之一,随着网络的发展,人们已经习惯从电子网站获取信息,因此招生计划信息页面浏览量对招生工作而言是一个重要的参考数据。针对这一需求,本文利用Tomcat后台日志系统记录的信息,编程实现了网页浏览量分析子系统。本系统虽是针对招生计划信息页面访问量开发,但也适用于所有网页的访问量分析。
1 IP地址定位技术
IP地址定位的基本原理是利用IP设备的名字、注册信息或时延信息等来估计其地理位置。最初的定位算法通过向DNS服务器查询或者挖掘隐含在主机名中的信息来推测IP设备的地理位置。之后,一些定位算法根据时延与地理距离之间的线性关系来估测主机位置,并通过拓扑信息来缩小定位误差[1]。随着移动互联网的发展,使用移动终端上网的人群成为主流,据CNNIC统计,截至2015年6月,我国手机网民规模达到5.94亿。借助GPS及移动基站,可以提供移动客户终端的精确位置,以提供更多的LBS服务。如果在PC机上安装无线定位装置,则可实现IP地址精确定位。
IP 地址先由IANA 机构进行分配,再由ICANN统一负责。IANA把IP地址分配给5个地域性的IP地址管理机构RIR,即ARIN(北美地区)、LACNIC(拉丁美洲)、RIPENCC(欧洲地区)、APNIC(亚太地区)、AFRINIC(非洲地区)。在RIR之下是国家级注册机构(NIR)、本地区注册机构(LIR)和网络运营商(ISP) [2]。IP地址分配后会在一定时间和地理范围内保持相对稳定,所以可以使用数据库技术建立起IP地址与实际地理位置的对应关系[3],这是目前比较成熟的IP地址定位技术。其优点是简单可行,缺点是定位精度低,且随着定位精度要求越高,准确率越低。省市级位置准确率在99%以上,算法准确率由IP地址库的质量决定。因为招生计划是按照省市级区域下达的,因此招生计划网页访问量分析系统要求客户端地理位置信息精确到省市级即可,本系统使用上述IP定位技术,准确率是有保证的。
2 系统实现
2.1 IP地址查询接口选择
淘宝、设计蜂巢、新浪、搜狐、谷歌、有道、1616、126、hao123、太平洋等公司均提供IP地址查询接口,将IP地址映射为地理位置。IP地址库的质量决定了IP地址定位准确度、精度。参考文献[4]研究了两个国外的IP地址库(GeoLite2 和IP2Location lite) 和4个国内的IP 地址库( 淘宝IP地址库、新浪IP地址库、百度IP地址库、纯真IP地址库)的可信度。认为在4个国内主流的IP地址库中,无论是从覆盖率还是重合率来看,百度IP数据库可信度最低,淘宝IP地址库的可信度最高[4]。本文采用淘宝IP地址库,因为其提供国家、省、市、县、运营商全方位信息,信息维度广,格式规范;提供完善的统计分析报表,省级覆盖度为99.95%,准确度超过99.5%,数据质量有保障[5]。
2.2 IP地址定位时间选择
IP地址定位分为线上和线下两种。线上即在访问网页时进行IP地址定位,此时访问现场信息完整,在返回网页内容前,可以依据获取的客户端IP地址,借助IP地址库实时进行IP地址定位,将结果写入数据库或显示到页面。其优点是实时性好,缺点是会降低网页访问速度,此时如果使用淘宝IP地址接口服务会使得网页访问速度变得更慢,这时,一般会使用纯真IP地址库,将qqwry.dat下载到本地再进行编程转换。线下即在访问网页时,仅将必要的客户端信息(如IP地址、页面URL等)写入Tomcat日志文件,即刻返回网页内容,日后在需要进行分析时,再进行IP地址定位。其优点是只需对Tomcat进行必要配置,网页访问时不需执行额外的程序,利于网站稳定运行,且对网页访问速度影响不大。缺点是日后还需从数十万条日志记录中搜索招生计划网页条目,会花费一定的线下处理时间。鉴于在招生计划页面上显示访客位置信息对访客没有意义,且为了网站稳定运行,尽可能提高网页访问速度,本系统采用线下IP地址定位方式。
2.3 技术路线
开启设置tomcat日志系统,使用
文档评论(0)