[WEB日志的作用和缺陷.docVIP

下载本文档

1
0
约3.28千字
约 6页
2017-01-06 发布于北京
举报
版权申诉

[WEB日志的作用和缺陷.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

[WEB日志的作用和缺陷

WEB日志的作用和缺陷　　Avinash Kaushik将点击流数据的获取方式分为4种：log files、web beacons、JavaScript tags和packet sniffers，其中包嗅探器（packet sniffers）比较不常见，最传统的获取方式是通过WEB日志文件（log files）；而beacons和JavaScript是目前较为流行的方式，Google Analytics目前就是采用beacons+JavaScript来获取数据的，我们可以来简单看一下传统的网站日志和beacons+JavaScript方式各自的优缺点： WEB日志文件　　优势：简单方便，不需要修改网页代码，可以自定义日志格式；较多的现成的日志分析工具的支持（AWStats、Webalizer等）；获取网络爬虫数据的唯一途径；可以收集底层数据供反复的分析。　　缺陷：数据的质量较低，网站日志包含所有日志数据，包括CSS、图片、脚本文件的请求信息，所以过滤和预处理来提升数据质量必不可少；页面缓存导致浏览无日志记录，这个是比较致命的。 beacons+JavaScript 　　优势：只需要在页面代码中操作，不需要配置服务器；数据的获取有较高的可控性，可以只在需要统计的页面植入代码；能够获取点击、响应等数据；不需要担心缓存等的影响，数据的准确度较高；可用第三方cookie实现多网站跟踪比较。　　缺陷：当浏览器禁止接收图片或者禁用JS时，都可能导致数据获取的失败；只在应用服务层操作，无法获取后台的数据；对图片、文件等请求信息的获取难度相对较大；过多地JS可能导致页面性能的下降，虽然这方面的影响一般可以忽略。无论通过何种方式，最终数据都是通过日志文件来记录的，只是通过JS可以更容易控制想要获取的数据，并通过在URL带参数的方式记录到日志文件中共解析和统计。所以底层的数据形式无非就是记录在日志文件中的那几项，在WEB日志格式一文中，已经对网站日志的类型和组成做了基本的介绍，这里就再来解析下WEB日志中各项对网站数据分析的作用，以及存在的不确定性和缺陷。 WEB日志中各项的作用　　根据WEB日志的组成，下面来介绍下各项在网站数据统计和分析中的作用。其中IP一般在为记录cookie的情况下被用于识别唯一用户的标准，标识符和授权用户一般情况下都为空，而日期时间标识日志生成的时间戳，是一个必备信息。请求（request）　　请求类型比较少会被用于统计，只有少数的统计表单提交情况是会被用到，而版本号对统计来书基本是无用的。　　请求的资源一般跟域名（domain，一般在包含子域名需要分开统计，或者多个站点的日志被收集到同一日志服务器是，会在网站日志里面自定义加入域名信息以区分）一起决定本次请求的具体资源，页面点击、图片获取或者其他。当然在URL后面加入一些自定义的参数可以获得一些特殊的统计数据，Google Analytics就是通过这种方式实现session和cookie的定义和获取的。状态码（status） ?　　状态码比较常被用于一些请求响应状态的监控，301页面重定向或者404错误，统计这些信息可以有效地改进页面的设计，提高用户体验。传输字节数（bytes）　　也比较少被用到，可以判断页面是否被完全打开，文件是否已被读取，操作是否被中断。但在动态页面无法判断。来源页面（referrer）　　referer涉及的统计较为常见，一般是统计访问的来源类型、搜索引擎、搜索关键字等；同时也是点击流中串连用户访问足迹的依据。用户代理（agent）　　识别网络爬虫；统计用户的系统、浏览器类型、版本等信息，为网站开发提供建议，分析各类浏览器的使用情况和出错概率等。 session和cookie 　　关于session和cookie，可以参考session和cookie的辨析。session被用于标识一个连续的访问，用户统计visits这个度量；而cookie主要用于用户识别，也是统计Unique Visitor的依据。　　另外还有一种特殊的网站日志，即记录服务器的提示、警告及错误信息，这类日志可以被用于分析用户的错误。日志的不准确性　　WEB日志在技术层面的获取方式及各类外部因素的影响使基于网站日志的数据分析会存在许多的不准确性，下面来介绍下WEB日志中那些项目可能造成数据的不准确，以及造成这些缺陷的原因。客户端的控制和限制　　由于一些浏览网站的用户信息都是有客户端发送的，所以用户的IP、Agent都是可以人为设置的；另外cookie可以被清理，浏览器出于安全的设置，用户的可以在访问过程中限制cookie、referrer的发送。这些都会导致用户访问数据的丢失或者数据的不准确，而这类问题目前很难得到解决。缓存　　浏览