設计您的数据分析,做比简单原始计数更多的事.docVIP

下载本文档

0
0
约1.63万字
约 25页
2017-01-17 发布于重庆
举报
版权申诉

設计您的数据分析,做比简单原始计数更多的事.doc

1、本文档共25页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

設计您的数据分析,做比简单原始计数更多的事

developerWorks 中国????Web development?|?Linux?? 用 PHP 使 Web 数据分析进入更高境界设计您的数据分析，做比简单原始计数更多的事 Paul Meagher (paul@), CEO, Datavore Productions 2003 年 12 月 01 日更新 2004 年 4 月 08 日对 Web 数据进行有效和多层次的分析是许多面向 Web 企业能够生存的关键因素，数据分析检验的设计（和决策）通常是系统管理员和内部应用程序设计人员的工作，而他们可能除了能够把原始计数制成表格之外，对统计学没有更多的了解。在本文中，Paul Meagher 向 Web 开发人员传授了将推论统计学应用到 Web 数据流所需的技能和概念。动态网站不断生成大量的数据 — 访问日志、民意测验和调查结果、客户概要信息、订单及其它，Web 开发人员的工作不仅是创建生成这些数据的应用程序，而且还要开发使这些数据流有意义的应用程序和方法。通常，对于由管理站点所产生的不断增长的数据分析需求，Web 开发人员的应对是不够的。一般而言，除了报告各种描述性统计信息之外，Web 开发人员并没有其它更好的方法来反映数据流特征。有许多推论统计步骤（根据样本数据估计总体参数的方法）可以被充分利用，但目前却没有应用它们。例如，Web 访问统计信息（按当前所编辑的）只不过是以各种方式进行分组的频率计数。以原始计数和百分比表示民意测验和调查结果的情况比比皆是。开发人员用比较浅显的方法处理数据流的统计分析或许已经足够了，我们不应期望太多。毕竟，有从事较复杂的数据流分析的专业人士；他们是统计师和受过训练的分析师。当组织需要的不仅仅是描述性统计时，可以请他们加入。但另一种应对是承认对推论统计学日益加深的了解正成为 Web 开发人员工作描述的一部分。动态站点正在生成越来越多的数据，事实表明，设法将这些数据变成有用的知识正是 Web 开发人员和系统管理员的责任。我提倡采取后一种应对；本文旨在帮助 Web 开发人员和系统管理员学习（或重温，如果知识已遗忘的话）将推论统计学应用到 Web 数据流所需的设计和分析技能。使 Web 数据与实验设计相关将推论统计学应用到 Web 数据流需要的不仅仅是学习作为各种统计检验基础的数学知识。将数据收集过程与实验设计中的关键差别关联起来的能力同样很重要：测量尺度是什么？样本的代表性如何？总体是什么？正在检验的假设是什么？要将推论统计学应用到 Web 数据流，需要先把结果看作是由实验设计生成的；然后选择适用于该实验设计的分析过程。即使您可能认为将 Web 民意测验和访问日志数据看作实验的结果是多此一举，但这样做确实很重要。为什么？这将帮助您选择适当的统计检验方法。这将帮助您从收集的数据中得出适当的结论。在确定要使用哪些适当的统计检验时，实验设计的一个重要方面是选择数据收集的衡量尺度。回页首衡量标准的示例测量尺度只是指定了一个对所感兴趣的现象分配符号、字母或数字的步骤。例如，千克尺度允许您给一个物体分配数字，根据测量仪器的标准化的偏移量指示该物体的重量。有四种重要的衡量标准：定比尺度（ratio）— 千克尺度是定比尺度的一个示例 ? 分配给物体属性的符号具有数字意义。您可以对这些符号执行各种运算（如计算比率），而对于通过使用功能不那么强大的衡量标准获得的数值，您不能使用这些运算。定距尺度（interval）— 在定距尺度中，任意两个相邻测量单位之间的距离（也称为间距）是相等的，但零点是任意的。定距尺度的示例包括对经度和潮汐高度的度量，以及不同年份始末的度量。定距尺度的值可以加减，但乘除则没有意义。定序尺度（rank）— 定序尺度可应用于一组有顺序的数据，有顺序指的是属于该尺度的值和观察值可以按顺序排列或附带有评级尺度。常见的示例包括“好恶”民意测验，其中将数字分配给各个属性（从 1 = 非常厌恶到 5 = 非常喜欢）。通常，一组有序数据的类别有自然的顺序，但尺度上相邻点之间的差距不必总是相同的。对于有顺序的数据，您可以计数和排序，但不能测量。定类尺度（nominal）— 衡量标准的定类尺度是衡量标准中最弱的一种形式，主要指将项目分配给组或类别。这种测量不带数量信息，并且不表示对项目进行排序。对定类尺度数据执行的主要数值运算是每一类别中项目的频率计数。下表对比了每种衡量标准的特征：衡量标准尺度属性具有绝对的数字含义吗？能执行大多数数学运算吗？定比尺度是。是。定距尺度对于定距尺度是这样；零点是任意的。加和减。定序尺度不是。计