我们的估算到底有多准确.PDFVIP

下载本文档

8
0
约2.72万字
约 19页
2019-03-01 发布于天津
举报
版权申诉

我们的估算到底有多准确.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

我们的估算到底有多准确

第３章我们的估算到底有多准确３１　简介和大多数应用研究相似，在可用性测试中，我们几乎从来都不会覆盖整个用户总体。取而代之的是，我们会依赖取样并通过样本来估算未知总体的值。如果我们想要知道用户需要多久才能完成任务，或是百分之几的用户能在第一次尝试时就完成任务，都需要根据样本来进行推断。样本的比例（也叫统计数据）和平均数是我们真正想要的数据———总体参数（ｐｏｐｕｌａｔｉｏｎｐａｒａｍｅｔｅｒ）———的估算值。当我们在缺失用户总体数据的情况下进行估算时，即便得到最好的估算结果也只能接近但并不能得到真实结果。而且样本的量越小，结果的准确性就越差。我们需要一种方法来判断估算到底有多准确才行。于是，我们将在一定概率下包含未知总体参数的这部分数值区间提取出来，这个范围就叫做置信区间。举例来说，你上班平均要花多少时间？假设你没有远程办公，即使是最接近的猜测（好比说，２５分钟）也会和真实的结果相差几秒或几分钟。所以，提供一个区间范围的话会更恰当一些。例如，你可以说大多数时候会用２０～３０分钟的时间去上班。３１１　置信区间＝误差幅度的两倍如果你曾留意过电视节目播出的投票结果和误差幅度，那置信区间对你来说就不是一个陌生的概念。置信区间的使用和误差幅度如出一辙。实际上，置信区间正好是误差幅度的两倍。如果你了解到投票的人中５７％都有可能赞成提案立法（９５％ ±３％的误差幅度），那么置信区间就是６个百分点的宽度，在５４％和６０％之间（５７％－３％和５７％＋３％）。在前面的例子中，问题是有关赞同与否，投票者只需要二选一——— “赞同”或 “不赞同”。这可以被编码为完成率（０和１），并且我们还可以用相同的方式来计算置信区间和误差幅度。２０ ◆　第３章　我们的估算到底有多准确３１２　置信区间提供了精确度和位置置信区间不仅提供了测量精确度的方法，还让我们能够有效地定位。接着上一个例子来讲，我们知道平均支持率是５７％。我们也可以判断说这个预测是相对精确的。如果想知道是否大部分投票者都赞同提案，我们可以看到少于一半的投票者赞同的可能性很小（小于２５％）。精确度当然是相对而言的，如果另外一轮投票的误差幅度是±２％，它的精确度会更高（并且有更窄的置信区间），一个误差幅度为１０％的投票当然就不那么准确了（它的置信区间自然也就会越宽）。一部分用户研究员会发现自己需要就公众对政府的意见进行调研，而调研中涉及的概念和数学公式，与我们创建的完成率相关的置信区间研究是一模一样的。３１３　置信区间的三个组成部分影响置信区间宽度的三个要素分别是：置信度、变异性和样本量。置信度置信度同其字面上的意思，举例来说，９５％的置信水平就是在一个９５％的置信区间中的覆盖度。在电视民意调查中，这一部分通常会从误差幅度的报道中被省略。置信度为９５％（通常使用的值）意味着如果从同一个总体中采样１００次，区间中将有９５次会包含真实的平均数或比例。实际上，置信区间的范围通常会在声称的指标上下浮动（后面会有更详细的讨论）。虽然一个研究员可以选择０％～１００％之间任何数值的置信度，通常使用中都是将其设为９０％或９５％。变异性如果在一个总体中有较多的变异量，每一次的取样都可能会对结果产生较大波动进而制造一个较大的置信区间。总体中的变异是通过计算样本的标准偏差来估计的。样本量在不降低置信度的前提下，样本量是唯一一个研究员可以主动调整并影响置信区间宽度的因素。置信区间宽度和样本量之间是一个逆平方根的关系。这意味着如果你想要将误差幅度降低一半，需要将样本量翻两番。例如，如果你的误差幅度在样本量为２０的时候是±２０％，那么你需要样本量达到８０才能达到误差幅度为±１０％。３２　完成率的置信区间可用性的一个最基本度量指标就是用户是否能够完成某项任务。通常将之编码为一个二选一的答案：１表示成功的尝试，０表示失败的尝试。这在我们眼里和那些只有Ｙｅｓ或Ｎｏ的问