量化用户研究-Jeff Sauro.docxVIP

下载本文档

13
0
约8.17千字
约 10页
2017-11-15 发布于河南
举报
版权申诉

量化用户研究-Jeff Sauro.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

量化用户研究-Jeff Sauro

什么是用户研究?　　对于一个如此简单的术语，“用户研究”对于不同的人意义也是不同的。对于用户研究中的“用户”，Edward Tufte(Bisbort，1999)有一句名言：“只有两个行业把他们的顾客称作用户：计算机设计(译者注：computer design)以及贩毒。”　　本书关注的是前者的用户。这里的用户可以是一个付费顾客、内部员工、物理学家、呼叫中心处理员、汽车司机、手机拥有者或是任何试图去完成某个目标的人——尤其是那些涉及到软件、网站以及机器设备的目标。　　这里的“研究”宽泛而又模糊——它是以其为核心的方法和专业人员融汇的结果。Schumacher(2010,p.6)提出了以下的定义：　　用户研究是对于用户目标、需求和能力的系统研究，它的目的是为了给设计、架构或改进工具来帮助用户更好的工作和生活。　　相比起这个词语的定义以及它包含的内容，我们更关心如何量化用户的行为，因为这涉及到可用性相关专业人士、设计师、产品经理、营销人员以及开发者。　　用户研究中的数据　　尽管“用户研究”这个说法最终可能会失宠，但是它其中产出的数据却不会。贯穿本书，我们将把重点放在可用性测试，使用一些来自可用性测试、用户调查、A/B测试以及实景调研的案例。之所以把重点放在可用性测试上，是有以下三点原因：　　可用性测试依然是判别用户是否在完成任务的核心方法。　　作者均执行过大量的可用性测试并对其有着很多论述。　　可用性测试用到了许多其他用研方法所涉及到的指标。(比如到处都能看到的“完成率”)。　　可用性测试　　可用性有一个国际标准:ISO 9241 pt.11(ISO,1998)，其中把可用性定义为：在具体的使用场景下，一个产品能帮助具体用户有效果、有效率并满意地达到一个具体目标的程度。尽管没有方法来衡量效果、效率以及满意度，一项09年针对将近100个总结性可用性测试的大型调查(Sauro和Lewis,2009)发现了执行测试的人一般能收集到的内容。大部分的测试包含了一些组合，这些组合包括：完成率、错误、任务时间、任务级别满意度(译者注：task-level satisfaction)、测试级别满意度(译者注：test-level satisfaction)、帮助途径以及可用性问题列表(一般包含频率和程度)。　　总体上来说，有两种可用性测试：找到并解决可用性问题(形成性测试)(译者注：formative tests)和用指标描述一个应用的可用性(总结性测试)(译者注：summative tests)。这里的“形成性测试”和“总结性测试”两个术语来自教育界(Scriven,1967)用于描述学生学习水平测试时用到的类似方式(“形成性”——提供即时的反馈来改进学习方式以及“总结性”——评估学到的内容)。　　大多数的可用性测试属于总结性的。它们通常是一个小样本量的定性活动，在其中问题描述以及设计建议是以数据的形式输出的。你的目标是发现尽可能多的问题并找到解决方案，但是这并不意味着没有定量什么事。你可以从频率、程度的角度量化问题，追踪哪些用户碰到了哪些问题，衡量一下他们完成任务花费的时间，判断一下他们是否成功的完成了任务。　　通常来讲有两种典型的总结性测试：基准测试以及比较测试。基准可用性测试的目标是描述一个应用相对于一系列基准来说的可用程度。在基准测试里你可以提出一个界面中需要修复的问题并且它也提供了用于比较设计后改变的一条基线。　　比较可用性测试，就像他的名字一样，这可以是比较同一个产品的不同版本，也可以是比较几个竞品。在比较测试中，同一个用户可以在所有的产品上尝试完成任务(主题下的设计)，或者不同组的用户可以试验各个产品(主题间的设计)。　　样本量　　对于样本量有一种错误的观点认为必须越大越好，这样才可以让数据精确可使用并量化成可用数据。我们将在第6.7章中深入探讨这个问题，并且在本书中，我们都将展现给你如何在样本量小于10的情况下获得有效的数据结果。不要让你的样本量(哪怕你只有2到5个用户)阻碍你使用统计信息来量化数据并指导最终的设计方案。　　代表性和随机性　　和样本量能够扯上些关系应该算是样本的构成。对于一个小样本经常会有人担心它不够有代表性。样本量以及代表性其实是不同的概念。你可以建立一个数量只有5但是能够代表人群的样本，你也可以建立一个样本量高达1000但是并没有什么代表性的样本。有关这两个不同概念最著名的例子之一便是1936年《文学文摘》(译者注：Literary Digesst)做的关于总统候选人民意调查。这本杂志调查自己的读者倾向于投票给哪位候选人并收到了240万份结果，但是最后却预测错了大选结果。这里面问题不在于样本的大小而在于样本的代表性。而《文学文摘》收到回复的人群大多是高收入高学历人群——显然并不能够代表所有人。(详见wiki)