去芜存菁小议社交媒体分析学中数据质量问题.docVIP

去芜存菁小议社交媒体分析学中数据质量问题.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
去芜存菁小议社交媒体分析学中数据质量问题

去芜存菁小议社交媒体分析学中数据质量问题   近十余年来,社交媒体的发展日新月异,并通过不同的渠道,以不同的形式,为我们认识、分析和解决众多社会经济问题提供了海量、丰富的数据,社交媒体分析学(social media analytics)由此应运而生。社交媒体分析学主要通过采集各种类型的社交媒体数据,使用文本分析、数据挖掘、机器学习及计量统计等方法,来发现、描述并解释基于传统数据和方法不易发现和认识的规律。社交媒体分析学在各个领域取得了长足的进展,旅游管理也不例外。近年来使用社交媒体数据的研究纷纷涌现,涵盖旅游及酒店业各领域,涉及游客满意度、旅游目的地形象、酒店收入业绩分析等问题,不一而足。其研究对象、数据使用和分析方法可谓千姿百态,为旅游管理提供了前所未有的想象空间。   与实验法、问卷调查法等传统研究方法相比,社交媒体分析学的数据来源和构成不是由研究者预先设计而生成的,而是使用现成的二手数据。用Agarwal和Dhar的话来说,社交媒体数据总是“不完美的”。形象地说,社交媒?w分析学在方法论上是一个吹糠见米的过程,即通过不完美的数据找到尽可能接近现实的答案。目前,社交媒体分析学尚处在初级阶段,近年来,Ruths、Pfeffer和Tufekci等社会科学领域的研究人员对这种以数据为基础的新研究范式提出了越来越多的批评,特别是对数据来源及数据本身的可靠性和合法性存有质疑。鉴于此,本文旨在介绍社交媒体作为研究数据的一些常见的质量问题,并针对性地探讨旅游社交媒体研究中存在的潜在问题和挑战。   社交媒体数据质量的不完美是指什么?所谓完美和不完美,对研究者来说是一个相对的概念。如果研究的目的是为了认识社交媒体本身的基本特征和规律,则社交媒体数据的不完美和造成这些不完美的原因正好为这些问题的探讨提供了“完美的”观察。但是,如果研究的目的是为了认识或发现数据中能够代表特定人群的基本特征和规律,则不完美的数据会对研究的合法性造成影响。比如,用“谷歌趋势”的数据预测人群中流感爆发的不准确,就是由于过高估计数据中非相关的搜索关键词导致的。   那么,社交媒体数据质量的不完美是什么原因造成的呢?表现在哪些方面?要认识这个问题,必须理解社交媒体作为信息平台的本质。   首先,尽管几乎所有的社交媒体都能为消费者提供值得信赖、可以共享的社会知识,然而每个社交媒体平台本身都是反映不同社会、文化和经济价值取向的复杂技术系统,从形式和内容上讲可谓千姿百态。例如,作为微博平台,Twitter在信息的生成传播和虚拟社交网络的动态演变上有其独有特征;在旅游在线平台中,TripAdvisor属于开放式的网站,而Expedia只对在该网站有购买经历的消费者开放网评功能。从这个意义上讲,不同社交媒体往往代表不同的消费者市场和特定的商业模式,其数据的代表性很大程度上取决于采集数据的平台本身的特征。因此可以说,社交媒体数据质量有潜在的平台偏见。   其次,社交媒体个人用户也是造成数据不完美的重要原因。以网评为例,最近Streitfeld在《纽约时报》的一篇文章引用了一位评论人的话,认为产品的网评和打分往往是由“处于网络底层的粉丝、仇恨者和操纵者”贡献的,因而我们不应该对它们有过高的期望。Mkono和Tribe在Journal of Travel Research的一篇文章中谈到,旅游产品在线评论网站的用户不仅仅是评论人,而且往往扮演了其他重要的角色,比如活动家、社会精英,甚至恶搞者。从这个意义上讲,参与社交媒体的人群本身就具有“选择性偏见”。Stephens-Davidowitz的研究发现,在与Facebook类似的社交网站上,人们更倾向于分享“成功、富有、有吸引力、悠闲、聪明以及快乐”的经历,但是这并不能够代表大多数人的生活经历。此外,社交媒体数据尤其是在线网评数据不可避免地存在一些错误信息,比如拼写或输入错误。因此可以说,社交媒体数据可能存在各种各样的用户偏见。   第三,除了个人用户外,社交媒体的使用者还包括以营销为主要目的的商家,因此这些数据是否都是由真正的消费者生成值得怀疑。例如,Anderson和Simester发现在某零售商网站上,很大一部分网评是由完全没有购买该产品记录的“用户”提交,因此推断这些所谓的网评其实是商家雇佣的“水军”所为。同时,这些网评往往偏于负面,在语言特征上与虚假广告类似。已有不少研究确认,某些商业利益会导致网评中参杂一定数量的垃圾信息,甚至是完全不实的信息。   由此可见,社交媒体数据是平台、个人用户和商家互动的结果。在更大范围内讲,社交媒体还受各种社会、政治、经济和文化等大环境的影响。例如,社交网络实名制的实施会对群体行为造成一定的影响。这些因素都会影响数据的真实性、可信性和代表性。笔者认为,目前旅游社交媒体分析研究

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档