- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
社会网络中数据缺失的影响
Gueorgi Kossinets
摘要:本文进行了估测数据缺失对社会网络结构特征的影响敏感度分析。社会网络被假定为由二分图产生,图中实验者通过多种交流情境或关系进行互相联结。我们讨论三种主要的数据缺失机制:网络边界规范不包含实验者或关系),调查无应答以及顶点度删失固定选择设计),介绍它们对来源于洛斯阿拉莫斯实验室数据库的科学合作网络和随机二分图的影响。模拟的结果显示网络边界规范和固定选择设计能够大幅改变网络层面统计量的估计值。观察得到的聚集系数和匹配系数因关系的疏忽或固定选择其中而导致估计过高,而通过实验者无应答则是估计太低,从而造成扩大了测量误差。我们也发现包括多种交流情境的社会网络因交叉团体的存在而显示一些有趣的特征。特别指出的是,与现有理论不同,度数匹配性不能提高网络鲁棒性从而随机遗漏网络代码。
关键词:数据缺失;敏感度分析;图表理论;协作网络;二分图
1 引导语
社会网络并不是完整的,意味着一些参与者或关系会从数据集中缺失。在正常的社交场景中,大多数的不完整性是由以下原因出现的:所谓的边界问题(Laumann et al.,1983,错误性应答(Bernard et al., 1984。 Brewer andWebster, 1999。 Marsden,1990。 Butts, 2003。网络调查中的无应答(Stork and Richards, 1992。 Rumsey,1993。 Robins et al., 2004。或者可能通过研究设计而造成(Burt, 1987。数据缺失机制混合出现也可能发生。尽管实践研究中数据缺失比较常见,但只有少量文献研究联系或代码缺失可能对于整体网络中可衡量特征引起的影响。尤其是,鉴于最近的研究进步使得一系列的网络模型开始注意跨学科研究,1970-1980s之间的原始工作内容似乎是非常恰当。
本文主要目标在于关注社会网络分析中数据缺失问题。一种处理方法是抓住全球统计学的趋势而不依靠个人交流开发分析技术。(Rapoport and Horvath, 1961。另一补充性战略是研发数据缺失影响最小化的补救措施(Holland and Leinhard, 1973。 Robins et al., 2004。尽管本文并不提供最终的统计学方法,但是会进行此方面的实验性分析以及倡导进一步研究的重要性。我们使用统计量模拟方法以量化由数据缺失引起的不确定性和评估图指标的敏感性,例如平均顶点度,聚集系数(Newman et al., 2001,度相关系数(Newman, 2002,最大连通成分的规模和平均道路长度。本文的科学协作图来源于洛斯阿拉莫斯实验室数据库中1995-1999年“凝聚态物质”部分所包含的作者和论文(Newman, 2001)。选用此例来进行包含多种交流情境的社会网络一般情况下的统计量讨论。因为数据集规模有限,数据统计量可能置信区间较小。结果用于与随机二分图的情况进行比较。
文章的组织结构如下。第二部分主要是关注社会网络研究中缺失或错误数据的来源。我们讲包含多种交流场景的社会网络中的边界规范问题形成一个二分图,在图中,实验者通过各种关系或者协作进行相互联结。我们讨论社会网络研究中无响应和无交互问题以及由问卷调查设计所引起的度截止偏差。第三部分主要描述用于调查数据缺失对网络特征影响的相关网络统计量,数据集和模拟算法。第四部分主要呈现结果,而第五部分总结研究发现。
2 社会网络数据缺失的来源
2.1 边界规范问题
边界规范问题是指在网络研究中指定参与者或联系之间包含的规则见图1)。例如,组织内网络的研究者总是忽略导致与外部组织无数的关系,推断这些关系与组织的作业与运营不相关。一个经典的案例则是电线库室BankWiring Room)的研究,主要关注的是一家电子厂中总机生产区的14名工人。研究中所得的社会计量数据已被广泛分析,但是电线库室之外的交流对于工人行为和工作绩效的影响是未知的,很难被测量。假使所处社区隔离于其它世界之外例如Sampson的修道院),那么能够在一定程度上避免边界问题。然而,大体说来,网络封闭是人为的研究设计,例如网络边界任意定义的结果。大多数包含了在组织成员或位置规范正式定义基础上的社会网络,都被描述为在一个正式成立组织中所占据的排名位置。例如,100位最著名的政客或者500家一流的企业。当研究者选择社会网络中所包含的规则时,应通过此研究所包含的所有可能网络进行非概率抽样。网络中的动态变化加剧了问题的产生。由Laumann et al. (1983所提倡的方法是关注可衡量的交流。网络边界因此被描述为在一个固定场景中记录的人与人之间的交流。这种方法直到最近才用于小型网络的研究,来源于邮件交流或虚拟交流的大型规模社会交流数据也被接纳采用。交流场景
文档评论(0)