- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于网络问答社区专家排名算法分析
基于网络问答社区专家排名算法分析
摘要:问答社区已经成为网络上快速获取知识的重要途径之一。本文首先对问答社区的网络结构进行了分析,发现了它和一般社交网络结构的区别,同时总结出了该类社群用户的一些行为特征。然后利用Z-score、PageRank以及HITS等三个排名算法进行用户影响力排序来寻找社群的权威专家。最后,对三种方法的排名结果进行了分析,得出了群社网络结构对排名算法准确性的影响较大,并建立了不同算法的“最佳表现”网络模型。
关键词:问答社群;排名算法;Z-score;PageRank;HITS
中图分类号:TP314
文献标识码:A
DOI:10.3969/j .issn.1003 -69 70.2015.11.030
0 引言
诸如百度知道、Yahoo!等问答社区已经成为网络上快速获取知识的重要途径之一。但经过观察可以发现目前这些社区仍存在如下一些问题:
1.系统的开放性导致答案质量严重的参差不齐、难以区分。不但可能给出的是错误答案,甚至存在大量诸如广告等spam信息。
2.虽然存在用户反馈,但对于很多问题,特别是一些新问题的反馈信息不足,导致无法有效判断答案的正确性。
评估某个特定领域回答者的权威性并建立权威度排名,进而对用户进行专家推荐,这是解决上述问题的一个有效方法。专家推荐问题的形式化定义如下:
假设针对某个领域d的问答社区形成的基于消息的关系网络构成一个有向图Gd={V,E}。对于Gd中的每一点V,将所关心的该点的相关变量(诸如网络中心度、用户活跃度、用户互动程度等)设为w1,w2…,Wi,通过某一函数(算法)f,对其赋予权值,该权值称为Vk的影响力因子,设为IR:
IR(Vk)←f(w1,w2…,Wi)
最后将IR进行排名,找出:
Vmax=argmax{IR(V),V∈Gd)
对于上述问题,不少人已经做出很多研究,目前存在有很多影响力排序算法。但在对不同社群排序时,各种算法的准确性却很不稳定。本文研究的目的就是试图找到影响算法稳定性的原因。
1 网络构建
为了更好地说明如何创建问答社群的链接网络,以一个简单社群为例。如图左边子图所示,每一个问题都有一个提问者和一定数目的回答者。用顶点表示社群中的每一个用户,用户到问题的有向边表示该用户提出了这个问题,答案到用户的边表示该答案是由这个用户给出的。例如,用户2提出了问题2和问题3,但从没回答过问题;用户5回答了问题l和问题2,但从没提出过问题。
然后可以将上述关系转化到一个有向图中构建出链接网络,如图1右边子图所示。因此,一条有向边表示b回答过a提出的问题。
注意到,一般的社交网络是通过好友或关注构建的关系网络,而问答社群网络是一个消息网络。
2 排名算法
2.1 Z-score方法
这个方法基于这样一个经验,那就是:如果一个用户大量提问,那么证明他在该领域缺乏知识;同样的如果一个用户大量回答,则证明其具有该领域的内较强的知识。
假设某个id回答的问题数是a,提问的问题数q,总数n=a+q。假设一个“标准”用户回答和提出问题数相等,即q=a。那么定义z值:
z代表了一个id相对于“标准”用户的标准偏差的大小。很明显z0,说明该用户回答问题数多,反之说明其提问多。
2.2 PageRank算法
上述的方法均基于简单的统计知识。下面的PageRank和HITS两种链接分析算法基于的是问答社区构建成的关系网络。
可以把用于网页排名的PageRank算法原理应用到专家排名中,称为ExpertsRank算法。该算法的思想是:如果B能够回答A的问题,而C回答了B的问题,那么有理由提高C的权威度排名,因为C不但可以回答问题,而且他可以回答某些“专家”提出的问题。基本的算法描述如下:
假设用户UA回答了用户U1,U2,……,Un的问题,那么该用户的权威度IR(A)可以用以下公式表示:
IR(A)=(1一d)+d([IR(U1)]/[C(U1)]+…+[IR(Un)]/[C(Un)])
其中,C(Ui)表示帮助过Ui的用户总数;d为阻尼系数,值在O~1之间,它决定了算法的收敛速度。上述公式可以利用迭代方法计算。
2.3 HITS算法
HITS(Hypertext Induced Topic Selection)和PageRank方法类似,但做了如下改进:在计算时,同时考虑一个关系两端的结点的评分:hub score以及authority score。并做了如下假设:
假设1:一个“好”的提问者应该是那些经常被专家给予帮助的人,从而在网络图中有着较多的入度;假设2:一个“好”的专家
原创力文档


文档评论(0)