问题回答者推荐算法汇报.ppt

下载文档 降价啦

9
0
约2.93千字
约 22页
2016-03-28 发布于湖北
举报
版权申诉
保障服务

问题回答者推荐算法汇报.ppt

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《互动问答系统中问题回答者推荐研究》 ——相关介绍问题回答者推荐算法组成用户兴趣模型用户专长模型用户活跃性预测模型用户兴趣模型查询似然语言模型计算用户对新问题的感兴趣程度。如果组成某个问题的词汇与用户已回答问题集中的词汇具有较大相似度，则表明用户对该问题可能具有较高兴趣。公式定义用户ui对问题qr的兴趣度可定义为用户ui 已回答的问题集中生成问题qr，即：用户兴趣模型 E(ui,qr)表示用户ui对新问题qr的兴趣度； P(qr|θQr(ui))表示用户ui已回答问题集Qr(ui)的语言模型 θQr(ui)下，qr的查询似然度；语言模型θQr(ui)的估计，即P(w|θQr(ui))的估计使用最大似然法对模型参数进行估计，可得语言模型θQr(ui)的最大似然估计为：用户兴趣模型其中，c(w,Qr(ui))表示词项在问题集Qr(ui)中出现的次数，|Qr(ui)|为问题集的长度（问题集中词汇的总数）。查询似然度： P(qr|θQr(ui)) 采用多项式分布模型构建用户已回答问题集的语言模型。即把查询看成多项随机试验的结果序列，语言模型中的每个词项w对应于一个多项随机变量。多项式模型下的查询似然P(qr|θQr(ui))是一个多项分布，即: 用户兴趣模型对于qr=w1w2…wm: 其中，c(w,qr)表示词项在问题qr中出现的次数。用户兴趣模型改进一如果问题qr中只要有一个词汇没有在用户ui已回答问题集Qr(ui)中出现，那么P(qr|θQr(ui))=0，表示用户ui对qr 不感兴趣，这是不合理的。为此，引入数据平滑技术(Jelinek-Mercer平滑方法), 用户兴趣模型加入整个问题数据集的语言模型，进行线性插值。改进后的公式为：其中，λ是平滑参数， λ∈[0,1]。如果qr中的词汇在 ui已回答问题集中，则λ=0；如果qr中的词汇不在ui已回答问题集中，则λ=1，c(w,C)表示词汇w在所有已回答问题集中出现的次数，|C|表示为所有问题集的长度。用户兴趣模型用户兴趣模型改进二在实际问答社区中，一个用户回答过的问题通常较少，由于观察到的数据不够，可能难以准确获取到用户的兴趣。为此，采用对用户进行聚类。在推荐用户回答问题时先从用户类别着手，从而形成用户群已回答问题集。改进好处：大幅增加观察数据量大小，更确切的获取用户的兴趣。构建用户群的已回答问题集的语言模型所花的时间要小于构建用户已回答问题集的语言模型所花的时间。用户兴趣模型聚类步骤利用TF-IAF构造向量空间模型（VSM）； TF:问题类别i在用户j已回答问题集中出现频率 IAF:全部用户中，回答过该类问题的用户数倒数其中N表示用户总数，ni表示所有用户中，回答过类别i问题的用户数。 VSM表示用户Uj=(w1j,w2j, …,wmj)，m为问题类别个数用户兴趣模型加入社会网络分析，利用Jaccard coefficient方法计算用户相关系数，得到矩阵J（具体计算步骤参考论文）；将Uj乘以矩阵J，得到更新后的用户模型（VSM）；计算用户间的相似度，采用K-means方法，把用户分成k类；用户兴趣模型用户聚类后的查询似然度P(qr|θQr(ui)) 唯一变化的是用户已回答问题集的语言模型θQr(ui)变成用户群已回答问题集的语言模型θQr(Cluster(ui))。用户专长模型用户专长分析用户兴趣模型将新问题qr推荐给那些对其感兴趣的用户，但是没有考虑这些用户回答新问题qr 的答案质量，即仅考虑了用户的“兴趣”，没有考虑用户的“专长”。公式定义在用户兴趣模型的基础上加上用户专长模型，用户模型变为：用户专长模型其中，Q(ui,qr)表示用户回答问题qr的答案质量的估计，α ∈[0,1]是权重系数，α越小，说明用户专长模型对推荐用户影响越小。 Q(ui,qr)估计采用用户已回答问题答案质量的加权平均来估计待推荐用户对新问题答案的质量。其计算方法如下：用户专长模型其中，q为用户ui已回答问题Qr(ui)中的问题；sim(q,qr) 表示两问题的余弦相似度。 Q(ui,q)估计 Q(ui,qr)估计中的Q(ui,q)表示用户已回答答