.排名建模.pptVIP

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
排名建模

基于类比推理方法的算法总结 1.实验阶段: 输入:所有的用于问答对语料 输出:BLR模型参数 和先验值 算法:a. 使用公式(1)在语料上建立BLR模型 b. 使用公式(2)得出先验值 2. 测试阶段: 输入:一个问题,有多个候选答案 输出:答案评分排序 算法:a. 计算得到问答矩阵 b.使用公式(3)得到一个支撑数据集 c.获得 d. 使用(4)算每个候选问答对的相关度 e. 对答案排名,最高分者为最好的答案 评估数据来源:从雅虎网站上下载2980万个问题,在答案网站上,每个问题平均有15.98个答案,这些答案上都有用户评价为“最佳答案”的标志。从中挑选两百万个问答对来做评估测试。 评估方法: a. 前k项的平均正确率 b. MRR (Mean Reciprocal Rank):第一个相关答案排 名的倒数 对比方法:NN (the Nearest Neighbor Measure) COS (the Cosine Distance Metric) BSets (Bayesian Set Metric) 4. 评估效果 红色代表文章的方法,可以看出这种方法表现最好 4. 1测试结果 1. 使用前k项正确率方法: 可以看出,和前面的结果一样,本文所提出的这种方法表现最好 4. 1测试结果 1. 使用MRR方法: Method MRR NN 0.56 BSets 0.67 Cosine 0.59 Our Method 0.78 4. 2 参数的影响 下图反映了,在使用MRR方法评估时,两项参数的变化对结果造成的影响 对此图分析,发现当参数分别取0.6和0.8时,效果最好 社区问答网站中答案质量良莠不齐,以前的做法主要关注找到更好的特征或者通过机器学习方法找到文本线索,而没有考虑使用已有知识和考虑问题答案之间的潜在联系。 本文探讨了分析问答对之间的潜在联系,采用一个支撑数据集合来利用已有知识给答案排名。评估结果说明这种方法对于已有的基于结构排名方法是一个很好的补充。 将来希望能够探索一种分析内容的潜在联系方法,进一步提高效果。 5. 结论 * Company Logo Company Logo Ranking Community Answers by Modeling Question-Answer Relationships via Analogical Reasoning (通过类比推理方法建立问答关系模型 对社区答案排名) SIGIR 09: Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval 文章框架 1.简介 Community question-answering(CQA) sites 社区问答网站,近几年非常流行,成为人们寻找答案和提供答案的重要场所。例如Yahoo Answer在世界范围内有1.2亿用户,上面可以找到4亿个答案。 CQA网站的一个典型特点是:每个人都能在任何问题上给出答案。这导致每个问题都会有很多不同的答案。从而引发一个问题…… 这些答案都是正确的么? 如何找出哪些是能让用户满意的高质量的答案呢? 词汇空缺(lexical gap) 在CQA中分辨出高质量的答案是很困难的,因为在问题和高质量答案之间存在词汇空缺(lexical gap) 产生词汇空缺主要有两个方面的因素: (1)问题和答案的文本不匹配 e.g. apple——apple computer/fruit(同词不同义) car——automobile(同义不同词) (2)用户给出的垃圾答案 增加了答案数目,也增加了寻找高质量答案的难度 那么如何解决这种词汇空缺的问题呢? 让我们来看看传统的解决方法吧! 传统的解决方法 为了弥补词汇空缺的问题,传统做法包括: a.从结构化CQA网站中提取补充的特性; b.通过机器学习的方法找到文本线索; c.根据链接分析

文档评论(0)

rovend + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档