面向大规模社区问答数据问题检索方法.doc

下载文档 降价啦

3
0
约8.89千字
约 15页
2017-11-21 发布于福建
举报
版权申诉
保障服务

面向大规模社区问答数据问题检索方法.doc

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

面向大规模社区问答数据问题检索方法

面向大规模社区问答数据问题检索方法　　摘要：随着问答社区网站的兴起，越来越多的用户生成数据积累了起来。这些用户生成数据不仅具有海量的、多样性的等特点，还有着极高的质量和重用价值。为了高效地管理和利用这些数据，近年来研究人员基于这些数据进行了大量的研究和实践，而社区问答中的问题检索就是一个被广泛研究的课题。主要研究了面向大规模社区问答数据的问题检索方法。收集来自Yahoo！ Answers等社区网站的超过1.3亿问题和10亿答案的大规模数据，与之前的基于百万量级的数据的问答社区相关研究工作相比有着明显的不同和极高的实用价值。在此数据的基础上，通过查询自动分类方法来提高每次查询效率和效果。在问题检索过程中，提出了应用查询问句和问题的结构信息和语义信息，结合排序学习算法来融合多种不同类别的特征的方法，通过应用训练数据生成排序模型来提高问题检索的相关性和词语不匹配等问题。实验表明，本文应用Ranking SVM方法来训练的排序模型在不同数据集上，其准确率等评价指标上都相比以往的方法有着显著的提高。关键词：社区问答；问题检索；排序支持向量机中图分类号：TP31113 文献标识码：A文章编号：2095-2163（2013）06-0063-05 0引言目前，社区问答服务包含了大量用户生成内容（user-generated contents，简记为UGC）。以Yahoo！ Answers为例，目前Yahoo！ Answers包含问题涵盖26大类、1 400多小类，共有超过3亿规模的问题和10亿的答案由用户提出和发布。如此庞大的数据规模，促进了非事实问答研究的大规模开展，使得问答系统不再局限于对应命名实体、日期等较短答案的事实类问题上。这些用户生成内容不仅具有海量、多样性等特点，还有着高质量和重用的价值，充分利用这些资源可以高效、准确地满足人们对信息的需求。如Liu 等[1]研究的发现，在Yahoo！ Answers中的四个流行问题分类中，有接近83%的最佳答案可以重用来回答相似的问题。因此，随着各类问题数据的积累与各项相关技术的成熟，研究面向大规模问答数据的问题检索方法，是一个既具研究挑战又有应用前景的重要技术课题。全文共分为五部分，其内容具体安排为：第一部分引言，介绍面向问答社区的问题检索课题的研究背景和研究意义。第二部分介绍相关领域的研究现状。第三部分介绍问题检索的模型与特征选择。第四部分介绍实验和结果分析。最后第五部分是本文的结论和对下一步研究的展望。 1相关工作问题检索依赖于已经建立的问答对数据集，对于给定的查询问句，自动返回相关的问题及其对应答案。问题检索任务的主要挑战是如何解决已有问题和查询问句的词语不匹配问题，因为多数情况下查询问句和问题句并不是字面上相同的。 Jeon等[2]比较了不同检索方法在解决查询问句与问题的词汇不匹配问题的效果，所得出的统计机器翻译方法最为有效。研究中，构造机器翻译的平行语料的方式是以问题的答案作为索引，并用答案去查询其他相似答案。如果某问题的答案与查询答案的相似度高于一定阈值，则认为这两个答案是相似的，同时又假设其对应问题也是相似的。以此方法构造平行语料来训练统计机器翻译模型。基于以上工作，Xue等[3]提出一个统计机器翻译[4]加语言模型[5]的混合模型来进行问题检索，通过利用问题句和答案作为平行语料来进行机器翻译模型的训练。Wang等[6]提出了一个基于句法树结构的新的检索方法来处理相似问题匹配任务，可通过句法分析将问题和查询问句转化为句法树，再通过句法树之间的相似度来衡量问题和查询问句的语义相似度。Bian等[7]提出一个新的问题检索方法GBrank以及其后续工作中的GBrank-MR都能够较好地处理事实性问题，并给出较为满意的答案。Cao等[8]提出基于叶分类信息进行平滑的语言模型来解决词语之间的不匹配问题。该方法的基本思想是同一分类下的问题通常比不同分类下的问题更相似，于是用同一个分类下的词分布信息对语言模型进行平滑，如此可有效提高问题检索的相关性。Zhou等[9]考察了应用用户权威性和用户信息评价对于问题检索相关性的影响，其结论是由于问答社区中的信息过于稀疏，直接应用这些信息并不能够为问题的检索效果带来明显的提升。Duan等[10]应用短语级别的问题焦点和主体识别方法来提高问题检索的相关度。 2问题检索的模型与特征选择问题检索的目的是给定一个查询问句，系统返回与该问句语义相同或者相似的问题，而由于同义问题语言表达的多样性特点，仅仅对问句和问题进行词语级别的匹配是远远不够的。本文应用排序支持向量机（Ranking SVM）算法作为问题检索的排序模型。在进行问题检索前，本文应用朴素贝叶斯分类器