- 2
- 0
- 约4.43千字
- 约 9页
- 2018-06-23 发布于福建
- 举报
面向问句检索词项赋权研究
面向问句检索词项赋权研究
摘要:在社区型问答服务中,存在大量的由用户生成的问题及答案,一方面用户可以通过发布新问题,等待其他用户的回答;另一方面用户可以通过搜索与当前问题相关或者相似的问题,从而得到相应的答案。随着社区型问答服务的发展,用户更加关注问题检索服务的质量,因此如何合理并有效地检索出与用户当前问题相关或相似的问题,成为社区型问答服务的核心任务。对社区型问答服务中用户问题的特点进行了分析,提出一种确定问题中词项重要性的方法,从而改进传统问题检索模型中计算当前问题和候选问题集之间相关度的方法,提高问题检索质量。实验证明文中的方法在MAP、MRR及R-precision三项指标中均有提高。同时,分析了影响词项重要度的实验特征,得出最优的特征集合。
关键词:社区型问答; 问题检索; 词项赋权
中图分类号:TP391 文献标识码:A 文章编号:2095-2163(2013)05-0054-04
0引言
传统的检索模型如布尔模型、向量空间模型、Okapi BM25模型及语言模型等,能够有效衡量用户查询与候选文档之间的关系。在社区型问题检索中,由于用户问题形式的复杂性及候选文档长度的特殊性,使得传统的检索模型在问题检索任务中的有效性和适用性受到限制,与其相对应的词项赋权机制的合理性也有待验证。此外,Xue et al [1]提出的利用翻译模型自动获取问题词项之间以及问题和答案词项之间语义关系的检索模型,Wang et al[2]提出的利用短语结构句法树核匹配的相关问题检索模型,但这两种模型都没有对词项的重要性进行量化评估。
社区型问答服务中,用户的问题可分为三类。第一类问题的特点是用户问题较短,往往只包含若干个关键词;第二类问题与传统的TREC(Text Retrieval Conference)( http:///)问答中的问题相似,其问题表述较为规范;第三类问题本身包含问题及问题描述,或者是多个问题形成的复合问题。上述三种类型的问题中,第三类问题具有相当长度,带有很多冗余的词项,其中也包含部分噪声词项,从而对检索结果的质量产生不利的影响。
针对社区型问答中问题的复杂性及检索任务的特殊性,本文利用依存句??分析技术获取用户问题中词项之间内在的句法关系,并融合词性命名实体等特征衡量用户问题中各个词的权重,从而提出一种合理的用户问题中词项赋权机制,这种机制不仅可以将用户问题中的干扰词与关键词区分开,而且量化了词的权重,并将此机制与传统的检索模型结合得出一种新的问题检索和排序的方法。
1相关工作
问题检索作为社区型问答服务的核心任务,广泛应用于相似和相关问题推荐、答案推荐及问题推送等服务中。Jeon et al[3]基于IBM model1翻译模型对社区型问答服务中的问答对进行建模,获取问题和答案以及问题之间词汇和语义上的关系,从而衡量问题与答案之间以及问题与问题之间的相似度,实验结果表明其在问题检索任务中的性能要优于传统的检索模型。Duan et al[4]将所有候选问题词汇链形成前缀树,再利用最小描述长度(Minimum Description Length, MDL)的方法对句子树进行剪枝,识别出每个问题的主题成分和焦点成分,最后对主题和焦点应用语言模型进行建模,从而进行问题检索。Xue et al[1]在分析和对比了基于翻译模型和语言模型的检索模型的基础上,将上述两种模型相结合,提出一种新的问题检索和答案检索模型。Bernhard et al[5]利用多种词汇以及语义资源,训练单语的翻译模型,从而计算问题之间以及问题和答案之间的相关度。Moschitti et al[6]利用浅层语义分析技术(semantic role labeling, SRL)和短语结构的句法分析技术构建谓词论元结构,提出了新的核函数用以计算问题及答案之间以及问题之间的相似度。Wang et al[2]和Moschitti et al[6]在短语结构句法分析的基础上,利用树核的方法计算问题之间的相似度。
近年来,在TREC检索评价体系下的查询词赋权工作取得了较大的进展。Bendersky et al[7]融合多类特征,利用分类的方法对长查询中的关键概念(key concept)进行识别,并在传统检索模型的排序机制下,改进传统模型的查询词赋权机制。Bendersky et al[8]基于排序学习的方法度量查询中概念的重要性,并利用马尔科夫随机域的方法构建图模型,获取查询词之间的依存关系,从而得到查询词的权重。Bendersky et al[9]针对以往的查询词赋权机制中参数相对固定的问题,提出一种动态的参数化赋权方法。Ming et al[10]引进类别信息,通过获取词项在父类和子类中的不同熵值,
原创力文档

文档评论(0)