问答系统中的短文本聚类的研究和应用.pdfVIP

下载本文档

16
0
约12万字
约 76页
2015-11-29 发布于安徽
举报
版权申诉

问答系统中的短文本聚类的研究和应用.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要摘要伴随着Web 2.0 技术的快速发展，用户交互式问答系统已经吸引了越来越多的关注。交互式问答系统提供了一个从提问人到解答者的纽带，并且利用各种机制不断激励问答社区中的人提供答案、解决问题。然而，交互式问答系统中往往充满了各种相似甚至重复的问题。这些系统中的冗余问题大大影响了用户快速信息获取的需求。问题致力于使用短文本聚类算法组织交互式问答系统中的问题。提出了一种新的聚类策略，TermCut 策略。该策略首先发现文档集中的核心词汇，然后按照核心词汇的出现与否聚类短文本。为了检测这些核心词汇，我们将短文本集建模成一张图的形式。在这张图中，每一个节点代表了一条短文本，而节点之间的边代表了它们之间的语义关联。这样，按照某个词的出现与否，可以二分此图使得，其中一个子图中的短文本包含此词，而另一个子图中的短文本不包含此词。我们选择那些能够最大化类内相似度，同时最小化类间相似度的词，作为所谓的核心词汇。TermCut 然后基于核心词汇的出现与否划分短文本集，划分结果中一个簇包含该核心词汇，而另一个簇不包含此词。通过不断的二分文档集，最终，一系列的聚类结果得以形成。基于TermCut 聚类策略，我们进一步提出了两种具体的聚类算法，分别是基于目标类数的TermCut （CNTC ），以及基于阈值的TermCut （TTC ）。二者的区别在于终止条件的不同。CNTC 使用先验的目标聚簇数作为终止条件。当算法已经产生了足够多的聚类时，便停止继续二分的过程。在某些特定情况下，我们很难获得具体的目标聚簇数。这种情况下，我们提出了TTC 算法。与CNTC 不同， TTC 使用一个相似度阈值作为算法的终止条件。当划分过程不能导致类内相似度的增加和类间相似度的减少时，我们便终止该算法，并将结果输出。我们然后设计了一个原型系统，将所提出的短文本聚类算法应用到问题推荐中去。首先，提出了一种基于主题的用户兴趣度模型来获取交互式问答系统中不同用户的兴趣。基于该兴趣模型，我们可以按照用户的兴趣，将系统中的问题进行排序。排序较高的问题将被聚类，并推荐给用户。文中将会给出该算法的展示界面。关键词：互联网问答系统用户交互式问答系统短文本聚类问题聚类 I ABSTRACT ABSTRACT With the rapid development of Web 2.0, the User-Interactive Question Answering (UIQA) systems have attracted more and more attention. The UIQA systems provide a bridge to connect askers and answerers, and stimulate the answerers in the QA community to solve questions. However, UIQA systems are also filled with duplicate or similar questions. The redundancy in UIQA systems prevent the users from quickly knowledge obtaining. We investigate the short text clustering algorithm to group the questions in the UIQA system. A new clustering strategy, TermCut, is presented to cluster short text snippets by finding core terms in the corpus. In