多文档自动文摘.pdfVIP

  • 2
  • 0
  • 约6.77万字
  • 约 58页
  • 2021-08-18 发布于广东
  • 举报
哈尔滨工业大学工学硕士学位论文 摘 要 多文档自动文摘是自然语言理解领域中的一个重要的研究方向。近年来, 随着互联网的普及,网上的信息越来越多,为人们提供了丰富的信息资源。目 前人们主要是通过搜索引擎获得自己需要的信息,但搜索引擎返回来的相关文 档太多,而且有大量是重复和相似的,这样人们就不能快速获得自己真正所需 要的信息。多文档自动文摘技术研究的目标正是力求解决这一问题,直接给用 户提供简洁的、信息全面的文档,以提高用户获取信息的效率。 本文研究的重点是中文多文档自动文摘的几个关键技术:汉语句子相似度 计算、局部主题的确定、文摘生成,以及多文档自动文摘系统评价技术等。 句子相似度的计算在多文档文摘中有着非常重要的地位,它的准确性将直 接影响到局部主题的确定和文摘的生成。本文对基于语义依存的相似度计算方 法进行了详细的讨论,并与基于向量空间模型的 TF*IDF方法进行了对比,实验 结果证明,基于语义依存的相似度计算方法要优于 TF*IDF 方法。 在局部主题确定部分,本文利用聚类分析的方法,把相似的句子聚成一类, 这样每一类就形成了一个局部主题。在这部分,本文提出了一种聚类控制方法, 并对这种

文档评论(0)

1亿VIP精品文档

相关文档