面向主题的信息检索相关技术研究与实现-计算机科学与技术专业毕业论文.docxVIP

  • 6
  • 0
  • 约6.3万字
  • 约 78页
  • 2019-05-11 发布于上海
  • 举报

面向主题的信息检索相关技术研究与实现-计算机科学与技术专业毕业论文.docx

Classified Index:TP391.2 U.D.C.: 681.37 Dissertation for the Degree of M. Eng. RESEARCH ON RELATED TECHNOLOGIES OF SUBJECT-ORIENTED INFORMATION RETRIEVAL AND ITS IMPLEMENTATION Candidate: Candidate: Yu Hongyong Supervisor: Prof. Zhao Tiej Academic Degree Applied for: Master of Engin Specialty: Computer Scien Affiliation: School of Co Technology Date of Defence: July, 2007 Degree-Conferring-Institution: Harbin Institute eering ce and Technology mputer Science and of Technology 哈尔滨工业大学工学硕士学位论文 哈尔滨工业大学工学硕士学位论文 - - I - 摘要 随着 Internet 的迅速增加,查找信息成为问题。搜索引擎的出现在一定 程度上解决了找信息难的问题。但由于网络信息增长太快,检索返回的结果 太多,查询的歧义性问题,使得用户在返回的大量信息中找到有用信息成了 问题。本文提出的面向主题的信息检索系统能在一定程度上解决这种问题。 面向主题的信息检索系统,主要由爬行器,前向索引器,倒排索引器, 检索器,主题分类器,相似文章聚类器组成。与通用搜索引擎最大的区别在 于检索结果中有层次主题类信息,相似文章推荐,以及更加友好的人机交互 方式等。正是这些功能使得用户在检索时更加主动,获得的信息更加丰富, 并且能更加快速地找到有用信息。 正是如此,本文研究设计了面向主题的信息检索系统。并在索引建立, 带有主题信息的检索方法,系统结构和信息可视化上有所改进和创新。 为了主题分类和相似文章聚类的需要,设计了自动获取 TermID 来建立 前向索引的方法和对前向索引的管理。为了高效建立索引,通过前向索引词 典信息来划分存放倒排索引的文件,实现 Term 和文件的映射。以后处理 Term 的信息就只需要在划分的对应文件中处理即可。同时,本文提出了通 过两遍文件迭代建立海量倒排索引的方法,并且在建立过程中没有使用归并 算法,而只进行顺序链接即可。因而速度很快。 在检索中,为了提高检索的 Top N 精确率和检索效率,本文提出了对 文档抽取摘要信息来建立小索引用于检索。同时设计了文档和主题类的映射 关系以及父、子主题类的继承关系,使得检索时获取文档的主题类信息以及 判断主题类间的继承关系都是常数时间复杂度。进而带主题信息的检索和通 用检索在检索时间上相差不大。 由于用户输入的查询通常比较短,使得查询有歧义,因而返回的所有结 果文档属于多个类别。主题检索系统返回了文档的类别信息,使得用户可根 据自己所找信息对应的类别来选择类别,让系统只返回该类别的文档,进而 快速找到有用信息。使得用户在检索过程中更加主动。同时,当用户看到一 篇相关文档后想看更多与当前文档相似的文档时,系统的相似文章推荐就能 满足用户的需求。提供给了用户更丰富的信息。 关键词 主题;搜索引擎;信息检索;倒排索引;相似文章 - - II - Abstract With the increment of internet information, it is difficult to search information in the internet. Since the advent of search engine, the problem has been resolved to some degree. But the speed of the information increment is too high, return results of search engine are numerous, in the meantime queries have ambiguities, these cause that it is difficult to find useful information in large amount of return results. Luckily, this thesis proposes the subject-oriented information retrieval system to solve the problem to some extent

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档