- 6
- 0
- 约6.3万字
- 约 78页
- 2019-05-11 发布于上海
- 举报
Classified Index:TP391.2 U.D.C.: 681.37
Dissertation for the Degree of M. Eng.
RESEARCH ON RELATED TECHNOLOGIES OF
SUBJECT-ORIENTED INFORMATION RETRIEVAL AND ITS IMPLEMENTATION
Candidate:
Candidate:
Yu Hongyong
Supervisor: Prof. Zhao Tiej
Academic Degree Applied for: Master of Engin
Specialty: Computer Scien
Affiliation: School of Co Technology
Date of Defence: July, 2007
Degree-Conferring-Institution: Harbin Institute
eering
ce and Technology mputer Science and
of Technology
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
-
- I -
摘要
随着 Internet 的迅速增加,查找信息成为问题。搜索引擎的出现在一定 程度上解决了找信息难的问题。但由于网络信息增长太快,检索返回的结果 太多,查询的歧义性问题,使得用户在返回的大量信息中找到有用信息成了 问题。本文提出的面向主题的信息检索系统能在一定程度上解决这种问题。 面向主题的信息检索系统,主要由爬行器,前向索引器,倒排索引器, 检索器,主题分类器,相似文章聚类器组成。与通用搜索引擎最大的区别在 于检索结果中有层次主题类信息,相似文章推荐,以及更加友好的人机交互 方式等。正是这些功能使得用户在检索时更加主动,获得的信息更加丰富,
并且能更加快速地找到有用信息。 正是如此,本文研究设计了面向主题的信息检索系统。并在索引建立,
带有主题信息的检索方法,系统结构和信息可视化上有所改进和创新。 为了主题分类和相似文章聚类的需要,设计了自动获取 TermID 来建立
前向索引的方法和对前向索引的管理。为了高效建立索引,通过前向索引词 典信息来划分存放倒排索引的文件,实现 Term 和文件的映射。以后处理 Term 的信息就只需要在划分的对应文件中处理即可。同时,本文提出了通 过两遍文件迭代建立海量倒排索引的方法,并且在建立过程中没有使用归并 算法,而只进行顺序链接即可。因而速度很快。
在检索中,为了提高检索的 Top N 精确率和检索效率,本文提出了对 文档抽取摘要信息来建立小索引用于检索。同时设计了文档和主题类的映射 关系以及父、子主题类的继承关系,使得检索时获取文档的主题类信息以及 判断主题类间的继承关系都是常数时间复杂度。进而带主题信息的检索和通 用检索在检索时间上相差不大。
由于用户输入的查询通常比较短,使得查询有歧义,因而返回的所有结 果文档属于多个类别。主题检索系统返回了文档的类别信息,使得用户可根 据自己所找信息对应的类别来选择类别,让系统只返回该类别的文档,进而 快速找到有用信息。使得用户在检索过程中更加主动。同时,当用户看到一 篇相关文档后想看更多与当前文档相似的文档时,系统的相似文章推荐就能 满足用户的需求。提供给了用户更丰富的信息。
关键词 主题;搜索引擎;信息检索;倒排索引;相似文章
-
- II -
Abstract
With the increment of internet information, it is difficult to search information in the internet. Since the advent of search engine, the problem has been resolved to some degree. But the speed of the information increment is too high, return results of search engine are numerous, in the meantime queries have ambiguities, these cause that it is difficult to find useful information in large amount of return results. Luckily, this thesis proposes the subject-oriented information retrieval system to solve the problem to some extent
您可能关注的文档
- 毛冬青总黄酮对脑缺血动物模型的影响-中药学专业毕业论文.docx
- 面向模块化移动机器人的无线自组网控制系统研究-机械工程专业毕业论文.docx
- 煤炭企业领域软件过程量化管理方法与模型研究-计算机应用技术专业毕业论文.docx
- 考虑批量的柔性车间调度研究与实现-机械工程专业毕业论文.docx
- 美时佳花茶包装设计-工业设计工程专业毕业论文.docx
- 罗茨鼓风机性能优化和内部流场的数值分析-机械电子工程专业毕业论文.docx
- 面向云计算环境的虚拟机在线迁移机制研究-计算机软件与理论专业毕业论文.docx
- 慢性阻塞性肺疾病患者急性加重期及稳定期血清Th17Treg相关细胞因子与肺功能、生活质量(CAT评分)的相关性分析-内科学专业毕业论文.docx
- 民警培训考核信息管理系统的设计与实现-软件工程专业毕业论文.docx
- 黄秋葵果实石油醚部位的化学成分研究-药物化学专业毕业论文.docx
- 全过程工程管理造价咨询工程监理项目服务方案投标方案(技术部分).doc
- 招标代理服务投标技术服务方案(技术方案).doc
- AI大模型与AIGC技术在公安领域的应用解决方案(99页 PPT).pptx
- 工业4.0智能制造数字工厂规划方案.pptx
- 树立社会主义核心价值观.docx
- 三年(2023-2025)中考历史真题分类汇编(全国)专题21 科技文化与社会生活(解析版).docx
- 2025年中考道德与法治真题完全解读(吉林卷).pdf
- 2025年中考道德与法治真题完全解读(安徽卷).pdf
- 三年(2023-2025)中考历史真题分类汇编(全国)专题14 人民解放战争(解析版).pdf
- 三年(2023-2025)广东中考历史真题分类汇编:专题03 中国近代史(八年级上册)(解析版).docx
最近下载
- 《基因组学》(第4版)-复旦大学 14-第7章 基因的转录调控-PolI和PolIII类基因.pptx VIP
- 《基因组学》(第4版)-复旦大学 13-第6章 基因组解剖-原核生物及细胞器基因组.ppt VIP
- 19.1.1.1 常量与变量 人教版数学八年级下册同步练习(含答案).docx VIP
- 《基因组学》(第4版)-复旦大学 28-第11章 基因组复制-真核生物.ppt VIP
- 希沃白板运用培训ppt课件.pptx
- 《基因组学》(第4版)-复旦大学 3-第1章 基因组-DNA RNA 蛋白质.ppt VIP
- 《基因组学》(第4版)-复旦大学 32-第13章 基因组进化的模式-基因水平的进化.pptx VIP
- 《输变电工程建设前期手续清单》.doc VIP
- 2023-2024学年广东省中山市高二(上)期末考试物理试卷+答案解析.pdf VIP
- 不锈钢轨道车辆激光焊技术规范.docx VIP
原创力文档

文档评论(0)