- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Web的信息检索系统的研究摘 要基于Web的信息检索系统的研究,讨论了信息检索的原理、评价方法、研究现状和发展方向,也研究了主流的信息检索算法,对信息检索进行了仿真实验。重点介绍了信息检索的理论、算法和技术框架。提出了面向Web的个性化语义信息检索技术。为了解决或减少检索算法中Hash地址的“碰撞”,把HASH的思想和索引顺序表检索的思想,以及二分检索法的思想结合起来提出一种基于HASH表的二分检索法,通过理论分析和实验证明,该算法检索效率极高。 关键词:信息检索;原理;算法;软件框架目录第 I 条一、前言2第 II 条二、信息检索的研究目的2节 2.01(一)研究目的2第 III 条三、信息检索的原理与技术方法3节 3.01(一)、信息检索原理3节 3.02(二)信息检索的技术方法5第 IV 条四、信息检索仿真实验11节 4.01(一)、文本处理与倒排文档的建立11第 V 条总结28第 VI 条参考文献28第 VII 条致谢29一、前言1990年以前,没有任何人能够检索互联网上的信息。应该说,所有的网络信息检索工具都是从1990年的Alan Emtage等人发明的Archie开的,虽然它只可以实现简单意义上的FTP文件检索。随着world wide web 的出现和发展,基于网页的信息检索工具出现并迅速发展起来。1995年基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的Eric Selberg等发明。伴随着网络技术的发展,网络信息检索技术工具也取得了十足的发展,已成为人们获取信息的重要手段。本文对信息检索的研究内容和研究目的、信息检索的研究现状、传统检索模型等基础内容进行简单介绍;在此基础上,重点介绍了个性化信息检索的相关理论、算法和技术框架。二、信息检索的研究目的(一)研究目的随着计算机的普及和互联网的发展,要想从海量的信息中找到自己需要的信息无疑是一项极具挑战性的工作。显然,仅仅依靠人工搜索和提取,其操作过程将非常繁琐,并且速度和效率极低,信息质量也得不到保证。解决人们获取信息的困难,迫切需要一些自动化的工具帮助人们快速找到真正需要的信息,这就是信息检索的任务。信息检索是互联网上最基础、最核心的技术。一个搜索引擎就是一个检索系统,它掌控着人们从信息海洋中获取有用信息的路径。三、信息检索的原理与技术方法(一)、信息检索原理 广义地讲,信息检索包含信息储存和信息检索两个过程。信息储存是对文献进行收集、标引及著录,并加以有序化编排,编制信息检索的工具的过程;信息检索是从大量的信息中查找出用户所需的特定信息的过程。而实施检索的主要方法就是利用各种检索工具(见图3.1)。信息存储过程 信息检索过程图3.1 信息检索的原理1.信息储存信息储存的工作内容,主要是由标引人员通过对原始文献的阅读分析,对文献中的信息进行鉴别、提炼和浓缩,并采用特定的方式予以整理、保存起来。它大致有如下几个步骤:(1)选择文献。根据信息检索系统的主题、性质及任务等,结合原始文献本身的研究水平、角度及其信息质量,对原始文献进行适当的评价,从中筛选出符合要求的文献。(2)文献的概念分析。对所选文献进行仔细的主题分析,提炼出文献所论述的内容主题,归纳为代表文献内容的若干主题概念,并确定这些主题概念之间的关系。(3)词汇转换。把文献的主题概念转换为适当的文献标识(或标引词),并以这此标识来表达文献的主题内容。这种转换需要严谨地建立在两个依据之上:一是必须以对文献的主题概念分析为依据,二是必须以信息检索语言为依据。前者主要决定转换什么的问题,即需要对文献中的哪些信息主题做出转换;后者主要决定怎样转换的问题,即把主题概念转换为哪些标识。(4)信息检索工具的编制。概括地讲,检索工具是信息检索系统的核心和概括,它主要包括两个有序化的序列,即文献序列和文献标识序列。文献序列是由文献描述体或文献本身按照一定的方式组织形成的有序化序列,构成文献库。文献描述体是对原始文献内容的浓缩,常见的有文摘、题录等,这是信息检索所采用的传统和主要的方式。其主要作用是,使用户能够对文献内容有较为全面和准确的了解,进而做出是否需要获取原始文献的选择。随着计算机技术和通信技术的发展,现在已经有越来越多的信息检索系统采用全文本的方式,直接把原始文献本身组织为有序化的序列,尤其是因特网的迅猛发展,为全文本检索拓展了更大的发展空间。文献标识的序列,是由文献标识按照特定的顺序形成的有序化序列,构成文献库的索引。最常见的排列方式为字顺,即按照字母顺序或汉语拼音,排列为文献标识的序列。其作用主要是依靠字顺组织,提供对文献标识的快速查找,并与提问标识加以比较,据此做出文献是否与提问相符的判断。这个标识比较的过程,也称为检索的匹配。2.信息检索信息检
您可能关注的文档
- 毕业设计(论文):麦当劳与快乐蜂的海外发展战略的异同.doc
- 东北大学秦皇岛分校科技文献写作结课论文.docx
- 毕业设计论文:视频图像中车辆的车型识别算法研究与实现.doc
- 毕业设计论文:Video Images in the Research and Implementation of Vehicle Model Recognition Algorithm.docx
- 论文:浅谈螺旋折流板式换热器传热性能及研究方向.doc
- 热交换器原理与结构设计期末论文.docx
- 毕业论文:我国生活垃圾处理社会总成本分析.doc
- XX地区四星级高中体育师资现状分析及对策.docx
- 毕业设计(论文):芳香酰肼的合成方法.docx
- 湖南科技大学本科毕业设计(论文).doc
- 2023咸阳职业技术学院招聘笔试真题参考答案详解.docx
- 2023四川化工职业技术学院招聘笔试真题及参考答案详解.docx
- 2023哈尔滨职业技术学院招聘笔试真题及参考答案详解.docx
- 2023商洛职业技术学院招聘笔试真题及答案详解1套.docx
- 2023呼伦贝尔职业技术学院招聘笔试真题参考答案详解.docx
- 2023南阳农业职业学院招聘笔试真题参考答案详解.docx
- 2023天津公安警官职业学院招聘笔试真题带答案详解.docx
- 2023年上海电机学院招聘笔试真题参考答案详解.docx
- 2023年四川艺术职业学院招聘笔试真题参考答案详解.docx
- 2023安徽体育运动职业技术学院招聘笔试真题及答案详解一套.docx
文档评论(0)