信息检索系统架构分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索系统架构分析摘 要 随着信息化程度的加深,如何在信息海洋中查寻到合适的信息成为目前人们遇到的难题之一,信息检索正是为了解决用户信息需求而产生的,人们通过各种信息检索系统对信息进行检索,以实现自己的信息需求。本文就我从事的工作领域,对信息检索信息检索的应用、意义、场景做阐述,在信息检索的系统框架上,对每个模块的输入输出场景、格式和所采用方法做论述,并从生产实践、人文文化、资源管理等三个方面,设想信息检索所带来的影响,最后就目前信息检索框架的展望做阐述。【关键词】信息检索 信息检索应用 信息检索的意义 信息检索的设想场景 信息检索系统框架随着整个社会的信息化发展,信息的发展处于高峰阶段,在生活节奏日益加快的当今,信息网络突显出它的优势。我们在工作学习或生活的时候,往往会遇到一些繁杂的问题,而这些繁杂的问题在现实中很难找到突破口加以解决,而想要解决这些问题就要开辟一种新途径,在如今的信息时代我最先想起的应该就是网络。信息检索是利用网络资源的一种方法。在科技是第一生产力的今天,创新人才的培养、科学研究的开展、信息资源的开发,还是科学决策的进行,都离不开信息检索技术的应用。如何在信息海洋中查寻到合适的信息成为目前人们遇到的难题之一,如果掌握了信息检索的方法便可以找到一条吸收和利用大量新知识的捷径,把大家引导到更广阔的知识领域中去,对未知世界进行探索。1 信息检索的应用、意义及场景1.1 应用信息检索是指搜索信息的科学,在文件中搜索信息或是在数据库中进行搜索,无论是在相关的独立数据库或是超文本的网络数据库。信息检索技术就是指依照用户的信息需求从信息的集合中识别查询和获取信息的技术,利用这种技术可以有效地开发和利用各种信息资源,更广泛、更有效、更快捷、更全面地在信息海洋中吸收和获取我们所需要的信息。1.2 意义科学技术日新月异的发展,科技成果倍增,新的学科领域不断产生、研究和更新,科技文献数量、种类急剧增长,同时现代通讯技术、网络技术的广泛应用,又加速了文献信息的传递与使用,文献信息的传递、使用和交流又促使新的信息不断产生,人类社会已步入了知识、信息爆炸的时代。然而这种浩如烟海而又极其分散的文献信息给人们的学习、工作带来了许多的不便,特别是对于广大科研人员和工程技术人员,如何迅速准确的查获到自己所需文献资料,关系到科研项目的成败。信息检索的重要作用及意义在未来的社会中将会日益显现出来。1.3 信息检索设计1.3.1 场景设想在软件机构建立一个软件文档信息检索库,软件文档库中存放软件工程过程中的所产生的所有文档,项目管理师负责上传文档到统一的软件文档库,项目的每个用户均有统一的搜索。1.3.2 场景设想的合理性分析为了进行搜索,用户先指定一个能反应信息需求的查询,接下来,对用户查询进行分析和扩展,扩展的查询与倒排索引进行匹配,检索出一个文档子集。对文档子集排序并把排在最前面的文档返回给用户。为了提高排序的性能,我们收集用户反馈信息,并使用这些信息对结果重新排序,最丰富的用户反馈形式是在返回结果上点击文档链接。2 信息检索系统框架根据场景的设想,从用户界面、文本处理、提问处理、搜索、排序这几个方面简要阐述软件文档信息检索的架构,信息检索框架如图1所示。2.1 用户界面用户界面的作用是帮助用户理解和表达信息需求,并帮助用户指定所需的查询,在可用的信息源中进行选择跟踪搜索结果。查询输入 软件文档信息检索的输入为文本形式,用户表达自己的信息需求的主要方法是在搜索框中输入一些关键词如“空管系统 软件需求规格”等,输入查询的描述采用动态生成查询建议列表,当用户输入“空”子查询时,表单实施显示查询建议“空管系统”,自动填充或自动生成查询建议,以方便用户和节约用户时间。查询输出 当显示查询结果时,界面输出的是相关文档,将文档的一些有代表性的内容提交给用户,如软件文档摘要、包含查询关键词的标题、标题组合、包含作为短语匹配的查询语句。用户反馈是帮助我们进行查询重构,主要思想是让用户指出,对于查询哪些文档是相关的,哪些文档时不相关的。也能让用户指出从文章中抽取哪些索引项是相关的。软件文档信息检索系统通过这个信息,可以重构一个新的检索集合。2.2 文本处理文本处理时一个以产生排序函数为目标的复杂过程。构想出表示文档和查询的逻辑框架,该逻辑框架通常基于集合、向量或者概率分布,如图2所示。输入 一个能反映用户信息需求的查询,对此查询进行与文档类似的分析与修改操作,典型的操作包括适当的拼写校对和禁用词消除等。输出 文档和查询的逻辑框架,该逻辑框架通常基于集合、向量或者概率分布。2.3 检索策略假如已经有了倒排索引,给出信息检索策略,常用的信息检索策略模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。(1)布尔逻辑模型。这是一种简单而常用的严格匹配模型。用户可以

文档评论(0)

ganpeid + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档