- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PGE \* MERGEFORMT
PGE \* MERGEFORMT 1
浅谈基于LUCENE的多媒体文件检索系统的设计
计算机互联XX技术的飞速进展,使得XX页以及各种文本数字信息急剧增长,想要在海量的数据中便捷、迅速地搜索到所需要的信息将变得越来越困难。现在常用的搜索引擎软件主要用信息检索技术来解决搜索的问题。同时,随着多媒体技术的进展,大量的信息主要以非文本形式的多媒体文件形式存在。对于如何有效地检索这些庞大数量的多媒体文件具有重要的应用价值。 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联XX上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。 一、lucene简介 Lucene是pche软件基金会Jkrt项目组的一个子项目,也是一个开放源代码的搜索引擎工具包。它不是一个完整的搜索引擎,而是一个全文索引工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能,提供完整的查询和索引及部分文本分析功能。 初使用Lucene的使用者常错误地把它认为是一个可以马上使用的应用程序,即一个文件检索程序,或者是一个WebXX络爬虫,以及一个Web站点搜索引擎,然而这些都不是它的实质。Lucene实际上是一个开发工具包的软件库,而非具备完整特性的搜索应用程序。纵然使得它只关注于自身的索引和搜索技术,并且非常好地完成这些程序。Lucene让你的应用程序处理业务规则,而把复杂的索引和搜索实现掩盖起来,只提供简单易用的PI。 为了帮助理解,可以把Lucene当作层,应用程序位于它之上。现今,大量的应用都是利用Lucene对文本进行检索,而很少用来对多媒体文件进行检索。 二、Lucene的系统结构及模块功能 Lucene的系统主要分为三大部分:基础结构封装、索引核心以及对外接口。其中直接操作索引文件的索引核心又是系统的重点。 Lucene将所有源码分为七个模块:①.nlysis:(词法分析器,主要用于切词,默认的语言为英语,提供德语与俄语的分析器。其它语言可通过扩展此类实现);②.Documen(包含索引存储的各个单元:Document, Field… 。);③.Index(索引治理,包括索引建立、删除等。);④.QueryPrser(查询分析器,实现查询 其中,Lucene系统重点的索引核心功能分为:创建索引和查询索引。这个两块功能主要的过程如下:①创建索引过程:.Util使用.nlysis对要索引文件的内容进行词法分析,并使用.Util与.Document把文本创建为索引并优化,然后交给.Store处理,由.Store完成底层的I/O操作,把索引写入索引文件;②查询索引过程:用户输入查询语句,首先调用.QueryPrser对查询语句进行分析,并转化成索引可理解的语句。然后由.Serch根据查询语句检索索引,找到匹配的结果,并给每个结果一个匹配度分数,最后返回查询结果。这其中当然也涉及.Util与.Document这两个基础结构包的调用。 三、Lucene的算法 Lucene主要的算法有:归并算法、增量算法、查找算法 。 1.归并算法 归并算法主要是合并找到需要的段:①已知各个段内的Term都是已排序的②用一个小根堆来表示存储各个段③堆中的顺序由段中当前第一个Term决定④取出当前堆中最小的元素写入新的索引段⑤从最小元素所在的段中删除该元素⑥重新调整堆。 2.增量算法 增量算法就是用于推断当前的索引中是否有需要合并的段。在创建索引过程中,存储的单位被称作段。一个段由几个文档组成,当段中的文档达到一定数量时就合并成一个新段。IndexWriter中的MergeFctory属性就是用于操纵段的合并频率的,表示当有多少文档时就需要合并。 3.查找算法 查找算法又分为:分级查找、二分查找和顺序查找相结合的算法。该算法主要为:①把.tii文件调入内存②在内存中用二分查找找到相应的Block③把.tis文件中相应的Block调入内存④在Block中顺序找到相应的Term。 四、Lucene的开发环境 Frmework 。其支持生成和运行下一代应用程序和 XML Web Services 的内部 Windows 组件。 2.C#。它是一种最新的、面向对象的编程语言。其使得程序员可以快速地编写各种基于Microsoft .NET平台的应用程序,Microsoft .NET提供了一系列的工具和服务来最大程度地开发利用计算与通讯领域。 五、多媒体文件检索系统的概要设计
您可能关注的文档
最近下载
- 传感器技术基础与应用实训(第3版)答案项目单元7.pdf VIP
- 传感器技术基础与应用实训(第3版)答案项目单元6.pdf VIP
- 《精细化工企业安全管理规范解读》课件.pptx VIP
- SIGTTO - 液化天然气船气试计划指南.pdf VIP
- 华东师范大学研究生培养方案新.doc
- (高清版)D-Z-T 0460-2023 地质灾害自动化仪器监测预警规范.pdf VIP
- 大班幼儿网络词汇使用调查研究.docx VIP
- 2025年高中语文教材(必修下)单元导语、学习提示、单元研习任务.docx VIP
- 如何找回误删微信好友,微信好友一键恢复.doc VIP
- 传感器技术基础与应用实训(第3版)答案项目单元5.pdf VIP
原创力文档


文档评论(0)