- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于时间戳索引的日志文件并行检索技术研究
基于时间戳索引的日志文件并行检索技术研究
摘要 本文首先对当今两种主流检索引擎进行分析和比较,针对日志文件检索系统的特殊性,选择合适的高效检索引擎,然后提出了一个适合日志文件系统有效的时间戳索引策略,最后在前两步的基础上,设计一个完整的日志文件检索系统,并对串行和并行两种检索技术进行分析和比较。
关键词 日志文件 检索引擎 索引策略 时间戳 并行检索
Research of log files parallel search technology based on timestamp indexing
Abstract In this paper, we analyze and compare two kinds of today’s popular search engines. And select the appropriate and efficient search engine for the particularity of the log file search system. Then proposed an effective timestamp indexing strategy for log file system .The last, based on previous two steps, we design a complete log file retrieval system, and analyze and compare two kinds of serial and parallel search techniques.
Keywords Log file Search engine Indexing strategy Timestamp Parallel search
0 引言
在网络技术飞速发展的信息时代,人们在各种社会和经济活动中产生大量的数字信息,其中文本信息是最基本和最常用的形式。在诸如电信、移动等通信服务部门和一些国家安全部门,出于安全考虑,往往会将用户以及用户的使用信息利用文本的形式保存下来,以便日后的安全审计。但是,这样的日志量往往是巨大的。例如,根据我国工业和信息部的统计数据显示,截止2009年3月底,中国手机用户数量已经达到6.7亿户,到2010年底,估计将达到7.4亿户,用户活动所产生的数据将更加巨大。为了能在浩如烟海的文本信息中找到自己所需要的数据,人们迫切需要一个高效的检索工具。因此,如何高效地存储和查询文本这种非结构数据,就是一个很值得研究的问题,也具有十分重要的现实意义。
1检索引擎的选择
对于大规模文本信息的检索系统,文本数据的存储及索引的建立是前提。如何选择检索引擎,将关系到系统索引的建立和检索速度,是系统成败的关键因素。通常有两种方案,即全文检索引擎和关系型数据库引擎。这两者的实现原理不同,索引建立的方式不同,面向的主要问题也不同。
就索引而言,关系型数据库(Relational Database, RDB)一般采用B树结构的索引,而全文检索引擎通常采用一种叫做倒排序索引结构的索引技术。其中,Lucene作为一种技术成熟和应用广泛的全文检索引擎,已基本能作为全文检索引擎的代表[1]。
通过分析,并结合比较通用的实际应用环境,我们可以归纳出Lucene和RDB各自适用的应用场合,即:Lucene的优势在于大数据量的搜索、模糊搜索,以及Lucene自身提供的匹配度控制,所以Lucene比较适合应用在大文件的匹配查找、全文索引、文件的模糊搜索、需要控制结果匹配度(即越是匹配的结果越优先显示),以及只处理少部分结果集的场合。而RDB的优势在于,在需要的列上已建索引的情况下搜索条件可复杂,以及由于软件的完善和成熟,提供了很多额外实用的功能,所以RDB比较适合应用在查询条件复杂(如组合查询等)、涉及到多种数据类型的处理、涉及到所有结果集的处理、不需要匹配度控制,以及复杂的权限管理、事务管理和统计分析等等场合。
在本文所要实现的系统,即大规模日志检索系统中,最频繁的操作是在大规模的数据中针对特定数据的模糊查询,不需要复杂的权限控制和事务处理,并且应该尽可能地将查询结果按一定的方式排序,即需要匹配度控制策略。因此,不难看出Lucene将是一个明智的选择。基于以上的分析和考虑,本文使用Lucene这一全文检索引擎实现了检索系统中的全文检索功能[2]。、
2索引存储管理策略
日志索引服务器最核心的任务是合理地使用Lucene建立索引,以为检索提供可能和方便。一种可能的方案是,服务器上仅有一份索引表,所有的日志都被加入到该索引表中。检索时读取整个索引表并在其中执行检索。这是一种最简单的方法,但检索效率很成问题。尤其是在海量数据的情况下,一般
您可能关注的文档
最近下载
- 消毒供应室下收下送制度.docx VIP
- (高清版)C-H-T 2010-2011 海岛(礁)大地控制测量外业技术规程.pdf VIP
- 医生的个人年终工作总结PPT.pptx VIP
- HG-T 2876-2009 橡塑鞋微孔材料压缩变形试验方法.pdf VIP
- 广西基本医疗保险门诊特殊慢性病申报表.docx
- 消毒供应室下收下送培训.pptx VIP
- GBT 25000.51-2016自测报告模板.pdf VIP
- 《抢救工作制度》.ppt VIP
- 网吧消防应急预案.docx VIP
- GB∕T 35770-2022《 合规管理体系 要求及使用指南》之18:“8运行-8.4调查过程”解读和应用指导材料(雷泽佳编写2024B1).docx VIP
文档评论(0)