基于时间戳索引的日志文件并行检索技术研究.doc

下载文档

2
0
约5千字
约 6页
2018-01-26 发布于河南
举报
版权申诉
保障服务

基于时间戳索引的日志文件并行检索技术研究.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于时间戳索引的日志文件并行检索技术研究

基于时间戳索引的日志文件并行检索技术研究摘要本文首先对当今两种主流检索引擎进行分析和比较，针对日志文件检索系统的特殊性，选择合适的高效检索引擎，然后提出了一个适合日志文件系统有效的时间戳索引策略，最后在前两步的基础上，设计一个完整的日志文件检索系统，并对串行和并行两种检索技术进行分析和比较。关键词日志文件检索引擎索引策略时间戳并行检索 Research of log files parallel search technology based on timestamp indexing Abstract In this paper, we analyze and compare two kinds of today’s popular search engines. And select the appropriate and efficient search engine for the particularity of the log file search system. Then proposed an effective timestamp indexing strategy for log file system .The last, based on previous two steps, we design a complete log file retrieval system, and analyze and compare two kinds of serial and parallel search techniques. Keywords Log file Search engine Indexing strategy Timestamp Parallel search 0 引言在网络技术飞速发展的信息时代，人们在各种社会和经济活动中产生大量的数字信息，其中文本信息是最基本和最常用的形式。在诸如电信、移动等通信服务部门和一些国家安全部门，出于安全考虑，往往会将用户以及用户的使用信息利用文本的形式保存下来，以便日后的安全审计。但是，这样的日志量往往是巨大的。例如，根据我国工业和信息部的统计数据显示，截止2009年3月底，中国手机用户数量已经达到6.7亿户，到2010年底，估计将达到7.4亿户，用户活动所产生的数据将更加巨大。为了能在浩如烟海的文本信息中找到自己所需要的数据，人们迫切需要一个高效的检索工具。因此，如何高效地存储和查询文本这种非结构数据，就是一个很值得研究的问题，也具有十分重要的现实意义。 1检索引擎的选择对于大规模文本信息的检索系统，文本数据的存储及索引的建立是前提。如何选择检索引擎，将关系到系统索引的建立和检索速度，是系统成败的关键因素。通常有两种方案，即全文检索引擎和关系型数据库引擎。这两者的实现原理不同，索引建立的方式不同，面向的主要问题也不同。就索引而言，关系型数据库（Relational Database, RDB）一般采用B树结构的索引，而全文检索引擎通常采用一种叫做倒排序索引结构的索引技术。其中，Lucene作为一种技术成熟和应用广泛的全文检索引擎，已基本能作为全文检索引擎的代表[1]。通过分析，并结合比较通用的实际应用环境，我们可以归纳出Lucene和RDB各自适用的应用场合，即：Lucene的优势在于大数据量的搜索、模糊搜索，以及Lucene自身提供的匹配度控制，所以Lucene比较适合应用在大文件的匹配查找、全文索引、文件的模糊搜索、需要控制结果匹配度（即越是匹配的结果越优先显示），以及只处理少部分结果集的场合。而RDB的优势在于，在需要的列上已建索引的情况下搜索条件可复杂，以及由于软件的完善和成熟，提供了很多额外实用的功能，所以RDB比较适合应用在查询条件复杂（如组合查询等）、涉及到多种数据类型的处理、涉及到所有结果集的处理、不需要匹配度控制，以及复杂的权限管理、事务管理和统计分析等等场合。在本文所要实现的系统，即大规模日志检索系统中，最频繁的操作是在大规模的数据中针对特定数据的模糊查询，不需要复杂的权限控制和事务处理，并且应该尽可能地将查询结果按一定的方式排序，即需要匹配度控制策略。因此，不难看出Lucene将是一个明智的选择。基于以上的分析和考虑，本文使用Lucene这一全文检索引擎实现了检索系统中的全文检索功能[2]。、 2索引存储管理策略日志索引服务器最核心的任务是合理地使用Lucene建立索引，以为检索提供可能和方便。一种可能的方案是，服务器上仅有一份索引表，所有的日志都被加入到该索引表中。检索时读取整个索引表并在其中执行检索。这是一种最简单的方法，但检索效率很成问题。尤其是在海量数据的情况下，一般