基于lucene的人才网全文搜索系统设计及应用.docxVIP

  • 2
  • 0
  • 约2.84千字
  • 约 7页
  • 2021-03-16 发布于山东
  • 举报

基于lucene的人才网全文搜索系统设计及应用.docx

基于 lucene 的人才网全文搜索系统设计及应用 摘 要 在人才网中,传统的检索系统效率较多,随着人才信息和招聘信息数量的不断上升,这种检索系统难以满 足用户的需求。本文基于 Lucene.Net 框架,提出了一种分布式的全文搜索系统,希望能够对提高人才网检索的索引效率和检索速度提供一定的帮助。 【关键词】人才网 全文搜索系统 设计 Lucene.Net 系统设计 1.1 系统概念模型 随着现代经济的发展,人才网的规模越来越大,人才网 的功能也越来越使用,本文根据用户对人才网的普遍使用需 求,设计了如图 1 所示的系统概念模型。其中,通过 HTML 语言实现用户界面;数据库通过对数据的加载和转换操作实 现对推荐引擎的数据支持;模型库运行各类数据预测模型, 同时以 Web Service 提供系统服务。 1.2 系统架构 人才网由于所涉及的各类信息较多,通常采用分布式全 文检索系统,主要包括了检索服务、负载均衡服务及 web 服 务 3 个部分组成。随着求职人数的不断增加,企业所提供的职位也越来越多,在这种条件下,系统需要实现对大量人才 信息与企业职位信息资料的全文检索。因此,需要综合考虑在文件服务器及数据库中存储文档,提高系统的扩展性,使硬件的性能得以充分发挥,并实现高速的索引和检索服务。 同时,通过将 Lucene.Net 提供的索引及检索功能与 .Net 框架中的 Remoting 技术结合到一起, 实现了分布式的信息索引和检索。 系统结构主要包含了分布式索引与检索、负载均衡及 Web 服务三个部分。 1)分布式索引与检索服务。该部分服务主要是通过多台服务器对数据库及文件服务器中的文档建立索引,最终 检索出用户想要搜索的信息。该服务所提供的功能如表 1 所 示。 2)负载均衡服务。该部分服务主要实现对检索操作的调度,首先需要对系统当前的所有负载信息进行保存,这些信息主要包括当前连接的服务器信息、各个服务器的平均检索速度以及任务耗时等方面的信息;然后将各检索服务器的指标进行对比,系统按照对比结果将检索任务分配给负载最小的检索服务器执行。 3) Web 服务器。 Web 服务器的主要功能是提供网上信息浏览服务。在系统中, Web 服务主要为人才网前端与后台系统提供了对接渠道,将从后台服务器中所提取的信息转换成清晰易懂的图文信息,并将这些信息展示到客户端浏览 器中。 1.3 系统流程 1)索引流程。系统的索引流程主要可以分为三个阶段,首先是预处理阶段, Lucene 从系统源文件中提取出文本 信息,然后将这些文本信息转换成可以进行处理的字符流, 创建 Lucene 的索引文档对象以及所对应的索引域对象; 其次是分析阶段,调用系统的索引管理器中的 addDocument() 方法将数据传递给 Lucene 执行索引操作, 在对数据进行索引处理的过程中, Lucene 会调用系统分析器对这些数据进行分析操作,实现对数据的过滤和分词,提高索引的效率;最后 是索引写入过程, Lucene 完成对输入数据的分析后, 会将分析结果以倒排索引的形式写入到索引文件中。 2)检索流程。在建立索引结构滞后,可以通过指定的字段对索引进行检索。检索模块的性能及友好性对全文搜索引擎存在极大的影响,如果检索模块的性能较低,那么,无论系统的功能有多强大,整个系统也没有太大的实际应用 意义。 在对索引库信息进行检索的过程中, Lucene 首先会通过调用 IndexSearcher()函数来打开索引库,其中的参数指定索引库的具体路径,其次是使用 QueryParse()函数对查询语句进行转换, 将其转换成可供 Lucene 进行查询的对象, 最 后是执行搜索命令,并将结果返回到  Hits  集合中。 核心算法 2.1 同义词识别 在进行信息检索的过程中,通过采用频繁项集技术处理 核心职位的名称表述,从而实现对同义词及近义词的识别。 2.2 聚类算法 通过手动设置职位的类别范围, 系统通过 X-means 聚类 算法从中找到最佳类别,从而实现对职位类别的聚类。通过 聚类操作,可以使系统根据应聘者所选择的职位类别进行智 能职位信息推荐。 2.3 特征分类 通过对所收集的各类信息进行整理和分析,然后根据这 些数据信息的来源特点,可以将信息特征分为基本特征、提 取特征、标签特征和行为特征,这样可以为不同的推荐算法 提供依据,有效提高现算法结果的精确度。 实验结果分析 本文的全文搜索系统基于 Lucene.Net 框架进行设计, 采用 MySQL 编写后台数据库, 操作系统使用 MicroSoft 公司的 Windows Server 系统。总共架设两台物理服务器。 3.1 数据库数据报告 通过在数据库中的如下字段建立索引目录: ID ,JOB_TYPES_

文档评论(0)

1亿VIP精品文档

相关文档