- 2
- 0
- 约2.84千字
- 约 7页
- 2021-03-16 发布于山东
- 举报
基于 lucene 的人才网全文搜索系统设计及应用
摘 要 在人才网中,传统的检索系统效率较多,随着人才信息和招聘信息数量的不断上升,这种检索系统难以满
足用户的需求。本文基于 Lucene.Net 框架,提出了一种分布式的全文搜索系统,希望能够对提高人才网检索的索引效率和检索速度提供一定的帮助。
【关键词】人才网 全文搜索系统 设计 Lucene.Net
系统设计
1.1 系统概念模型
随着现代经济的发展,人才网的规模越来越大,人才网
的功能也越来越使用,本文根据用户对人才网的普遍使用需
求,设计了如图 1 所示的系统概念模型。其中,通过 HTML
语言实现用户界面;数据库通过对数据的加载和转换操作实
现对推荐引擎的数据支持;模型库运行各类数据预测模型,
同时以 Web Service 提供系统服务。
1.2 系统架构
人才网由于所涉及的各类信息较多,通常采用分布式全
文检索系统,主要包括了检索服务、负载均衡服务及 web 服
务 3 个部分组成。随着求职人数的不断增加,企业所提供的职位也越来越多,在这种条件下,系统需要实现对大量人才
信息与企业职位信息资料的全文检索。因此,需要综合考虑在文件服务器及数据库中存储文档,提高系统的扩展性,使硬件的性能得以充分发挥,并实现高速的索引和检索服务。
同时,通过将 Lucene.Net 提供的索引及检索功能与 .Net 框架中的 Remoting 技术结合到一起, 实现了分布式的信息索引和检索。
系统结构主要包含了分布式索引与检索、负载均衡及 Web 服务三个部分。
1)分布式索引与检索服务。该部分服务主要是通过多台服务器对数据库及文件服务器中的文档建立索引,最终
检索出用户想要搜索的信息。该服务所提供的功能如表
1 所
示。
2)负载均衡服务。该部分服务主要实现对检索操作的调度,首先需要对系统当前的所有负载信息进行保存,这些信息主要包括当前连接的服务器信息、各个服务器的平均检索速度以及任务耗时等方面的信息;然后将各检索服务器的指标进行对比,系统按照对比结果将检索任务分配给负载最小的检索服务器执行。
3) Web 服务器。 Web 服务器的主要功能是提供网上信息浏览服务。在系统中, Web 服务主要为人才网前端与后台系统提供了对接渠道,将从后台服务器中所提取的信息转换成清晰易懂的图文信息,并将这些信息展示到客户端浏览
器中。
1.3 系统流程
1)索引流程。系统的索引流程主要可以分为三个阶段,首先是预处理阶段, Lucene 从系统源文件中提取出文本
信息,然后将这些文本信息转换成可以进行处理的字符流,
创建 Lucene 的索引文档对象以及所对应的索引域对象; 其次是分析阶段,调用系统的索引管理器中的 addDocument()
方法将数据传递给 Lucene 执行索引操作, 在对数据进行索引处理的过程中, Lucene 会调用系统分析器对这些数据进行分析操作,实现对数据的过滤和分词,提高索引的效率;最后
是索引写入过程, Lucene 完成对输入数据的分析后, 会将分析结果以倒排索引的形式写入到索引文件中。
2)检索流程。在建立索引结构滞后,可以通过指定的字段对索引进行检索。检索模块的性能及友好性对全文搜索引擎存在极大的影响,如果检索模块的性能较低,那么,无论系统的功能有多强大,整个系统也没有太大的实际应用
意义。
在对索引库信息进行检索的过程中, Lucene 首先会通过调用 IndexSearcher()函数来打开索引库,其中的参数指定索引库的具体路径,其次是使用 QueryParse()函数对查询语句进行转换, 将其转换成可供 Lucene 进行查询的对象, 最
后是执行搜索命令,并将结果返回到
Hits
集合中。
核心算法
2.1 同义词识别
在进行信息检索的过程中,通过采用频繁项集技术处理
核心职位的名称表述,从而实现对同义词及近义词的识别。
2.2 聚类算法
通过手动设置职位的类别范围, 系统通过 X-means 聚类
算法从中找到最佳类别,从而实现对职位类别的聚类。通过
聚类操作,可以使系统根据应聘者所选择的职位类别进行智
能职位信息推荐。
2.3 特征分类
通过对所收集的各类信息进行整理和分析,然后根据这
些数据信息的来源特点,可以将信息特征分为基本特征、提
取特征、标签特征和行为特征,这样可以为不同的推荐算法
提供依据,有效提高现算法结果的精确度。
实验结果分析
本文的全文搜索系统基于 Lucene.Net 框架进行设计, 采用 MySQL 编写后台数据库, 操作系统使用 MicroSoft 公司的 Windows Server 系统。总共架设两台物理服务器。
3.1 数据库数据报告
通过在数据库中的如下字段建立索引目录:
ID ,JOB_TYPES_
您可能关注的文档
- 对小学英语教科书中阅读语篇的分析.docx
- 多层螺旋CT增强扫描的影像学护理探究.docx
- 发电厂辅机电动机变频调速节能方案探讨.docx
- 方洪波近臣出藩之道.docx
- 防震减灾科普小知识.docx
- 房产继承遗嘱书.docx
- 房屋中介看房协议.docx
- 肥妞,我要陪你胖到200斤.docx
- 感谢同事的离职感谢信.docx
- 钢架大棚一年四茬高效栽培模式.docx
- 江苏省连云港市灌南县2025-2026学年高一上学期期中考试语文试题.doc
- 江苏省高邮市2025-2026学年高二上学期10月调研测试语文试题.docx
- 湖北省黄冈市普通高中2024-2025学年高二上学期期中考试语文试题.docx
- 河北省衡水市2025-2026学年高三上学期第四次调考语文试题(解析版).docx
- 黑龙江省绥化市新时代2025-2026学年高一上学期期中联考语文试题.docx
- 贵州省遵义市2024-2025学年高二上学期11月期中考试语文试题(解析版).docx
- 广西壮族自治区玉林市2024-2025学年高二上学期11月期中考试语文试题(解析版).docx
- 河北省张家口市2024-2025学年高一上学期期中考试语文试题(解析版).docx
- 河南省TOP二十名校2025-2026学年高二上学期10月调研考试(B卷)语文试题(解析版).docx
- 河北省保定市清苑区2025-2026学年高三上学期阶段检测(二)语文试题(解析版).docx
原创力文档

文档评论(0)