基于lucene人才网全文搜索系统设计及应用.docVIP

下载本文档

3
0
约2.78千字
约 7页
2018-08-28 发布于福建
举报
版权申诉

基于lucene人才网全文搜索系统设计及应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于lucene人才网全文搜索系统设计及应用

基于lucene人才网全文搜索系统设计及应用　　摘要在人才网中，传统的检索系统效率较多，随着人才信息和招聘信息数量的不断上升，这种检索系统难以满足用户的需求。本文基于Lucene.Net框架，提出了一种分布式的全文搜索系统，希望能够对提高人才网检索的索引效率和检索速度提供一定的帮助。　　【关键词】人才网全文搜索系统设计 Lucene.Net 　　1 系统设计　　1.1系统概念模型　　随着现代经济的发展，人才网的规模越来越大，人才网的功能也越来越使用，本文根据用户对人才网的普遍使用需求，设计了如图1所示的系统概念模型。其中，通过HTML语言实现用户界面；数据库通过对数据的加载和转换操作实现对推荐引擎的数据支持；模型库运行各类数据预测模型，同时以Web Service提供系统服务。　　1.2 系统架构　　人才网由于所涉及的各类信息较多，通常采用分布式全文检索系统，主要包括了检索服务、负载均衡服务及web服务3个部分组成。随着求职人数的不断增加，企业所提供的职位也越来越多，在这种条件下，系统需要实现对大量人才信息与企业职位信息资料的全文检索。因此，需要综合考虑在文件服务器及数据库中存储文档，提高系统的扩展性，使硬件的性能得以充分发挥，并实现高速的索引和检索服务。同时，通过将Lucene.Net提供的索引及检索功能与.Net框架中的Remoting技术结合到一起，实现了分布式的信息索引和检索。　　系统结构主要包含了分布式索引与检索、负载均衡及Web服务三个部分。　　（1）分布式索引与检索服务。该部分服务主要是通过多台服务器对数据库及文件服务器中的文档建立索引，最终检索出用户想要搜索的信息。该服务所提供的功能如表1所示。　　（2）负载均衡服务。该部分服务主要实现对检索操作的调度，首先需要对系统当前的所有负载信息进行保存，这些信息主要包括当前连接的服务器信息、各个服务器的平均检索速度以及任务耗时等方面的信息；然后将各检索服务器的指标进行对比，系统按照对比结果将检索任务分配给负载最小的检索服务器执行。　　（3）Web服务器。Web服务器的主要功能是提供网上信息浏览服务。在系统中，Web服务主要为人才网前端与后台系统提供了对接渠道，将从后台服务器中所提取的信息转换成清晰易懂的图文信息，并将这些信息展示到客户端浏览器中。　　1.3 系统流程　　（1）索引流程。系统的索引流程主要可以分为三个阶段，首先是预处理阶段，Lucene从系统源文件中提取出文本信息，然后将这些文本信息转换成可以进行处理的字符流，创建Lucene的索引文档对象以及所对应的索引域对象；其次是分析阶段，调用系统的索引管理器中的addDocument（）方法将数据传递给Lucene执行索引操作，在对数据进行索引处理的过程中，Lucene会调用系统分析器对这些数据进行分析操作，实现对数据的过滤和分词，提高索引的效率；最后是索引写入过程，Lucene完成对输入数据的分析后，会将分析结果以倒排索引的形式写入到索引文件中。　　（2）检索流程。在建立索引结构滞后，可以通过指定的字段对索引进行检索。检索模块的性能及友好性对全文搜索引擎存在极大的影响，如果检索模块的性能较低，那么，无论系统的功能有多强大，整个系统也没有太大的实际应用意义。　　在对索引库信息进行检索的过程中，Lucene首先会通过调用IndexSearcher（）函数来打开索引库，其中的参数指定索引库的具体路径，其次是使用QueryParse（）函数对查询语句进行转换，将其转换成可供Lucene进行查询的对象，最后是执行搜索命令，并将结果返回到Hits集合中。　　2 核心算法　　2.1 同义词识别　　在进行信息检索的过程中，通过采用频繁项集技术处理核心职位的名称表述，从而实现对同义词及近义词的识别。　　2.2 聚类算法　　通过手动设置职位的类别范围，系统通过X-means聚类算法从中找到最佳类别，从而实现对职位类别的聚类。通过聚类操作，可以使系统根据应聘者所选择的职位类别进行智能职位信息推荐。　　2.3 特征分类　　通过对所收集的各类信息进行整理和分析，然后根据这些数据信息的来源特点，可以将信息特征分为基本特征、提取特征、标签特征和行为特征，这样可以为不同的推荐算法提供依据，有效提高现算法结果的精确度。　　3 实验结果分析　　本文的全文搜索系统基于Lucene.Net框架进行设计，采用MySQL编写后台数据库，操作系统使用MicroSoft公司的Windows Server系统。总共架设两台物理服务器。　　3.1 数据库数据报告　　通过在数据库中的如下字段建立索引目录：　　ID，JOB_TYPES_NAME， WOR