- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向招聘信息主题搜索引擎研究与设计
面向招聘信息主题搜索引擎研究与设计
【摘要】根据特定的主题用户的应用需求,深入研究主题搜索引擎的组织与结构,并结合实际情况,对主题信息收集模块进行设计。
【关键词】Nutch检索搜索引擎
【文献编码】 doi:10.3969/j.issn.0450-9889(C).2011.06.051
从2009年开始,搜索引擎进入新一轮的快速发展时期。2010年上半年,一方面,搜索引擎用户规模和渗透率持续增长;另一方面,用户使用搜索引擎的频率增加,生活中各种信息的获取更多地诉求于互联网和搜索引擎。搜索引擎界掀起了一场看不见的硝烟的战争,人们希望搜索引擎能够更加精确的返回所需的信息,主题搜索引擎成为了未来搜索引擎发展的趋势。目前,每年都有几百万的高校应届毕业生毕业,教育部公布2010年全国高校应届毕业生人数达到630万人。应届生毕业生都希望能够搜集许多的招聘信息以便尽快地找到合适自己的工作岗位,为此,开发一个面向招聘信息的主题搜索引擎是非常有意义的。
一、Nutch简介
本系统的设计是在Nutch上进行二次开发与设计的。Nutch是一个完整的Java应用系统,是基于Lucene的完整的搜索引擎。Nutch开放源码,方便程序员通过对源码的修改,对Nutch进行重新发布,通过Tomcat等Web服务器可以进行检索。
二、 系统功能分析
(一) 系统功能需求分析
面向招聘信息的主题搜索可以为需要找工作的信息检索用户提供面向招聘信息、岗位需求等方面的检索功能,与百度和谷歌的区别在于能够快速的返回给检索用户更精确的信息。
要实现一个专题的搜索引擎,只需要在通用搜索引擎的基础上,针对某一个领域的主题资源进行处理,主要的用户功能需求如图1所示。
(二) 设计目标
招聘信息主题搜索系统的设计目标:其一,本系统的为了符合主题用户的实际需要,为用户收集各类招聘信息及各类岗位信息,其中包括用户最关心的公司名称、工作地点、薪金待遇、联系方式等。其二,系统的开发是面向招聘信息这一特定的主题,相对于通用搜索引擎返回的结果更精确、更集中、更快速,引入中文分词技术,设计一个中文分词器,提高Nutch原有的分词器的分词准确率。其三,为用户提供友好的交互界面,操作简单方便。
三、 招聘信息主题搜索引擎的系统总体设计
主题搜索引擎与通用搜索引擎的工作原理基本相同,因此,本系统的设计就是以通用搜索引擎为基本架构,在网络上通过信息抓取模块将与招聘信息相关的内容进行收集,信息提取模块将收集到的信息进行内容的提取并交给中文分词模块进行分词后存储,由索引模块进行索引后保存在索引数据库中,用户可以通过向检索模块提交查询请求后,在索引数据库中检索得到相应的结果,并将结果返回给用户。系统的总体结构如图2示。
根据系统的总体设计结构,系统在设定的一定时间间隔内定期在网络上抓取网页中的有效信息;对抓取得到的网页信息进行分词处理,建立索引,存入索引数据库;系统在接收用户的查询请求后,对查询语句进行分词处理,与索引数据库中的索引数据进行匹配,将得到的匹配信息提取排序后,以结果页面的形式返回给用户。
四、 主题信息抓取模块的设计
(一) 主题信息抓取的设计目标及流程
主题爬虫在网络上搜集网络资源是有针对性,在对信息进行采集完成后,经过分析、提取等处理后,交给索引模块进行索引,最后用户可以通过检索模块进行相关的查询检索,这是主题搜索引擎的整个工作流程,在这一过程中,主题爬虫将影响整个主题搜索引擎的性能。主题爬虫的工作流程如图3所示。
主题爬虫的工作流程是,首先从初始种子站点中开始进行信息的采集,对获取的网页的页面进行分析和处理,提取其中的URL,判断获取的网页的页面及URL与主题的相关度,如果满足某一个停止的条件则停止采集任务,如果没有满足则继续根据某种搜索策略选择优先级高的URL继续进行信息的采集。主题爬虫的任务就是尽可能多的采集与主题相关度的页面,以此来保证系统对主题的覆盖率,因此,主题爬虫的设计主要从以下两个方面进行考虑:
1. 下载与主题相关的网页。对于主题搜索引擎来说,在用户向系统提交查询请求后,返回给用户的信息应尽量的满足用户的需求,而不是返回大量的无用信息。因此,主题爬虫的任务不是去尽可能多的收集互联网上的信息,而是尽可能的下载与主题相关的网页。
2. 决定主题爬虫的搜索策略。主题爬虫在访问URL的过程中与通用搜索引擎的爬虫不同,通用搜索引擎的爬虫对于URL的访问不需考虑爬取的页面是否与主题相关,只考虑尽可能多的下载页面,从而完成对海量信息的收集。主题爬虫爬取的目标是有针对性的,在访问URL收集信息的过程中,需要考虑待爬行的页面与主题的相关
您可能关注的文档
最近下载
- 电子病历系统应用水平三级实证材料通用模板(基本项部分)(2024版).doc VIP
- 【2020国开】国开2020《Web开发基础》形考任务1-5题目汇总..pdf VIP
- 家校协同育人活动方案.docx VIP
- 人教部编版三年级语文上册 第四单元主题阅读——预测(含答案及详细解析).pdf VIP
- 食堂原材料采购管理.docx VIP
- DB46_T 716-2025 胡椒槟榔复合栽培技术规程.pdf
- 新苏教版六年级科学上册试卷1-5单元测试卷含答案5单元全册打包期中期末复习.docx VIP
- 2025重庆铜梁区面向社会集中回引36人笔试备考试题及答案解析.docx VIP
- 浙江省杭州观成实验学校2024-2025学年八年级上学期期中考试英语试题.docx VIP
- 2025年广西壮族自治区中考道德与法治真题卷(含答案与解析).pdf VIP
文档评论(0)