高校毕业生就业信息搜索引擎设计与实现.docVIP

高校毕业生就业信息搜索引擎设计与实现.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高校毕业生就业信息搜索引擎设计与实现

高校毕业生就业信息搜索引擎设计与实现   摘要:由于高校行政管理体制分割以及高校的保护主义,各高校信息网的就业信息基本是分立甚至是隔绝的,鲜有院校相互合作、共享就业信息。为把这些存储高校毕业生就业信息的信息孤岛连接在一起,给广大毕业生和用人单位搭建一个畅通的无障碍的沟通桥梁,笔者研究并实现了一个高校毕业生就业信息搜索引擎系统,阐述了就业信息采集器的算法及原理,利用多线程技术实现了就业信息采集器;建立了中文分词、索引算法,对命中的词语进行了高亮显示。   关键词:就业信息采集;搜索引擎;中文分词;索引算法; Lucene.Net   中图分类号: TP311 文献标识码:A 文章编号:1009-3044(2013)13-3081-03   1 概述   1998年以后随着高校扩招,高校毕业生急剧增加,毕业生的就业形势显得一年比一年严峻,2013年的毕业生人数达到690万。面对如此严峻的就业形势,毕业生及时有效的获取就业信息成为毕业生就业过程中最为关键的一环,因此毕业生就业信息的收集工作成为了高校就业指导工作的重要组成部分,只有让毕业生及时、准确、全面地掌握就业相关信息,才能使毕业生获得更多的求职机会,高校的就业指导工作才能更好的发挥作用。   四川大学吕婷同学在《论我国大学生就业体系的构建》的统计数据中显示,大学生在就业过程中获取就业信息的最主要渠道是校园招聘会,占23.2%,其次就是学校的就业公告栏,占20.2%,两者合计达到了43.4%, 再次为通过其他网络获取就业信息,达到16.3%,而政府招聘会、报纸、人才市场和亲戚朋友等就业信息渠道都在9%左右,[1]可见大学生在就业过程中更依赖从高校的就业信息渠道获取就业信息。   由于高校行政管理体制分割以及高校的保护主义,各高校毕业生就业信息网上提供的就业信息基本是分立甚至是隔绝的,鲜有院校相互合作、共享就业信息。这种高校高度自治的就业信息网站建设局面形成了数量庞大的信息孤岛。这样的信息孤岛看似保护了本校毕业生得利益,实际上也给毕业生的就业信息获取带来了诸多困难,因此建立高校毕业生就业信息搜索引擎为毕业生提供丰富的、及时的、有针对性的就业信息成为需要我们解决的一个课题。   2 垂直搜索引擎概述   垂直搜索的本质是对垂直门户信息提供方式的一次简化性的整合。它服务于某项功能的。而垂直搜索引擎是为垂直搜索服务,对网页中某类信息进行一次简化性的整合,通过关键词抽取出有用的数据进行处理,然后再返回给用户。   垂直搜索引擎的优点[2]:   1)稳定的用户群体   垂直搜索引擎为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具体信息。因此,特定行业的用户更加青睐垂直搜索引擎,是垂直搜索引擎的长期、稳定的群体。   2)搜索结果精确,查准率高   用户使用Google等通用搜索引擎的方式是通过关键词的方式实现的,是语义上的搜索,返回的结果倾向于知识成果,比如文章,论文,新闻等;垂直搜索也提供关键词来进行搜索,但被放到了这一行业知识的上下文中,返回的结果更倾向于信息、消息、条目等。   3 Lucene.Net简介   笔者通过C#结合L建立一个针对高校毕业生就业信息的搜索引擎,能够对高校毕业生就业信息网的信息进行采集、下载、分析、实现中文分词并建立索引,最后采用网页的形式为用户提供就业信息的检索。   搜索引擎各部分的主要功能描述如下:   1)采集站点管理   该模块用于管理垂直搜索引擎抓取的数据来源,即用于管理垂直搜索引擎需要采集的就业信息站点。为满足各种不同类型的高校对于就业信息的不同需求,系统允许高校根据自身的地域、专业特色、行业特性设置符合自身需求的就业信息网的网址信息,例如对同城高校和同行业高校的就业信息网进行采集,也可以让学生用户向服务器提供建议网站,通过这样的功能既提高了搜索引擎的专业性,也使得数据库中增加了很多学生认为对自己很有用的信息。   2)高校毕业生就业信息采集器   就业信息采集器是C#多线程技术实现的一个就业信息采集机器人,该机器人通过采集站点管理模块提供的目标站点目录作为入口,对目标采集站点中的就业信息进行采集,并将采集到的就业信息进行去HTML标签后存储到数据库,同时将网页保存至服务器作为后期网站快照的依据。   3)中文分词器   众所周知,英文是以词为单位的,词和词之间依靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。该功能模块把采集到的就业信息切分成有意义的词,中文分词的准

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档