浅谈如何网页搜索招聘信息.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
  信息检索(InformatiON Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。   1? 招聘信息网页搜索   信息检索有广义和狭义的之分。广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。   信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。 随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统相继研制成功并商业化,20世纪60年代到80年代,在信息处理技术、通讯技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。Dialog国际联机情报检索系统是这一时期的信息检索领域的代表,至今仍是世界上最著名的系统之一。   招聘信息网页的搜索是从一个公司的首页开始,搜寻该站点内的所有招聘信息网页。下面将招聘信息网页简称为招聘网页。招聘信息是指具体的招聘职位、人数和要求等信息。本文假定存在一个入口页面,将其称之为公司招聘首页。该招聘主页可能不是招聘页面,因为它不包含具体的招聘信息,但是通过该页面可以链接到很多招聘页面,通过扩展这些招聘页面,可以到达公司的所有招聘页面。招聘页面的扩展是带有启发式的,即只扩展招聘页面,不扩展非招聘页面。   Spider又叫WebCrawler或者Robot,是一个沿着链接漫游Web 文档集合的程序。它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。WebCrawler的主要功能是自动从Internet上的各Web 站点抓取Web文档并从该Web文档中提取一些信息来描述该Web文档,为搜索引擎站点的数据库服务器追加和更新数据提供原始数据,这些数据包括标题、长度、文件建立时间、HTML文件中的各种链接数目等   2? 系统介绍   招聘网页搜索系统由4个模块组成:入口定位模块、招聘链接识别模块、招聘页面识别模块和页面搜索模块。Web招聘信息自动搜索平台总体结构如图1所示。   首先,由入口定位模块找到公司的招聘入口页面。然后页面搜索模块由入口页面出发,通过不断扩展招聘页面来获得所有的招聘页面。在扩展过程中,使用招聘页面识别模块来判别一个页面是否是招聘页面。招聘页面识别模块通过统计页面关键词词频来识别网页。下面将详细描述各个模块的具体算法。   2.1 入口定位模块   入口定位模块采用的是自主搜索算法。其原理是基于分步的思想。假设要查找美国高校计算机方面的论文,首先可以在一个大学网址中查找计算机系主页,找到后可以查找相应的教员目录,然后通过每个教员找到论文所在的页面。搜索知识的表述如图2所示。   在一步搜索词表中由样本得到的有“招聘信息”、“工作机会”、“加入我们”、“招贤纳士”等关键词。在二步搜索中,第一步得到的有“关于我们”、“人力资源”、“人才中心”等关键词,第二步得到的有“工作机会”、“校园招聘”、“社会招聘”、“招聘信息”等关键词。下面是具体的处理步骤:   SearchOneSite(TermSet,SearchArea,SearchKB,EventLog,WebPageSet){   //根据搜索知识、各网链特征集以及当前搜索路径,计算各网   //链搜索优先值   1.URLSet=ComputeURLPriority(TermSet,SearchArea,   SearchKB);   //按照各网链搜索优先值将其顺序压入栈中,以便进行回溯搜索   2.PushURLSetToSearchSTack(URLSet,SearchStack,SearchArea);   //从当前网链集中,弹取出一个候选URL(当前搜索优先权值   //最大)   3.OneURL=GetNextOneURL(SearchArea,SearchStack);   //若当前网链集地址已经被搜索完,则进行搜索回溯   4.If(OneU

文档评论(0)

tcpe + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档