(任宁)求职简历信息的自动抽取.pptVIP

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
求职简历信息的自动抽取 --任宁 求职简历信息抽取的意义 大型公司人力资源库的动态更新 猎头公司建立人力资源库 招聘网站便利用户 网上进行的各种认证、报名的需要 求职简历的特点 求职简历范例 结构化文本 半结构化文本 非结构化文本 求职简历的构成 求职简历的“A+B+1”结构模式 A部分:个人信息 此外教育背景、实践经历、个人评价还有其他信息的部分内容也出现在这一部分。 B部分:教育背景、实践经历和个人评价 此外可能含有其他信息和联系信息中的部分内容。 “1”:联系信息 联系信息既可能出现在A部分,也可能出现在B部分的末尾。 把求职简历的格式以“A+B+1”模式来描述的原因 在A部分,各简历信息基本是以“项:值”格式存在的。即前面是简历项名称,后面是简历项内容,中间用分隔符(可能是“:”、制表符或空格)隔开。值的部分是表达单纯概念的简单信息,往往是一个短语。 而在B部分,各简历信息的值相对复杂,为组合概念,项、值之间多以换行分隔。 “A+B+1”的具体构成 求职简历信息的抽取方法 求职简历A部分简历信息的抽取方法 求职简历B部分简历信息的抽取方法 识别求职简历A部分与B部分的分界 “1”的定位和处理 求职简历A部分简历信息的抽取方法 按顺序一行行读入文本; 去掉每行空格; 以A部分简历信息中常见的简历项名称做触发词语,遇到触发词语则替换成“换行符+触发词语”的格式; 对A部分每一行进行处理,提取触发词语作为简历项名称,后面的部分做为简历项的“值”。 求职简历B部分简历信息的抽取方法 按顺序一行行读入文本,去掉“【”、“】”、“—”等修饰美观的成分。 以B部分简历信息中常见的简历项名称做触发词语,遇到触发词语则以触发词语作为“项”,后面的部分作为“值”,直到遇到下一个触发词语为止。 识别求职简历A部分与B部分的分界 顺序遍历文本,搜索第一个B部分触发词语的位置,判断此触发词语与其“值”之间是否有换行符分割。若有,则认为此处是A与B的分界。否则,继续向后遍历,寻找下一个B部分触发词语。 “1”的定位和处理 “1”联系信息有时出现在A部分,有时出现在B部分之后(即文本末尾)。对这部分信息,处理方法如下: 利用联系信息触发词表定位联系信息; 对于联系信息部分以与A部分相同的方法进行处理。 抽取结果 结论及未来工作展望 由于时间有限,作者的水平也有限,本研究还存在很多不足,在未来的工作中,希望能尽量减少这些不足。 首先,本研究的测试结果是建立在封闭测试基础上的,开放测试缺乏。 其次,还没有对组合信息内部进行分析和处理。比如工作经验信息,只是将应聘者的工作经历作为一个整体提取出来,没有对其工作年限、任职部门、担任职务和所负责的主要内容作进一步的分析和处理。 第三,未进行简历项名称的识别。 完毕,谢谢。 * *

文档评论(0)

海川电子书城 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档