- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
智能简历识别系统的研究和实现
陈川波
北京邮电大学,北京 (100876 )
E-mail: ctccbo@
摘 要:针对半格式化文本,通过文字识别技术,如:匹配、关联性分析、统计等方法将可
能存在的目标信息识别出来,实现机器智能化识别;并且按照预定义进行格式化,将文本进
行解析、分类,存入数据库中。
关键词:半格式化,元,项,正则匹配,关联性,统计
1.半格式化文本特征分析
简历是一种典型的半格式化的文本,其文本组织方式与普通文本不同,具有一定的格式,
但与严格的格式文本不同,这种格式是相对的,比较松散,具有一定的自由度[1] 。这里的简
历不包括求职信这样的文本。
[1]
这种半格式化文本具有以下几个特点 :
1、从内容组织上看,整个文本是由若干离散的、具有独立完整意义的文本段(可能是
词、短语、句子或段落)按作者的逻辑思维顺序组成,这些离散文本可以称之为组成半格式
化文本的“元”(element ),元与元之间通常会有格式的(如回车、空格、冒号等等)或内
容的(如标志性词语)分割标志;
2 、从内容结构上看,是由若干相对独立的、具有完整意义的“项”(Item )组成。从项
的内容上看,每一项体现了作者一个方面的信息;从项的结构上看,一个项至少由一个元组
成,而且绝大多数项都具有“标题+ 内容”的结构(其中标题一般由一个元组成,内容由一
个或一个以上的元组成),标题用于表示信息类别,内容表示具体信息。例如“姓名:张三”
这一项中,内容上反映了作者的姓名信息,结构上,“姓名”是该项的标题,“张三”是该项
的内容,少数项只有内容而没有标题,但是,这种项的内容通常暗含了项的类别,具有标题
的特点,例如:“男”,既包括了作者性别方面内容,也暗含了性别这个类别;
3、从项的内容特点上看,所有项可以分成两大类:基本项和复杂项。基本项是指该项
的内容通常只有一个元,从格式上看,通常是“一个标题元+一个内容元”的形式(一对一);
复杂项是指其内容可能由多个独立意义的词、短语、句子或段落组成,通常是“一个标题元
+多个内容元”的形式(一对多);
4 、大多数简历可以大致分块。通常基本项具有聚合性的特点,即大多数情况下基本项
在简历中的分布集中于一个或两个集中的区域里,而且通常是文本首尾区域,极少出现散布
在整个简历中的情况,这与人们的写作习惯和逻辑思维是一致的;同一内容范围的复杂项通
常集中分布在简历中的一个区域内,并且一般的情况下会有特别的标识信息,如工作经验,
通常会在某一个文本块中集中出现,而其他地方不出现;
5、从文本内容标识性的强弱上看,所有元可以分为三类:强标识、弱标识、无标识。
强标识是指,从元的文本内容上就可以依较大概率 (50%以上,该概率根据样本统计得到)
判断该文本的所属类别,一般的说,标题元和少部分内容元是这种类型,因为标题通常是用
来表示类别的,如“姓名”;另外,少部分内容元因为其内容的特殊性,具有标识类别的效
果,如“男”、“ct_bupt_pris@163.com ”等等;弱标识是指,可能属于多个类别或者不具有
标识类别的效果,但是结合前后文已标识的文本,可以判断出其类别的元,例如:元“北京
- 1 -
邮电大学”在前文是毕业院校是,即是毕业院校类别的内容,若前文是工作单位,则它是工
作单位的容,造成这个的原因,通常来说是因为“大学”这个关键字,既可以表示毕业院校、
也可能是一个工作单位;无标识是指,该元不具有标识其类别的特点,也不能通过上下文来
判别其类别,通常来说是因为不含有任何必要关键字造成的,例如一些存在于简历中的诗句
和宣言。
6、从整个文本的组织顺序上看,一般的,文本中全部元都是按照正常的思维写作次序
排列,这就决定了我们可以找到一些元与元之间的关联规则用以一些识别策略,且可以保证
这些策略的可靠性较高。
2 .智能简历识别系统研究
2
文档评论(0)