面向教师简历的关系抽取.ppt

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
毕业设计答辩 题目:面向教师简历的关系抽取 提纲 课题介绍 系统总体介绍 关键技术 实验结果分析与改进 提纲 课题介绍 系统总体介绍 关键技术 实验结果分析与改进 课题介绍 传统关系抽取方法 有指导关系抽取 核方法 无指导关系抽取 序列模式学习算法 面向教师简历关系抽取 没有标注语料(无法采用机器学习方法) 引入搜索引擎机制 课题介绍 教师简历的实体类型: 课题介绍 本课题定义了7种教师简历实体关系: 提纲 课题介绍 系统总体介绍 关键技术 实验结果分析与改进 系统总体介绍 提纲 课题介绍 系统总体介绍 关键技术 实验结果分析与改进 关键技术 教师简历实体识别模块 基于动态词典的实体识别 技术:双数组Trie树 姓名、院系、职称、职务、性别、学位、学科 基于模板的实体识别 技术:正则表达式 电子邮箱: \b[A-Z0-9._%-]+@[A-Z0-9.-]+\.[A-Z]{2,4}\b 关键技术 特征提取 实体类型特征 选出有可能构成目标关系的候选实体对 实体距离特征 计算出候选实体对在一篇文档中的距离 实体共现概率特征 计算出候选实体对在语料中共同出现的概率 互信息模型 关键技术 搜索引擎的引入 关键技术 插件机制 关键技术 教师简历关系数据库 提纲 课题介绍 系统总体介绍 关键技术 实验结果分析与改进 实验结果分析与改进 人工标注200篇HTML文档作为测试集 处理6类教师简历实体关系 “姓名—电子邮箱” “姓名—性别” “姓名—职称” “姓名—职务” “姓名—学科” “姓名—学位” 实验结果分析与改进 实验结果 实验结果分析与改进 增加过滤规则,对“姓名—电子邮箱”关系的改进 将学校名与邮箱后缀映射 技术:维护一张映射表 例如:“哈工大”映射成“hit.edu” 将教师姓名与邮箱前缀映射 技术:IR实验室拼音模块 例如:“孙大烈”映射成“sdl” 例子:哈工大计算机学院孙大烈老师邮箱: sdl@hit.edu 实验结果分析与改进 改进后的结果对比 * 哈工大信息检索研究室 * 哈工大信息检索研究室 姓名:丁效 指导教师:秦兵 2009-06-26 开始 教师简历实体关系抽取数据 数据预处理 (分词、词性标注、教师简历实体识别) 建立索引库 特征提取 模型构造与测试 性能评估 结束 特征模型改进 否 是 达到要求? 最终方法和模型 * * * 哈工大信息检索研究室

文档评论(0)

seunk + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档