毕业设计答辩 - 哈工大信息检索的研究室.pptVIP

  • 3
  • 0
  • 约1.32千字
  • 约 23页
  • 2017-03-03 发布于江苏
  • 举报

毕业设计答辩 - 哈工大信息检索的研究室.ppt

哈工大信息检索研究室 哈工大信息检索研究室 毕业设计答辩 题目:面向教师简历的关系抽取 姓名:丁效 指导教师:秦兵 2009-06-26 */20 提纲 课题介绍 系统总体介绍 关键技术 实验结果分析与改进 */20 提纲 课题介绍 系统总体介绍 关键技术 实验结果分析与改进 */20 课题介绍 传统关系抽取方法 有指导关系抽取 核方法 无指导关系抽取 序列模式学习算法 面向教师简历关系抽取 没有标注语料(无法采用机器学习方法) 引入搜索引擎机制 */20 课题介绍 教师简历的实体类型: */20 课题介绍 本课题定义了7种教师简历实体关系: */20 提纲 课题介绍 系统总体介绍 关键技术 实验结果分析与改进 */20 系统总体介绍 开始 教师简历实体关系抽取数据 数据预处理 (分词、词性标注、教师简历实体识别) 建立索引库 特征提取 模型构造与测试 性能评估 结束 特征模型改进 否 是 达到要求? 最终方法和模型 */20 提纲 课题介绍 系统总体介绍 关键技术 实验结果分析与改进 */20 关键技术 教师简历实体识别模块 基于动态词典的实体识别 技术:双数组Trie树 姓名、院系、职称、职务、性别、学位、学科 基于模板的实体识别 技术:正则表达式 电子邮箱: \b[A-Z0-9._%-]+@[A-Z0-9.-]+\.[A-Z]{2,4}\b */20 关键技术 特征提取 实体类型特征 选出有可能构成目标关系的候选实体对 实体距离特征 计算出候选实体对在一篇文档中的距离 实体共现概率特征 计算出候选实体对在语料中共同出现的概率 互信息模型 */20 关键技术 搜索引擎的引入 */20 关键技术 插件机制 */20 关键技术 教师简历关系数据库 */20 提纲 课题介绍 系统总体介绍 关键技术 实验结果分析与改进 */20 实验结果分析与改进 人工标注200篇HTML文档作为测试集 处理6类教师简历实体关系 “姓名—电子邮箱” “姓名—性别” “姓名—职称” “姓名—职务” “姓名—学科” “姓名—学位” */20 实验结果分析与改进 实验结果 */20 实验结果分析与改进 增加过滤规则,对“姓名—电子邮箱”关系的改进 将学校名与邮箱后缀映射 技术:维护一张映射表 例如:“哈工大”映射成“hit.edu.cn” 将教师姓名与邮箱前缀映射 技术:IR实验室拼音模块 例如:“孙大烈”映射成“sdl” 例子:哈工大计算机学院孙大烈老师邮箱: sdl@hit.edu.cn */20 实验结果分析与改进 改进后的结果对比 */20 谢谢!QA 学习动物精神 11、机智应变的猴子:工作的流程有时往往是一成不变的,新人的优势在于不了解既有的做法,而能创造出新的创意与点子。一味 地接受工作的交付, 只能学到工作方法 的皮毛,能思考应 变的人,才会学到 方法的精髓。 学习动物精神 12、善解人意的海豚:常常问自己:我是主管该怎么办才能有助于更好的处理事情的方法。在工作上善解人意, 会减轻主管、共 事者的负担,也 让你更具人缘。 * 哈工大信息检索研究室 哈工大信息检索研究室 *

文档评论(0)

1亿VIP精品文档

相关文档