孙斌北京大学计算机系计算语言所iclpkueducn教学内容.pptVIP

  • 4
  • 0
  • 约1.11千字
  • 约 76页
  • 2019-11-30 发布于天津
  • 举报

孙斌北京大学计算机系计算语言所iclpkueducn教学内容.ppt

孙 斌 北京大学计算机系计算语言所 (icl.pku.edu.cn);内容;1、“信息提取”的含义;举例说明:什么是信息提取;;会议信息一例;会议报道(例1) :人民日报1998-03-09;会议时间 Time;ICL.CS.PKU系统输出结果: 会议报道(例1)事件模板实例;会议报道(例2) :人民日报1998-01-07;会议报道(例2):汉语分词、标注、短语分析;会议报道(例2):命名实体与关系;会议报道(例2)事件模板实例;例2 会议信息结果;会议信息自动提取?;“XXX系统”;一种报刊信息加工“高级应用” 系统结构;错误匹配;错误匹配;(文本)信息提取的定义 ;信息提取涉及到两个方面的因素;与相关信息处理技术存在实质差异:;MUC (Message Understanding Conferences) ;MUC的IE任务定义;各个阶段的IE任务;实体(Entities)识别:90% 属性(Attributes)识别:80% (TE任务) 事实(Facts)识别:70% (TR任务) 事件(Events)识别:60% (ST任务);2、理解IE:目标、问题和对策;范式转移(paradigm shift);IE的背景与动机;Typical Process;A Conceived Process;并非那么简单的问题/答案;什么是信息(最小数据量);信息的至少三个层次;我们要提取什么信息?;信息提取的“8字方针”;物质结构规律 小常识;物质结构规律 小常识;物质结构规律 小常识;物质结构规律 小常识;信息组成方式;信息组成方式;IE是“化学变化”:原子一级的重新组合。;“原子构成分子”的简单例子;信息提取由简到繁;信息提取由简到繁;信息提取由简到繁;需要建立一个“IE元素周期表”;信息提取作为信道模型;信息提取作为信道模型;信息提取作为信道模型;3、中文信息提取系统设计;基本目标;系统流程;大致性能;基础设施;The Outline of A Chinese Word Knowledge-base;语言分析技术;几点特色 ;Generic Programming “泛型程序设计”;Generic Programming “泛型程序设计”;Layered Container/Iterator Model(分层的Container/Iterator模型);汉语命名实体的识别;汉语命名实体的识别;信息提取中的模式匹配;分级/Cascaded 模式匹配;模式分级的优点;特别技巧;信息提取中的模式匹配;4、Web页面的文本信息提取;“Web IE”;WebIE的一些初步应用;网上相关信息自动收集;结语;谢谢 !

文档评论(0)

1亿VIP精品文档

相关文档