不限任何领域IE-Read.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
不限任何领域IE-Read.ppt

信息抽取 Information Extraction (IE) 主要内容 第一讲:基本概念 第二讲:Wrapper Induction HMM IR:不限任何领域 IE :局限于某一领域 Example: The Problem Example: A Solution Extracting Job Openings from the Web IE from Research Papers IE from Chinese Documents regarding Weather Chinese Academy of Sciences What is “Information Extraction” As a task: What is “Information Extraction” As a task: What is “Information Extraction” As a family of techniques: What is “Information Extraction” As a family of techniques: What is “Information Extraction” As a family of techniques: IE in Context 什么是信息抽取(IE)? 从一段文本中抽取指定的一类信息并将其形成结构化的数据填入一个数据库中供用户查询使用的过程。 信息抽取是简化的文本理解技术 处理对象是自然语言文本尤其是非结构化文本 信息抽取是一个输入/输出过程。 输入:未知文本信息 输出:固定格式、无二意性数据(信息) 这些被抽取出来的数据可以 直接显示给用户 存储于数据库或电子表格中以供随后分析 被用于索引系统,以便于将来进行检索访问 两条研究路线 基于KDD和Data Mining的线路。 基于自然语言处理(NLP)和文本挖掘(Text Mining)的线路。 信息检索和信息抽取对比(1) 功能不同 信息检索:仅仅从文件集(数据库)中找出相关的文献(数据)并简单地显现给用户 信息抽取:不是仅仅指出某篇文献适合用户的需要,而是抽取真正适合用户的那些信息片段提供给用户 信息检索和信息抽取对比 信息检索:获取一个与检索内容相关的文章的子集,用户得分析文章内容 信息检索和信息抽取对比 信息抽取:抽取与用户所需内容相关的事实(件),用户分析事实(件)。 信息检索和信息抽取对比(2) 处理技术不同 信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合(bags of words),不需要对文本进行深入分析理解 信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。 信息检索和信息抽取对比(3) 领域不同 信息检索系统通常是领域无关的 信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息 信息检索和信息抽取又是互补的 问题研究的意义 信息抽取的宗旨在于抽取指定的信息,它突破了信息检索中必须由人来阅读、理解、抽取信息的局限性,实现了信息的自动查找、理解和抽取。 信息抽取可以进一步精化信息检索的结果 信息抽取的每一个模块都可以作为输出应用 具有非常广泛的应用领域 应用于传统的信息检索. 可以集成到一些数据库应用系统 . 直接用于各种文本信息的处理过程之中. 信息抽取相关研究活动 MUC (Message Understanding for Comprehension) MET (Multilingual Entity Task Evaluation) ACE (Automatic Content Extraction) DUC (Document Understanding Conferences) 信息抽取的层次和类型 MUC根据信息抽取内容以及所抽取出的信息的集聚水平的不一样,将信息抽取分为以下的几种主要类型 NE 命名实体识别(Named Entity Recognition) MET 多语种实体识别任务(Multi-lingual Entity Task)信息抽取 TE 模板元素(Template Element)信息抽取 CO 参照(Coreference)信息抽取 TR 模板关系(Template Relation)信息抽取。 ST 情节模板(Scenario Template)信息抽取。 NE NE(Named Entity Recognition)命名实体识别 NE具有非常直接的实用价值,抽取人名、机构名、地名、日期、时间或百分数

文档评论(0)

sunguohong + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档