- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
不限任何领域IE-Read.ppt
信息抽取 Information Extraction (IE) 主要内容 第一讲:基本概念 第二讲:Wrapper Induction HMM IR:不限任何领域 IE :局限于某一领域 Example: The Problem Example: A Solution Extracting Job Openings from the Web IE from Research Papers IE fromChinese Documents regarding Weather Chinese Academy of Sciences What is “Information Extraction” As a task: What is “Information Extraction” As a task: What is “Information Extraction” As a family of techniques: What is “Information Extraction” As a family of techniques: What is “Information Extraction” As a family of techniques: IE in Context 什么是信息抽取(IE)? 从一段文本中抽取指定的一类信息并将其形成结构化的数据填入一个数据库中供用户查询使用的过程。 信息抽取是简化的文本理解技术 处理对象是自然语言文本尤其是非结构化文本 信息抽取是一个输入/输出过程。 输入:未知文本信息 输出:固定格式、无二意性数据(信息) 这些被抽取出来的数据可以 直接显示给用户 存储于数据库或电子表格中以供随后分析 被用于索引系统,以便于将来进行检索访问 两条研究路线 基于KDD和Data Mining的线路。 基于自然语言处理(NLP)和文本挖掘(Text Mining)的线路。 信息检索和信息抽取对比(1) 功能不同 信息检索:仅仅从文件集(数据库)中找出相关的文献(数据)并简单地显现给用户 信息抽取:不是仅仅指出某篇文献适合用户的需要,而是抽取真正适合用户的那些信息片段提供给用户 信息检索和信息抽取对比 信息检索:获取一个与检索内容相关的文章的子集,用户得分析文章内容 信息检索和信息抽取对比 信息抽取:抽取与用户所需内容相关的事实(件),用户分析事实(件)。 信息检索和信息抽取对比(2) 处理技术不同 信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合(bags of words),不需要对文本进行深入分析理解 信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。 信息检索和信息抽取对比(3) 领域不同 信息检索系统通常是领域无关的 信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息 信息检索和信息抽取又是互补的 问题研究的意义 信息抽取的宗旨在于抽取指定的信息,它突破了信息检索中必须由人来阅读、理解、抽取信息的局限性,实现了信息的自动查找、理解和抽取。 信息抽取可以进一步精化信息检索的结果 信息抽取的每一个模块都可以作为输出应用 具有非常广泛的应用领域 应用于传统的信息检索. 可以集成到一些数据库应用系统 . 直接用于各种文本信息的处理过程之中. 信息抽取相关研究活动 MUC (Message Understanding for Comprehension) MET (Multilingual Entity Task Evaluation) ACE (Automatic Content Extraction) DUC (Document Understanding Conferences) 信息抽取的层次和类型 MUC根据信息抽取内容以及所抽取出的信息的集聚水平的不一样,将信息抽取分为以下的几种主要类型 NE 命名实体识别(Named Entity Recognition) MET 多语种实体识别任务(Multi-lingual Entity Task)信息抽取 TE 模板元素(Template Element)信息抽取 CO 参照(Coreference)信息抽取 TR 模板关系(Template Relation)信息抽取。 ST 情节模板(Scenario Template)信息抽取。 NE NE(Named Entity Recognition)命名实体识别 NE具有非常直接的实用价值,抽取人名、机构名、地名、日期、时间或百分数
您可能关注的文档
- 双光束激光填丝焊工艺对铝合金焊接气孔率的影响.PDF
- 叶用莴苣幼苗幼叶总蛋白SDS-PAGE.PDF
- 基于ATmega16的双电源自动切换控制器.PDF
- 基于ZigBee的岩心扫描仪监控系统设计与实现.PDF
- 基于无操作系统的DHCP客户端①.PDF
- 基于时域全量故障模型相关性判别的集群风电送出线纵联保护.PDF
- 基本字义解释钩(鈎)gōu.PDF
- 寒亭区2015年公共财政预算收入完成情况表.PDF
- 104学年度绩效表现-光复商工.doc
- 107年第28届会长盃.doc
- 专题二软件过程及其改进.ppt
- 黄陂肉糕制作工艺优化与关键指标相关性分析.PDF
- (供应商增补Ⅴ)(GZWH-2018-6222)入围供应商一览表.PDF
- 中国CDM项目合作进展情况CurrentissuesonCDMProject.PDF
- 中国公共环境支出非均衡性测度及评价-经济与管理研究-首都经济贸易.PDF
- 中国水资源与经济发展要素的时空匹配分析.PDF
- 中国耕地质量评价和监测研究进展与展望-安徽农业科学.PDF
- 中文名词组的辨识ChineseNPChunking.ppt
- 中文名词组的辨识监督式与半监督式学习法的实验ChineseNPChunking.PDF
- 中英口译训练过程与语篇练习范本设计Chinese-EnglishInterpreter.PDF
最近下载
- 第7课《定期体检 预防常见病》(教案) - 2024—2025学年人教版(2024)初中体育与健康七年级全一册.docx
- 2025林地分等定级规程.pdf VIP
- 计算机操作系统实验-解析ELF文件.doc VIP
- 智能建造技术在桥梁施工中的应用.pptx VIP
- Unit3KeepFitSectionBProject课件人教版英语七年级下册.pptx VIP
- HGT3809-2023工业溴化钠(报批稿).pdf VIP
- 小红书商业模式分析.pptx VIP
- 铜的电阻率热导率比热值热膨胀系数及杨氏模量.pdf VIP
- 第7课++定期体检+++预防常见病++课件++2024—2025学年人教版(2024))初中体育与健康七年级全一册.pptx VIP
- 粉尘爆炸重大事故隐患判定标准(图文并茂第一版)精品.pdf
原创力文档


文档评论(0)