自然语言处理与信息抽取.20110826.pdf

  1. 1、本文档共401页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国计算机学会《学科前沿讲习班》第21期 面向互联网的自然语言处理技术——理论、方法与应用问题研究 第二讲 自然语言处理和信息抽取 赵 军(jzhao@ ) 共同讲者:刘康、韩先培、周光有、蔡黎 中国科学院自动化研究所 模式识别国家重点实验室 引言(1/3)  50-60年代:自然语言处理研究领域是作为人工智能的应用发 展起来的  最早的自然语言理解方面的研究工作是机器翻译,20世纪60年代,国 外对机器翻译曾有大规模的研究工作  普遍采用基于规则的方法,或者基于知识库的方法,在限定领域取得 成功  但人们低估了自然语言的复杂性,在开放领域遇到很大的困难  90年代开始:随着大规模词典和真实语料库的研制,给自然 语言处理领域的研究带来了巨大变化  基于语料库的统计自然语言学习成为一种重要的方法  自然语言处理系统面向大规模真实文本的处理,使得研制的系统开始 面向实用  系统并不要求能对自然语言文本进行深层理解,而是从中抽取一些有 用信息,作为自然语言部分理解的一种形式——信息抽取 引言(2/3)  过去10年:随着互联网的普及,为自然语言处理领域提供了 强有力的应用牵引和海量语言资源  自然语言处理技术和信息检索技术结合,自然语言处理技术的应用领 域大大扩大——问答系统等  统计自然语言学习方法受限于语料库的规模,过拟合问题严重,缺乏 推广能力  目前:随着Web2.0的普及,网络上积累了规模巨大的User Generated Content ,为自然语言处理技术的发展提供了新 的资源和技术创新的源泉  例如Wikipedia、社区问答资源等,为建立大规模知识库奠定基础  基于知识的方法在开放域自然语言处理处理任务中的应用成为可能  基于知识的方法和基于统计的方法的融合受到关注 引言(3/3)  本课程将面向互联网应用,选取依存句法分析、信 息抽取、观点挖掘和倾向性分析、问答系统等四个 自然语言处理领域的研究方向,系统介绍其中的基 本概念、主要方法、最新研究进展、需要解决的问 题和发展趋势  目标:听者能够对以上几个研究方向的基本轮廓和 发展脉络有较为系统的了解 主要内容  第一课 09:00-10:00 信息抽取  第二课 10:20-11:30 观点挖掘和倾向性分析  第三课 14:00-15:00 问答系统  第四课 15:20-16:20 依存句法分析  第五课 16:30-17:00 互动课 主要内容之间的关系  信息抽取:以实体为中心的事实性信息的抽取  观点挖掘和倾向性分析:主观性信息的抽取  问答系统:信息抽取和自然语言处理技术结合的 应用  依存句法分析:自然语言处理关键技术 第一课 信息抽取 中国科学院自动化研究所 模式识别国家重点实验室 概述  引言  实体识别与抽取  实体消歧  关系抽取  问题与挑战 引言  互联网的迅速普及和发展  信息资源极大丰富  但“信息过载”问题日趋严重  迫切需要快速、准确获取信息的技术手段  信息抽取技术应运而生  文本信息抽取  自然语言文本信息抽取 信息抽取与信息检索的区别 (1/2) 查找同 “恐怖 查找同 “恐怖 袭击”相关的文 袭击”相关的文 档 档 文本信息检索 .hk 互联网文档集 信息抽取与信息检索的区别 (2/2) 根据恐怖袭击相关的文 根据恐怖袭击相关的文 档列出某日发生的恐怖 档列出某日发生

您可能关注的文档

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档