自然语言处理与信息抽取.20110826.pdf

下载文档 降价啦

30
0
约11.89万字
约 401页
2017-06-14 发布于福建
举报
版权申诉
保障服务

自然语言处理与信息抽取.20110826.pdf

1、本文档共401页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中国计算机学会《学科前沿讲习班》第21期面向互联网的自然语言处理技术——理论、方法与应用问题研究第二讲自然语言处理和信息抽取赵军（jzhao@ ）共同讲者：刘康、韩先培、周光有、蔡黎中国科学院自动化研究所模式识别国家重点实验室引言(1/3)  50-60年代：自然语言处理研究领域是作为人工智能的应用发展起来的  最早的自然语言理解方面的研究工作是机器翻译，20世纪60年代，国外对机器翻译曾有大规模的研究工作  普遍采用基于规则的方法，或者基于知识库的方法，在限定领域取得成功  但人们低估了自然语言的复杂性，在开放领域遇到很大的困难  90年代开始：随着大规模词典和真实语料库的研制，给自然语言处理领域的研究带来了巨大变化  基于语料库的统计自然语言学习成为一种重要的方法  自然语言处理系统面向大规模真实文本的处理，使得研制的系统开始面向实用  系统并不要求能对自然语言文本进行深层理解，而是从中抽取一些有用信息，作为自然语言部分理解的一种形式——信息抽取引言(2/3)  过去10年：随着互联网的普及，为自然语言处理领域提供了强有力的应用牵引和海量语言资源  自然语言处理技术和信息检索技术结合，自然语言处理技术的应用领域大大扩大——问答系统等  统计自然语言学习方法受限于语料库的规模，过拟合问题严重，缺乏推广能力  目前：随着Web2.0的普及，网络上积累了规模巨大的User Generated Content ，为自然语言处理技术的发展提供了新的资源和技术创新的源泉  例如Wikipedia、社区问答资源等，为建立大规模知识库奠定基础  基于知识的方法在开放域自然语言处理处理任务中的应用成为可能  基于知识的方法和基于统计的方法的融合受到关注引言(3/3)  本课程将面向互联网应用，选取依存句法分析、信息抽取、观点挖掘和倾向性分析、问答系统等四个自然语言处理领域的研究方向，系统介绍其中的基本概念、主要方法、最新研究进展、需要解决的问题和发展趋势  目标：听者能够对以上几个研究方向的基本轮廓和发展脉络有较为系统的了解主要内容  第一课 09:00-10:00 信息抽取  第二课 10:20-11:30 观点挖掘和倾向性分析  第三课 14:00-15:00 问答系统  第四课 15:20-16:20 依存句法分析  第五课 16:30-17:00 互动课主要内容之间的关系  信息抽取：以实体为中心的事实性信息的抽取  观点挖掘和倾向性分析：主观性信息的抽取  问答系统：信息抽取和自然语言处理技术结合的应用  依存句法分析：自然语言处理关键技术第一课信息抽取中国科学院自动化研究所模式识别国家重点实验室概述  引言  实体识别与抽取  实体消歧  关系抽取  问题与挑战引言  互联网的迅速普及和发展  信息资源极大丰富  但“信息过载”问题日趋严重  迫切需要快速、准确获取信息的技术手段  信息抽取技术应运而生  文本信息抽取  自然语言文本信息抽取信息抽取与信息检索的区别 (1/2) 查找同 “恐怖查找同 “恐怖袭击”相关的文袭击”相关的文档档文本信息检索 .hk 互联网文档集信息抽取与信息检索的区别 (2/2) 根据恐怖袭击相关的文根据恐怖袭击相关的文档列出某日发生的恐怖档列出某日发生