自然语言处理与领域知识工程 - ICL, PKU - 北京大学.PPT

自然语言处理与领域知识工程 - ICL, PKU - 北京大学.PPT

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自然语言处理与领域知识工程 - ICL, PKU - 北京大学

自然语言处理与领域知识工程 研究探索 穗志方 szf@pku.edu.cn 北京大学计算语言所 内容 知识工程与领域知识工程 领域知识工程中的NLP技术研究 基于NLP的领域知识工程实践 研究框架的初步形成 内容 知识工程与领域知识工程 领域知识工程中的NLP技术研究 基于NLP的领域知识工程实践 研究框架的初步形成 知识工程 什么是知识工程? 1977年,美国斯坦福大学计算机科学家费根鲍姆教授在第五届国际人工智能会议上提出“知识工程”的概念; 知识工程是用人工智能的原理和方法,为那些需要专家知识才能解决的应用难题提供求解的手段; 以知识为处理对象,借用工程化的思想,对如何用人工智能的原理、方法和技术为设计、构造和维护知识型系统服务进行研究的一门学科,是人工智能的一个应用分支; 知识工程的目的是在研究知识的基础上开发智能系统; 知识的表示、知识的获取和知识的运用构成知识工程的三大要素。 知识工程 知识工程的研究内容: 基础理论研究 实用技术开发 知识型系统工具研究 知识工程 基础理论研究:知识的本质、知识的表示、获取、推理和学习方法; 实用技术研究:解决建立知识系统过程中遇到的问题,实用知识表示方法、实用知识获取技术、实用知识推理方法、知识库结构系统、实用知识描述体系的建立、知识库管理技术、知识型系统的调试和评估技术等 知识型系统工具的建立:为知识系统的开发提供良好的环境工具,以提高系统研制的质量和缩短系统研制周期。 从NLP的角度看知识工程 基础理论研究:知识的本质、知识的表示、获取、推理和学习方法; 实用技术研究:解决建立知识系统过程中遇到的问题,实用知识表示方法、实用知识获取技术、实用知识推理方法、知识库结构系统、实用知识描述体系的建立、知识库管理技术、知识型系统的调试和评估技术等 知识型系统工具的建立:为知识系统的开发提供良好的环境工具,以提高系统研制的质量和缩短系统研制周期。 从NLP的角度看知识工程 大规模知识工程需要自动化的手段以保证知识库的规模、质量、一致性和时效性; 知识获取技术研究:利用NLP技术进行文本挖掘——分析自然语言文本,发现知识点以及知识点之间的概念关系,辅助进行知识获取; 知识型系统工具的建立:在知识系统的开发环境中,集成基于NLP的知识获取技术,利用自然语言处理技术将领域专家的劳动降到最低,解决知识获取的瓶颈问题; 领域知识工程 针对性 实用性 可行性 自然语言处理与领域知识工程 研究探索 基础与应用 以领域知识工程为应用背景和实验平台,驱动、促进和检验相关NLP的理论、方法与技术; 以NLP技术为工具,进行领域知识工程的实践。 内容 知识工程与领域知识工程 领域知识工程中的NLP技术研究 基于NLP的领域知识工程实践 研究框架的初步形成 领域知识工程中的NLP技术研究 术语自动提取 术语间概念关系的自动提取 子类框架的设定及自动提取 句法语义角色标注 领域知识工程中的NLP技术研究 术语自动提取:从大规模的领域语料中自动发现术语(从自由文本中挖掘知识点) 术语自动提取的任务 输入为切分好的文本语料 输出为候选术语列表 研究框架 什么是术语? 在特定专业领域中的一般概念的指称 (GB/T 15237.1-2000 术语工作 词汇 ) 术语的特点 一个词语,完整的语言单位(单元度) 出现频繁、结合紧密、使用自由 特定领域中的词语(领域度) 特定领域的一般概念 术语 = 单元度+领域度 单元度 = 内部结合紧密度+边界自由度 领域度 = 基于领域部件+分类语料库 内部结合紧密度 字符串内部结合紧密度: 反应了一个字符串内部单元的结合稳定程度 使用MI(Mutual Information)来计算语料单元的内部结合紧密度 P(X,Y) X和Y共现的概率 P(X),P(Y)为X,Y单独出现的概率 可以把字符串序列看成随机事件,这样就可以计算字符之间的互信息。互信息值越高,X和Y 组成词的可能性越大;互信息值越低,X和Y 之间存在短语边界的可能性越大。 边界自由度 字符串边界自由度(Border variability of the string) 字符串的边界上出现多种符号的可能性度量 边界上出现的符号种类越多,自由度越大 左右熵 A 代表 在输入符号串左边出现的所有不同的字的集合 B 代表 在输入符号串右边出现的所有不同的字的集合 LeftEntropy 代表 符号串左边界的信息熵的大小 RightEntropy 代表 符号串右边界的信息熵的大小 领域度的计算可以从术语内外部两个角度来考虑 术语内部构成特征 术语内部不同位置用词特征 首末位置用词、词长、词性等 基于领域部件计算领域度方法 术语外部环境特征 术语在不同领域中的出现特征 频率、共现、排序等 无监督的rank相减方法

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档