自然语言处理与领域知识工程 - ICL, PKU - 北京大学.PPT

下载文档 降价啦

20
0
约9.03千字
约 10页
2017-06-25 发布于天津
举报
版权申诉
保障服务

自然语言处理与领域知识工程 - ICL, PKU - 北京大学.PPT

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

自然语言处理与领域知识工程 - ICL, PKU - 北京大学

自然语言处理与领域知识工程研究探索穗志方 szf@pku.edu.cn 北京大学计算语言所内容知识工程与领域知识工程领域知识工程中的NLP技术研究基于NLP的领域知识工程实践研究框架的初步形成内容知识工程与领域知识工程领域知识工程中的NLP技术研究基于NLP的领域知识工程实践研究框架的初步形成知识工程什么是知识工程？ 1977年，美国斯坦福大学计算机科学家费根鲍姆教授在第五届国际人工智能会议上提出“知识工程”的概念；知识工程是用人工智能的原理和方法，为那些需要专家知识才能解决的应用难题提供求解的手段；以知识为处理对象，借用工程化的思想，对如何用人工智能的原理、方法和技术为设计、构造和维护知识型系统服务进行研究的一门学科，是人工智能的一个应用分支；知识工程的目的是在研究知识的基础上开发智能系统；知识的表示、知识的获取和知识的运用构成知识工程的三大要素。知识工程知识工程的研究内容：基础理论研究实用技术开发知识型系统工具研究知识工程基础理论研究：知识的本质、知识的表示、获取、推理和学习方法；实用技术研究：解决建立知识系统过程中遇到的问题，实用知识表示方法、实用知识获取技术、实用知识推理方法、知识库结构系统、实用知识描述体系的建立、知识库管理技术、知识型系统的调试和评估技术等知识型系统工具的建立：为知识系统的开发提供良好的环境工具，以提高系统研制的质量和缩短系统研制周期。从NLP的角度看知识工程基础理论研究：知识的本质、知识的表示、获取、推理和学习方法；实用技术研究：解决建立知识系统过程中遇到的问题，实用知识表示方法、实用知识获取技术、实用知识推理方法、知识库结构系统、实用知识描述体系的建立、知识库管理技术、知识型系统的调试和评估技术等知识型系统工具的建立：为知识系统的开发提供良好的环境工具，以提高系统研制的质量和缩短系统研制周期。从NLP的角度看知识工程大规模知识工程需要自动化的手段以保证知识库的规模、质量、一致性和时效性；知识获取技术研究：利用NLP技术进行文本挖掘——分析自然语言文本，发现知识点以及知识点之间的概念关系，辅助进行知识获取；知识型系统工具的建立：在知识系统的开发环境中，集成基于NLP的知识获取技术，利用自然语言处理技术将领域专家的劳动降到最低，解决知识获取的瓶颈问题；领域知识工程针对性实用性可行性自然语言处理与领域知识工程研究探索基础与应用以领域知识工程为应用背景和实验平台，驱动、促进和检验相关NLP的理论、方法与技术；以NLP技术为工具，进行领域知识工程的实践。内容知识工程与领域知识工程领域知识工程中的NLP技术研究基于NLP的领域知识工程实践研究框架的初步形成领域知识工程中的NLP技术研究术语自动提取术语间概念关系的自动提取子类框架的设定及自动提取句法语义角色标注领域知识工程中的NLP技术研究术语自动提取：从大规模的领域语料中自动发现术语（从自由文本中挖掘知识点）术语自动提取的任务输入为切分好的文本语料输出为候选术语列表研究框架什么是术语？在特定专业领域中的一般概念的指称（GB/T 15237.1-2000 术语工作词汇）术语的特点一个词语，完整的语言单位（单元度）出现频繁、结合紧密、使用自由特定领域中的词语（领域度）特定领域的一般概念术语 = 单元度+领域度单元度 = 内部结合紧密度+边界自由度领域度 = 基于领域部件+分类语料库内部结合紧密度字符串内部结合紧密度: 反应了一个字符串内部单元的结合稳定程度使用MI（Mutual Information）来计算语料单元的内部结合紧密度 P(X,Y) X和Y共现的概率 P(X),P(Y)为X，Y单独出现的概率可以把字符串序列看成随机事件，这样就可以计算字符之间的互信息。互信息值越高，X和Y 组成词的可能性越大；互信息值越低，X和Y 之间存在短语边界的可能性越大。边界自由度字符串边界自由度（Border variability of the string）字符串的边界上出现多种符号的可能性度量边界上出现的符号种类越多，自由度越大左右熵 A 代表在输入符号串左边出现的所有不同的字的集合 B 代表在输入符号串右边出现的所有不同的字的集合 LeftEntropy 代表符号串左边界的信息熵的大小 RightEntropy 代表符号串右边界的信息熵的大小领域度的计算可以从术语内外部两个角度来考虑术语内部构成特征术语内部不同位置用词特征首末位置用词、词长、词性等基于领域部件计算领域度方法术语外部环境特征术语在不同领域中的出现特征频率、共现、排序等无监督的rank相减方法