基于web的中文本体学习研究3.pdfVIP

下载本文档

1
0
约1.97万字
约 4页
2018-08-19 发布于天津
举报

基于web的中文本体学习研究3.pdf

基于web的中文本体学习研究3

J o ur nal of Inf or m a ti o n No . 6 ,2008 情报杂志 2008 年第 6 期　　　　　　　　　　　　　基于 Web 的中文本体学习研究 Research On Ontology Learning from Web Pages 聂规划　傅　魁 (武汉理工大学经济学院　武汉　430070) 摘　要　介绍了国内外本体学习研究的现状 ,并在给出的本体形式化定义基础上 ,界定了本体学习的主要任务 ;探讨了通用本体学习系统体系结构设计的基本原则 ,提出了适于中文环境下基于 Web 本体学习的主要思路 ,包括多策略领域概念获取、基于分类目录和基于语境自学习的继承关系学习、基于知网的属性关系学习和基于本体的实例知识获取。关键词　本体　本体学习　概念获取　关系学习 [1 ] ( ) ( ) [4 ] 　　本体是共享概念模型的明确的形式化规范说明 ,它在共 RTF 、信息熵 Entrop y 和 C 值/ NC 值方法等。基于统计享范围内描述了领域中的概念及概念之间的关系 ,使其具有明的方法适合于大规模文本处理 ,但缺乏必要的语义逻辑基础。确的、形式化的定义 ,从而实现人机之间以及机器之间的信息目前 ,统计方法是国内外相关研究的主流。另外还可采用两者交互、知识共享与重用。目前 ,关于本体的理论研究和应用研相结合的混合方法获取领域术语。究已经广泛展开 ,并取得了较多的研究成果 ,但相关领域本体概念间继承关系 ,又称上下位关系 ,是领域概念间的一种却十分匮乏。领域本体的缺乏已成为本体研究与基于本体的最基本的重要关系 ,和领域概念一起构成了领域本体的骨干。现实应用之间的主要瓶颈之一。常见的继承关系获取方法可分为 :基于语境的方法[5 ] 、基于语领域本体可以由领域专家通过完全手工方式构建 ,但非常言学的方法[2 ,6 ] 、基于统计的方法[7～9 ] 、基于词典的方法和混合耗时、费力 ,易出现倾向性错误 ,并且难于做到及时动态更新。方法。基于语境的方法是通过分析领域相关文本 ,总结出一些为提高本体构建效率 , 降低本体构建开销 , 国内外研究人员尝频繁出现的语言模式作为规则 ,然后判断文本中词的序列是否试利用机器学习、自然语言处理和统计等技术自动或半自动地匹配某个模式 ,如果匹配 ,则可以识别出相应的关系。基于语从已有的数据资源中获取期望的本体 ,该过程称之为本体学言学的方法通过语形分析、句法分析、依存结构分析以及语义习。目前 ,国外在该方向的研究很活跃 ,而国内针对中文环境分析等来获取概念间继承关系 ,其特点是抽取概念间继承关系下本体学习的研究刚刚起步。准确率高 ,但不够强壮和效率低。基于统计的方法的共同的主要思想是词语的语义特性由它在不同上下文的分布来反映 , 因 1 　研究现状此词语的语义可以通过共现词语及共现频率来描述。目前研国外关于本体学习的研究相对较早 ,其研究兴起于上世纪究较多的概念聚类方法和关联规则方法本质上都是属于统计末本世纪初。到目前为止 ,在本体学习技术与系统的研究方面方法的范畴。基于统计的方法具有语言依赖

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于web的中文本体学习研究3.pdfVIP