基于web的中文本体学习研究3.pdfVIP

  • 1
  • 0
  • 约1.97万字
  • 约 4页
  • 2018-08-19 发布于天津
  • 举报
基于web的中文本体学习研究3

J o ur nal of Inf or m a ti o n No . 6 ,2008 情报杂志 2008 年第 6 期                 基于 Web 的中文本体学习研究 Research On Ontology Learning from Web Pages 聂规划  傅  魁 (武汉理工大学经济学院 武汉  430070) 摘  要  介绍了国内外本体学习研究的现状 ,并在给出的本体形式化定义基础上 ,界定了本体学习的主要任务 ;探讨 了通用本体学习系统体系结构设计的基本原则 ,提出了适于中文环境下基于 Web 本体学习的主要思路 ,包括多策略 领域概念获取 、基于分类 目录和基于语境自学习的继承关系学习、基于知网的属性关系学习和基于本体的实例知识获 取 。 关键词  本体  本体学习 概念获取  关系学习 [1 ] ( ) ( ) [4 ]   本体是共享概念模型的明确的形式化规范说明 ,它在共 RTF 、信息熵 Entrop y 和 C 值/ NC 值方法 等 。基于统计 享范围内描述了领域中的概念及概念之间的关系 ,使其具有明 的方法适合于大规模文本处理 ,但缺乏必要的语义逻辑基础 。 确的、形式化的定义 ,从而实现人机之间以及机器之间的信息 目前 ,统计方法是国内外相关研究的主流 。另外还可采用两者 交互 、知识共享与重用 。目前 ,关于本体的理论研究和应用研 相结合的混合方法获取领域术语 。 究已经广泛展开 ,并取得了较多的研究成果 ,但相关领域本体 概念间继承关系 ,又称上下位关系 ,是领域概念间的一种 却十分匮乏 。领域本体的缺乏已成为本体研究与基于本体的 最基本的重要关系 ,和领域概念一起构成了领域本体的骨干 。 现实应用之间的主要瓶颈之一 。 常见的继承关系获取方法可分为 :基于语境的方法[5 ] 、基于语 领域本体可以由领域专家通过完全手工方式构建 ,但非常 言学的方法[2 ,6 ] 、基于统计的方法[7~9 ] 、基于词典的方法和混合 耗时、费力 ,易出现倾向性错误 ,并且难于做到及时动态更新 。 方法 。基于语境的方法是通过分析领域相关文本 ,总结出一些 为提高本体构建效率 , 降低本体构建开销 , 国内外研究人员尝 频繁出现的语言模式作为规则 ,然后判断文本中词的序列是否 试利用机器学习、自然语言处理和统计等技术 自动或半 自动地 匹配某个模式 ,如果匹配 ,则可以识别出相应的关系 。基于语 从已有的数据资源 中获取期望的本体 ,该过程称之为本体学 言学的方法通过语形分析 、句法分析 、依存结构分析以及语义 习 。目前 ,国外在该方向的研究很活跃 ,而国内针对中文环境 分析等来获取概念间继承关系 ,其特点是抽取概念间继承关系 下本体学习的研究刚刚起步 。 准确率高 ,但不够强壮和效率低 。基于统计的方法的共同的主 要思想是词语的语义特性由它在不同上下文的分布来反映 , 因 1  研究现状 此词语的语义可以通过共现词语及共现频率来描述 。目前研 国外关于本体学习的研究相对较早 ,其研究兴起于上世纪 究较多的概念聚类方法和关联规则方法本质上都是属于统计 末本世纪初 。到目前为止 ,在本体学习技术与系统的研究方面 方法的范畴 。基于统计的方法具有语言依赖

文档评论(0)

1亿VIP精品文档

相关文档