一种文本分类模式下本体构建方法.docVIP

下载本文档

2
0
约8.95千字
约 18页
2018-08-13 发布于福建
举报
版权申诉

一种文本分类模式下本体构建方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种文本分类模式下本体构建方法

一种文本分类模式下的本体构建方法　　摘要：本体在知识管理和语义网中扮演着越来越重要的角色，但本体的构建是一项费力又费时的工作，为此本文提出一种基于文本分类模式下的本体自动构建方法。该方法以形式化概念理论分析作为基础，计算出概念之间的相关度，以概念间的相关度和它们在文档中出现的频率矩阵构建本体概念图。实验结果表明，在文档分类模式下自动构建本体支持目前的信息分类系统，形成的本体有利于更好地共享和重用，促进语义Web的本体的升级。　　关键词：语义网；本体构建；信息分类；形式化概念分析　　中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2014）36-8750-04 　　根据Berners-Lee的观点，语义网并非是全新的Web，而是对现有的Web进行扩展。简而言之，语义网是一个整合了众多元数据的网络，信息的含义在语义网环境下能够很好地加以定义[1]，并使得计算机能够自动检索、处理、共享、重用和交换信息。　　作为语义网基础的本体（Ontology），是通过对概念、术语及其相互关系的规范化描述，勾画出某一领域的基本知识体系，它可以很好地解决知识表示、知识组织以及知识共享等问题[2]。语义网的快速发展和成功很大程度上依赖于本体如何快速高效的建立，而本体构建一般是手工建立，不仅费时费力而且还需要领域专家的参与。因此，本体的自动化构建成为科研工作者越来越关心的热点研究领域。该文提出一种基于文本分类框架[3]下本体的自动构建方法。　　1 常用的本体构建方法　　本体的构建是本体应用的基础，是实现信息交换、共享，解决语义冲突的基础，通过构建统一的术语和概念，实现知识共享，为异构系统间的通讯提供交流平台，便于他们之间的互操作和集成。虽然许多领域本体已经存在，但是大部分领域本体都是为特定的领域和目的构建的，统一通用的本体构建的方法还没有形成，而其他领域比如语言学、信息检索、机器学习、数据挖掘和软件工程等方面的研究和相关技术可为本体构建提供借鉴。Maedche等人[4]提出本体构建可分为四部分，分别为：抽取、修剪、精炼、导入或重用。该文主要以抽取方法为基础，相应的本体的构建方法分别是：基于字典、文本聚类、关联规则、知识库的学习方法和形式概念分析。　　1.1 基于词典的本体学习法　　基于词典的本体学习法根据一些现有的词汇在词典中定义的同义词、近义词、反义词、根词、词源等知识来获取概念间的关系[5-7 ]。基于词典的本体构建方法有它自己的局限性，在与另外一种方法配对才能发挥它的有效作用，为此它不能独立使用。　　1.2 基于文本聚类的本体学习法　　聚类的含义是使用属于同一类别的个体之间距离尽可能的小，而不同类别的个体之间的距离尽可能的大。采用文本聚类方法来计算概念层次，根据其同义词分组，不同的搜索策略指导聚集过程。每一聚集由某一特定的使用频率高的词或术语表示，由此重复该步骤能够获取术语的层次体系。该方法目前仍存在一些问题，影响其可用性[8]。　　1.3 基于关联规则的本体学习法　　基于关联规则的本体学习法利用概念间的非分类关系来构建本体。基本思想是如果两个领域概念经常出现在同一个语法单元，即出现在同一句子、同一段落或同一文档中，则这两个概念之间必定存在着一定关系。而它们之间联系的紧密程度和它们所在的语法单元有关。两个概念在一个语法单元内，则语义聚合度就高，那么这两个概念之间的紧密程度越高[9]。Maedche等人[4]于2000年最先提出并评价了将关联规则并应用于本体学习的方法，于2001年又提出使用已有的概念层次作为背景知识，然后利用关联规则来发现概念间的非分类关系的方法[10]。　　1.4 基于知识库的本体学习法　　基于知识库的本体学习法，首先需要在相关领域建立知识库，知识库必须包含基础的规则和简单的实例，当用户输入关键词检索时，相关的实例以对应的方式显示出来。当所需的规则被挑选出来时，知识库里的规则用来建立相关本体。这种方法不同于上面提到的三种方法，知识库里的规则可以用来作为本体的一种表现形式，知识库里的规则往往被用来组合相关的本体[11]。　　1.5 形式概念分析法　　形式概念分析（Formal concept analysis， FCA）是运用形式概念分析的方法，去发现、构造和展示由属性和对象构成的概念及其之间的关系，它最具特色的性质就是能从任何给出的数据集中产生可视化图形，因此FCA在计算机科学中得到广泛的应用[5]。目前，FCA的方法，已经大量运用在概念聚类、数据分析、信息检索、知识发现、本体工程的应用之中。　　2 基于信息分类模式下本体的构建方法　　本文的目的是利用本体学习方法构建文本概念图，以实现的高效的信息检索，信息检索的模式如图1所示。这样的