- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
领域知识在文本分类中的应用
摘要:该文在领域知识中的概念之间语义关系数量化的基础上,利用概念间的层次结构,根据不同概念的抽象程度,提出具体的量化公式,在类别比较相近情况下有更好的区分能力。
关键词:领域知识;文本分类;层次结构
中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)27-6618-03
Application of Domain Knowledge on Text Categorization
WU Guo-xiang
(College of Minjiang, Fuzhou 350011, China)
Abstract: In this paper, based on thequantification of semantic relationships in domain knowledges concepts, making use of hierarchical structure of concepts, proposes a specific formula to quantify concepts according to their abstract level, which improves text categorization when the categories are somewhat similar.
Key words: domain knowledge; text categorization; hierarchy structure
面对Internet上日益膨胀的信息,如何快速、准确地从浩瀚的信息资源中寻找到相关内容成了研究热点。文本自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。传统的文本分类方法常见方法是基于向量空间模型 。
传统分类方法并没有考虑到词之间的语义关系,现实文本中实际用词往往是有关联的,如同义词、上下位关系等,而文档向量空间把文本看作是由一组正交词条向量所组成的向量空间,这种方法的假设前提是词与词之间没有语义上的联系,从而丢失了大量的语义信息,对只有和其他特征同时出现时才对分类有贡献的特征并未考虑。为克服以上不足,不少研究者提出基于领域本体的文本分类方法。
1 相关工作
1.1 本体
本体(Ontology)是一个哲学上的概念,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。Neches,Fikes等人将Ontology 定义为“给出构成相关领域词汇的基本术语和关系,及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。Gruber提出一种比较详细的表达,即ontology是对某一领域中术语及术语之间关系的规范而明确的说明。典型Ontology 包含5 个基本的建模元语,分别为:类,关系,函数,公理和实例。
1.2 Ontology中概念之间关系的量化
文献[1]探讨了一种无需训练文本和特征项抽取的文本分类方法。通过Hownet建立一个Ontology,然后根据分类体系建立每个类的Ontology,将领域本体中概念之间的关系数量化,最后根据每个类的Ontology对文本进行分类。其具体方法为:由知网( Hownet )得到Ontology dict_On,建立每个类C的Ontology 的方法为,dict_On中查找C或与C同义的概念,将dict_On中的关系看作边,概念看作点,那么dict_On可看作一张图,C或与C同义的概念是图中的一些点。以这些点为中心,保留与中心点距离较小的N个节点,得到T_on。
对一个概念来说,和C的关系从某种程度上决定了与该主题的相关程度。在计算T_on中概念与中心点间相关度时采取以下方法:将图中的关系分为四类,分别用R1 ,R2 ,R3 ,R4表示。R1为Similarto关系(同义关系)和Instanceof关系,规定这种关系的权重为w1; R2为PartOf关系(整体部分关系),这种关系的权重为w2; R3为RelationTo关系(相关关系),规定这种关系的权重为w3; R4为subclass关系(上下位关系)和其他关系,规定这种关系的权重为w4。权重衡量的是两个概念由于具有某种关系致使彼此之间相关程度的大小。
相邻两概念之间的距离公式为: Lr=1-wRi (i=1,2,3,4) (1)
公式的含义是如果这条边是关系Ri,边上的距离为1减去这个关系的权重。
各个概念t与该主题C的相关程度为:(2)
(t 为与中心点距离较小的概念,C为某一类别主题,α为可调整参数)。w_len(t,C)看作无向图中两概念之间的最短距离。
1.3
文档评论(0)