一种基于文本分类知识树自动构建方法.docVIP

下载本文档

19
0
约1.12万字
约 21页
2018-08-13 发布于福建
举报
版权申诉

一种基于文本分类知识树自动构建方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于文本分类知识树自动构建方法

一种基于文本分类的知识树自动构建方法　　摘要:针对当前知识管理系统中知识树的创建和维护问题,设计了一种新的基于文本聚类的知识树构建方法。由于从传统的K-means和SOM等文本聚类的结果中难以提取知识树中节点对应的概念和词汇列表,选取PLSA方法进行聚类和知识层次树构建。实验表明,新方法除了在聚类精确度上优于传统方法,聚类结果还包含文档的主题与词汇之间的概率关系,因此新方法在聚类的同时,可以方便地提取知识树上每个节点对应的概念或概念集合。　　关键词:概率潜在语义分析; 潜在语义空间; 知识管理; 知识树　　中图分类号:TP393 　　文献标志码:A 　　　　文章编号:1001-3695(2010)02-0475-04 　　doi:10.3969/j.issn.1001-3695.2010.02.019 　　　　Automatic construction of knowledge tree based on text clustering 　　　　ZHONG Jiang, LIU Jie 　　　　(College of Computer Science, Chongqing University, Chongqing 400044, China) 　　　　Abstract:The construction and maintenance of the knowledge tree is an important and time-consuming task in a knowledge management system (KMS). This paper presented a novel method to construct the knowledge tree based on text clustering. Because it’s difficult to extract concepts and vocabulary corresponding to nodes in knowledge tree while clustering by traditional K-means and SOM algorithms, selected PLSA (probabilistic latent semantic analysis) to construct knowledge tree. Experiment shows that the clustering accuracy of the new method is higher than the traditional K-means and SOM algorithms. In addition, because the probabilistic relationship between the vocabulary and the concept (subject) has been established, the concepts of node in knowledge tree could be easily extracted while clustering documents by the new method. 　　Key words:PLSA; latent semantic space; knowledge management; knowledge tree 　　　　0 引言　　所谓知识管理是通过对知识资源采取一系列系统和规范的管理活动,以获取知识的最大价值。知识管理系统为企业实现显性知识和隐性知识的共享提供了新的途径。它为组织内的成员提供方便收集、查询、获取和共享知识的环境,协助知识应用到组织提供的产品和服务中,从而提高企业创新能力和市场反应速度。　　知识树是知识管理系统中常见的知识组织形式,它有利于管理和利用系统中的各种知识资源。知识树中的每一个节点代表一个主题(概念),对应着现实世界中的某个概念或知识的某种分类。其中,根节点为知识库所属领域的顶层概念,它可能是一个在现实中没有具体对应类别的虚拟概念;叶子节点表示一个具体的显性知识,可能对应一类文档、网页或者视频等对象;树上的边则表示子节点与父节点之间的从属关系。例如,可以把一个体育网站中的所有网页看做一个知识库,其对应知识树的顶层节点对应着顶层概念“体育”,顶层概念可以进一步细分为诸如球类、田径等概念。球类又可分为篮球、足球、羽毛球等概念,田径可以分为长跑、短跑、跳高和跳远等概念。通过上述概念的逐层划分而建立起来的概念树结构就是知识树。　　知识树的构建方法,目前主要是依赖专家,通过手工方式创建。而通过人工建立知