基于内容管理系统中内容分类实现方法研究.docVIP

下载本文档

3
0
约3.27千字
约 8页
2018-08-29 发布于福建
举报
版权申诉

基于内容管理系统中内容分类实现方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于内容管理系统中内容分类实现方法研究

基于内容管理系统中内容分类实现方法研究　　摘要：随着信息量以爆炸般的速度在急剧增长，当前在信息管理方面所面临的最严峻的挑战不再是信息匾乏，而是缺少时间和精力来对如此众多的信息进行分析、归类与操作。本文探讨了在内容管理系统中内容分类的实现方法。　　关键词：内容管理系统内容分类方法　　　　0 引言　　　　随着信息量以爆炸般的速度在急剧增长，当前在信息管理方面所面临的最严峻的挑战不再是信息匾乏，而是缺少时间和精力来对如此众多的信息进行分析、归类与操作。因此内容的分类不仅有利于更快捷地实现内容的查询，而且有效的分类方法同样有助于对纷杂的信息进行组织与归类，有助于人们缩小查询的范围，节省时间和精力。可见内容管理对内容分类的要求是十分必要的。　　现在分类的方法大体上分为人工分类、自动化分类以及人机结合的混和方法三种。显而易见，人工分类是最容易被想到的。但是这种方法显而易见的过多的依赖于个人，且成本太高。并且当内容量过大的时候，单单依靠手工方法进行分类也不太现实，很容易成为系统的瓶颈。因此，人们更加关注于自动化分类方法。现在主要应用的自动化分类方法主要有以下几种方法。　　　　1 自动化分类方法　　　　1.1 基于规则的分类方法：这种方法需要由对相关内容极为了解的专家创建与维护一套规则用于将某篇文档划分到某个类中。专家使用If-Then的规则形式组织归类的相关概念。规则能够支持复杂的操作，而且建立在规则之上的决策树也相当准确。规则衡量了一个给定的文档是否符合某个主题的判断标准。显然，建立这样一种规则并不容易，并且专家对相关内容知识的了解程度也相当重要。　　1.2 基于自然语言的学习算法：该方法利用神经网络的方法，通过分析文档的内容区分文档并将文档进行分类。由于这种方法具有较高的容错能力及语言独立的操作性等特点，正在成为一种相对稳定的分类方法。这种方法通过选择文档的表示方式或可能的格式，利用神经网络实现对内容的分类，可以被应用到文本文档或文本片断的分类中去。　　1.3 语义分析：这是以从文档中提取关键的概念作为分类与检索的基础。语义分析过程共分为两个阶段，第一个阶段的工作主要集中于一系列的语言算法以及语言独立的统计技术的实现。当用户对系统中收集的信息进行查询时则触发该过程的第二阶段，系统可以根据用户的查询需求以及可视化的分类结构呈现给用户个性化的、相关的查询结果。　　1.4 模式匹配：这种方法是指寻找经常聚在一起的一组词或词组的过程。一个主题可能通过语义分析进行处理。其他的识别模式还包括词在文档当中的出现频率、词的位置、词与词之间的亲近程度以及相关词的聚类。模式匹配方法具有语言独立的特点。　　1.5 聚类分析：这是通过识别内容中的共性元素将内容划分为相似内容子集。每篇文档可以看作一些内容的合集，聚类本质上就是将每一袋中的相似内容聚为一组。　　以上每一种分类方法都有其自身的优点与不足，没有哪一种单一的分类方法是十全十的。每种方法都有其适用的方面。所以，现在人们往往采用混合的分类方法。下面我们着重分析一种基于神经网络的分类方法。　　　　2 基于聚类分析的分类方法　　　　聚类分析是一种解决分类问题的探测性的数据分析方法。它的目标是把人、事务、事件等聚为组或类，每一类描述它的对象所属的类。该方法是通过建立一个对象间的相似性度量，使得类间的相似性尽量小，而类内的相似性尽量大，从而得到在某种判别准则之下的最佳分类，这种分类的结果未必使用简单的概念就可以描述的。换言之，其分类的标准并不是显而易见的。　　假设特征向量由n个特征参数x，x，…，x组成聚类分析按照一定的准则，将这些特征向量点划分为若干个群。聚类也用于将一个内容的集合划分为子集，也就是类。每一类内的对象之间都比该类对象与属于其它类的对象之间具有更大的相似性。　　芬兰学者T.Kohonen提出一种可以使得输入信号映射到低维空间，且保持相同特征的输入信号在空间上对应邻近区域的学习方式，称为Kohonen自组织特征映射(self-organizing feature maps, SOFM)也称Kohonen自组织神经网络。　　Kohonen自组织神经网络是一种前馈型网络。在这种类型的神经网络中各神经元接受前一层的输入，并输出给下一层，没有反馈。节点分为两类，即输入单元和计算单元，每一计算单元可有任意多个输入，但只有一个输出。前馈网络可分为不同的层，第I层的输入只与第I-1层的输出相连，输入和输出节点与外界相连，而其它中间层则称为隐层。　　前馈型网络，由于Kohonen自组织特征映射网络除了具备以下主要性能，因此采用Kohonen自组织神经网络来实现内容的聚类。①对输入数据有聚类作用，并可用聚类中心代表原输