档案文献主题探测方法探讨.docVIP

下载本文档

4
0
约3.19千字
约 3页
2016-07-03 发布于河北
举报
版权申诉

档案文献主题探测方法探讨.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

档案文献主题探测方法探讨

档案文献主题探测方法探讨　　[摘要]本文主题探测是以档案类文献作为文本集，以文本数据挖掘（Text Mining）的方式来对文本集进行处理。文章主要对文本分类和文本聚类的常用方法做了简单的概括，并提出了基于主题模型的档案文献主题探测方法。中国论文网 /4/view-7123842.htm 　　[关键词]档案文献；主题探测；主题模型　　引言　　随着目前科技文献资源的大量增长，档案类文献的资源也在突飞猛进的增长，但对于大量的文献资源，要能更精确的找到我们所需要的信息却变得难上加难。主题探测（Topic Detection，作为一项旨在帮助人们应对信息过载问题的研究，其研究目标是要实现按主题查找、组织和利用来自多种媒体的多语言信息[1]。　　1.常用的文本分类方法　　传统的科技文献分类方法都是基于文本分类的，这些方法是对给定的文本，根据其内容自动或手动地加上一个类别标签，通过给定的训练集，用某种方法构建文本特征与文本类别之间的关系模型，再利用这个关系模型对新的未知类别文本进行类别训练。　　1.1基于简单向量距离的分类法　　简单向量距离分类法的主要思想，是首先确定新文本的向量，然后根据尚未分类的文本向量与每个类别中心向量的距离来判断此文本属于哪个类别，确定新文本向量的前提是：先根据算术平均为每类文本集生成一个代表该类的中心向量[2]。　　简单距离向量分类法实现简单，分类的复杂度也不高，其缺点也很明显：直接使用特征空间的特征分布，受训练文本中的噪声影响较大，同时对分布不规则的数据，能够取得的效果是很有限的。　　1.2 K近邻法（K-Nearest Neighbor）　　KNN最初由Cover和Hart于1968年提出，是一个理论上比较成熟的方法，其分类方式是通过查询已知类别文本的情况，来判断新文本与已知文本是否属于同一类。算法的基本思想是：首先给定新文本，然后在训练文本集中找出与新文本距离最近的文本，依据找出的最近距离文本的类别，来判定新文本所属的类别。　　KNN方法相对简单，易于实现，用于基于统计的模式识别中非常有效，并且对于未知和非正态的分布能够取得比较高的分类准确率。但对于样本分布依赖性较大，当样本分布不均匀时，可能造成一定的偏向性。　　1.3 贝叶斯分类法　　贝叶斯分类方法在使误判率或风险最小的问题上是很有意义的。它是将研究对象的先验概率来作为辅助判断，这样做可以使结论更精确的得到分析。但由于贝叶斯分类器的前提是需要已知条件概率，而且它的决策面比较复杂，因此在计算和构造方面是相对困难的[26]。　　贝叶斯分类的优点在于算法逻辑简单，易于实现，并且算法稳定。但其也有缺陷，就是在其独立性假设时，在许多实际中并不能够成立，这样会引起分类的误差。　　1.4 支持向量机（SVM）　　支持向量机（Support Vector Machine，SVM）是统计学概念上一个有监督的学习方法，在解决小样本、非线性及高维模式识别问题中表现出特有的优势。这种方法是针对线性可分情况进行分析，通过寻找最优线性分类面来减小对新文档的误分概率[3]。　　2.常用的文本聚类方法　　作为一种无监督的机器学习方法，文本聚类是在给定的某种相似性度量下，把对象集合进行分组，使得相似的对象能够分到同一个组内。其方法通常是利用向量空间模型，将文本转换成高维空间中的向量，然后对这些向量进行聚类。因此，影响文本聚类结果的因素除了文档聚类算法的选择外，还包括语义问题和降维问题。　　2.1基于划分的方法　　划分法（Partitioning Method）也称分裂法，其基本原理是：首先得到初始的k个划分，然后通过迭代，将文档从一个中间类转移到另一个类中，以改进聚类的质量。代表性算法有K-means算法、k-中心点、CLARA、CLARANS等。　　2.2基于层次的方法　　层次法（Hierarchical Methods）首先假设所有文档自成一类，然后将最相似的两类合并，重复此过程，直到最后将所有文档合并为一类，因而可以形成一颗聚类树。层次法分为凝聚层次聚类和划分层次聚类两种，而划分层次聚类用的比较少。　　典型的层次聚类方法包括：CURE（Clustering Using REprisent- 　　atives）方法、ROCK方法、Chameleon、BIRCH（Balances Iterative Reducing and Clustering using Hierarchies）方法等。　　2.3基于模型的方法　　基于模型的方法（Model-based methods）是从文本集合中学习一个模型，每个模型代表一个文本类，并优化给定的数据和数学模型之间的适应性。它的一个潜在的假定