搜索引擎中文本分类方法研究.docVIP

下载本文档

4
0
约3.25千字
约 8页
2018-09-10 发布于福建
举报
版权申诉

搜索引擎中文本分类方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

搜索引擎中文本分类方法研究

搜索引擎中文本分类方法研究　　摘要:文本分类技术在搜索引擎中有很重要的用途，本文简要分析了文本分类的评估方法，应用于搜索引擎的分类过程，重点介绍了现行的文本自动分类方法，包括经典算法和新算法以及未来的发展趋势。　　关键词：文本分类；分类器；准确率　　　　互联网的出现，使得人类全部的信息资源以前所未有的方式和程度在全球内互联互通,现在网上的信息纷繁芜杂，还没有一个统一的组织标准。在信息量如此丰富的网上查找自己感兴趣的信息是当务之急，搜索引擎就应运而生。即便如此搜索引擎搜索到的信息也是杂乱无章的，如果我们对网页进行分类就会为我们提供很多方便。如果人工进行分类几乎是不可能的，如果能够实施网页的自动分类，就可以实现网页标引和检索的分类主题一体化，搜索引擎就能够兼有分类浏览、检索和关键词检索的优点;能够深入到网页层次，帮助用户迅速的判断返回的结果是否符合自己的检索要求。　　　　1评估方法　　　　因为文本分类从根本上说是一个映射过程，所以评估文本分类系统的标志是映射的准确程度和映射的速度。映射的速度取决于映射规则的复杂程度，而评估映射准确程度的参照物是通过专家思考判断后对文本的分类结果(这里假设人工分类完全正确并且排除个人思维差异的因素)，与人工分类结果越相近，分类的准确程度就越高，这里隐含了评估文本分类系统的两个指标:准确率和查全率，准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式表示如下：　　　　查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率，其数学公式表示如下: 　　　　准确率和查全率反映了分类质量的两个不同方面，两者必须综合考虑，不可偏废，因此，存在一种新的评估指标，FI测试值，其数学公式如下: 　　　　2文本分类过程　　　　从图1可以看出，构建一个分类器的关键因素包括：预处理、训练集、特征选取算法、分类算法和截尾算法等。　　　　3 常用分类算法　　　　到目前为止产生了许多的文本自动分类方法，如中心向量法、朴素贝叶斯方法等等。在讨论各种分类方法之前，我们首先说明本章用到的一些常用符号。　　D= ｛｝表示将要被分类的文本的特征向量；　　c1，...ck表示这些文本可能的类别；　　T={d1，...dn}表示包含N个文本的训练集；　　y1,...yn，表示这N个训练文本的类别；　　Nj表示训练集中类的样本个数；　　m表示训练集特征个数；　　3.1中心向量法　　中心向量算法比较简单，它利用向量空间模型，对各个训练类别分别计算平均向量，进行标准化处理，再计算相似度。设T={d1，...dn}={,...,}，表示文档dj的向量，Wi,j表示特征i在文档.j中的权重，对于类别Ci其中心向量VCi={VW1,i,...VWm,i}其中: 　　　　然后，用Cos（D，VCi）来计算它们之间的相似度。　　3.2朴素贝叶斯方法（Na ve Bayes）　　Na ve Bayes（简称NB）理论的基本观点是：假设在给定的文本类语境下，文本属性是相互独立的。　　贝叶斯分类方法以贝叶斯定理为理论基础，是一种在已知先验概率与条件概率的情况下的模式识别方法。贝叶斯分类方法分两种：一种将问题简化，假设一个属性对给定类的影响独立于其他属性，即特征独立性假设。当假设成立时，与其他分类算法相比，朴素贝叶斯分类器是最精确的。但是实际问题中文本属性之间的依赖关系是可能存在的。这就要求考虑属性之间的依赖程度，显然其计算复杂度比前一种高得多，当然也更能反映真实文本的情况。但是实现十分复杂，目前还停留在理论的研究阶段。大量的理论和实验表明贝叶斯算法繁杂，且效果不显著。但是我们可以借鉴其项无关性的基本概念。　　3.3 k-近邻算法（K-NN）　　KNN方法是一种基于实例的文本分类方法.首先，对于一个测试文本，计算它与训练样本集中每个文本的文本相似度，依文本相似度找出k个最相似的训练文本。然后在此基础上给每一个文本类打分，分值是k个训练文档中属于该类的文本与测试文本之间的文档相似度之和。对这k个文本所属类的分值统计完毕之后，即按分值进行排序。为了分类合理，应当选定一个阈值，可以认为测试文本属于越过阈值的所有类。　　knndoc 是指在训练集中依文本相似度找出与文本dx，最相似的k个训练文本所组成的训练文本子集；当训练文本dx属于c,类时g(di,cj)取1，否则取0.一般可以通过另外的测试文本集进行调整。　　3.4支持向量机（SVM）　　支持向量机（SVM）建立在计算学习理论的结构风险最小化原则之上，其主要思想是针对两类分类问题在高维空间中寻找一个超平面作为两类的分割。以保证最小的分类错误