个性化信息检索中的文本分类方法.docVIP

下载本文档

1
0
约3.2千字
约 6页
2018-03-16 发布于北京
举报
版权申诉

个性化信息检索中的文本分类方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

个性化信息检索中的文本分类方法　　摘要：个性化信息检索使得搜索引擎能满足不目的，背景的用户的查询需求，该文主要探讨了个性化信息检索中常用的文本分类算法。　　关键词：个性化；信息检索；文本分类　　中图分类号：TP311文献标识码：A 文章编号：1009-3044(2008)29-0265-02 　　Method of Text Categorization in Personalized Retrieval 　　PENG Ye-ping, XIAO Da-guang 　　(Information science and Engineering college,Central South University,Changsha 416000,China) 　　Abstract: Personalized retrieval is becoming a hot topic for research， this paper mainly discusses about the text categorization algorithm， its principles and scope of application. 　　Key words: personalized; retrieval; text categorization 　　　　1 引言　　　　搜索引擎在信息检索中起了重要作用，但是由于引擎的通用性，使其不能满足不同目的，背景，时期的用户查询需求，因此需要针对拥护特征向用户提供个性化服务。文本分类方法通过构造某种分类模型，并以此判断样本所属的类别。文本分类对合理组织，存储文本信息，提高信息检索速度，提高个性化信息检索效率的基础。　　　　2 分类方法　　　　2.1 朴素贝叶斯方法　　朴素贝叶斯方法是一种在已知先验概率与条件的情况下的模式识别方法，假设词条之间是相互独立的。设d为一任意文本，它属于文档类C{c1，c2，…，ck}中的一类Cj，引用词条和分类的联合概率来计算给定文档的分类概率的公式如下：　　计算所有文本类在给定d情况下的概率，概率值最大的那个类就是文本d所属的类，既：　　2.2 贝叶斯网络分类法　　贝叶斯网络分类法考虑了特征之间的依赖关系，该方法更能真实反映文本的情况，但是计算复杂度比朴素贝叶斯高的多。　　2.3 决策树方法　　决策树极强的学习反义表达能力使得其适合于文本分类，它是通过一组无序，无规则的实例推理出树型的分类规则，采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较并根据不同的属性值进行判断从该结点向下的分支，在决策树的叶结点得到结论，决策树的建立算法有很多，文献[5]其中包括基于信息增益的启发式计算ID3；基于信息增益率的解决联系属性的算法C4.5；基于Gini系数的算法CART和可并行性算法SPRINT算法。决策树方法特点是使用者只要将训练样例能够使用属性-结合式的方法表达出来，就能够用该方法来学习，但是这种算法生成的仍是多叉树。　　2.4 K-邻近方法　　K-邻近方法，根据测试文本在训练文本中与之最相近的K篇文本的类别来判定它的类别，其中，K是一个重要的参数，文献[4]K值过大，则与待分类文本实际上并不相似的一些文本也被包含，造成噪音增加;K值太小，则不能充分体现待分类文本的特点.一般对K会选定一个初值，相似值的判定可取欧拉距离或余旋相似度等，若分类系统中相似值的计算采用余旋相似度，则公式如下: 　　Sim(x，di)为相似度公式，X为新文本的向量，y(di，cj)为类别属性函数，若d∈cj，则y(di，cj)=1;否则y(di，cj)=0;将新文本分到权重最大的类别中去。　　2.5 支持向量机　　Vapnik提出在结构风险最小化准则理论上的支持向量机方法，能有效解决小样本集的机器学习问题，向量机主要是针对两类分类问题，在高维空间寻找一个满足分类要求的最优超平作为两类的分割，既保证分类精确度，又要使超平面两侧的空白区域最大化，以保证最小的分类错误率，文献[1]对于大于两类的多类文本分类，就对每个类构造一个超平面，将这一类与其余的类分开，有多个类就构造多个超平面，测试时就看哪个超平面最适合测试样本。支持向量机方法避免了局部性问题，样本中的支持向量数，能够有效地用于解决高纬问题。　　2.6 神经网络方法　　神经网络是模仿人脑神经网络的基本组织特性构成的新型信息处理系统，其性质取决于网络拓扑结构，网络的权值和工作规则.通常由等于样本特征数的输入层，输出层，等于样本类数的神经元组成。其中，每一个连接都有一定的权值，通过训练类来训练的过程就是调整这些权值的过程，从而使神经网络与可以正确地预测类别。