文本分类和聚类干模型的研究.pdfVIP

下载本文档

7
0
约7.55万字
约 60页
2016-01-08 发布于四川
举报
版权申诉

文本分类和聚类干模型的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本分类和聚类干模型的研究

摘要随着互联网上文本数据的持续暴涨式增长，文本挖掘这种在大规模数据情况下能有效组织和管理文本信息的工具得到了广泛的研究和应用。本文分别针对文本挖掘中分类和聚类的几个问题提出了改进模型。对于有监督学习中的文本分类问题，传统分类方法在类别较少时能表现较好的效果，但遇到类别较多且类别间存在着复杂关系时其效果不尽人意。“深层分类”模型是一种解决大规模文本层次分类问题的有效框架，它由搜索和分类两阶段组成，其中搜索阶段用于选择与测试文档相关的若干个候选类别，分类阶段则是通过对这些候选类别训练更加精确的分类器进行最终分类。本文基于该框架提出一种改进型模型，首先将一种新方法用于单独评价搜索阶段的效果；然后利用类别和文档信息共同选择候选类别；最后基于类中心训练Rocchio分类器，同时还利用相关类别的分类结果确定最终类别。对于无监督学习中的文本聚类问题，准确高效地度量文本间的相关性是其重要任务。传统方法直接计算文档间的统计相关性，而没有考虑相邻文档的影响。本文使用了Markov网络模型表示文本集中文档关系，该方法不仅考虑文档间的直接相关性还考虑了各自邻域对其描述的影响；并将该方法用于文档聚类中，通过构造Markov网络并加权结合各步转移矩阵，使得类内数据相关性描述更大，类间数据相关性描述更小，最后利用这种相关性描述差距明显的关系矩阵进行聚类。本文的工作主要包括以下两点： 1)系统地研究了大规模文本分类中的方法和应用，并针对深层分类模型提出了一种结合相关类别的大规模层次文本分类模型，实验结果表明：相关类别，特别是顶层类别和兄弟类别，对目标类别的判定有很好的辅助作用。 2)使用Markov网络模型表示文本数据集，使用加权随机游走矩阵的方法描述数据集中对象间的相关性，并使用该方法进行文本聚类，实验结果表明：在文本聚类中，利用加权结合各步随机游走相关矩阵能很好的提高聚类效果。关键词：文本挖掘；大规模文本分类：深层分类；文本聚类；Markov网络 ABSTRACT oftextdatainthe asan andeontinous Intemet，text Withthe growth mining rapid studied oftextdatahasbeen in and mount effectivetool large organizingmanaging methodsaimat the and widely．Someimproved solvingproblems intensivelyapplied been andtext inthefieldoftext have oftextclassification mining proposed clustering inthe paper． Asforthe intext supervisedlearningproblem methodsare at thedocumentsintoafew classification goodcategorizing