基于遗传的文本软聚类研究与实现研究-research and implementation of soft text clustering based on genetics.docxVIP

下载本文档

2
0
约4.68万字
约 55页
2018-08-14 发布于上海
举报
版权申诉

基于遗传的文本软聚类研究与实现研究-research and implementation of soft text clustering based on genetics.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于遗传的文本软聚类研究与实现研究-research and implementation of soft text clustering based on genetics

摘要随着信息技术的发展，尤其是Internet的普及和应用，以电子形式存在的文本信息已经成为人们主要的信息来源，人们需要对这些大量的文本资源进行有效的组织，以利于主题发现、信息检索以及为进一步的文本分类提供模式基础等，于是，文本聚类技术应运而生。但是过去对文本聚类的研究大部分都是基于硬聚类的，即一个文本只能分到一个类中。然而随着信息的膨胀及学科之间的交叉渗透，文本日益呈现出多样性和大量性，一个给定的文本往往可能属于多个类，所以我们需要一种更客观的文本分类描述方法，由此基于模糊聚类技术的文本软聚类方法正逐渐成为文本挖掘中一个研究的热点。在文本聚类研究中特征选择和聚类算法是两个最重要的组成部分，所以论文的研究主要包括以下两方面：1．文本无监督特征选择。考虑到聚类缺乏类的信息使得文本聚类中特征选择一直难以很好地解决，本文结合文档频数和特征相似度方法，提出了一种新的无监督特征选择方法（DocumentFrequencyandFeatureSimilarity，简记为DFFS）。该方法在过滤掉90%冗余特征的基础上，再通过计算特征的相关性移除尽可能多的无关特征。由于这种方法从纯特征的角度考虑，不受聚类结果的影响，克服了聚类缺乏类的先验知识的缺点，能够较好地解决文本无监督特征选择的问题。2．文本软聚类方法。在分析文本软聚类现状及对模糊C-均值算法（FCM）研究的基础上，通过引入具有全局优化能力的遗传算法，本文提出了一种适合于解决大样本高维度问题的方法——基于采样遗传的模糊聚类算法(SamplingGA-basedFCM，简记为SGFCM)，该方法通过遗传算法和FCM的结合既能发挥遗传算法的全局寻优能力，又可以兼顾FCM的局部寻优能力，较好地克服了FCM对初始化敏感，容易陷入局部最优的弱点；同时通过对遗传要素的合理设计及采样技术的应用提高了收敛速度，从而更好地解决文本软聚类问题。本文在相应的各章节给出了实验结果，证明了DFFS和SGFCM的有效性。最后对FCM、球型FCM和SGFCM三种方法在解决文本软聚类问题时作了比较实验，并给出了实验结果及其相应的分析。关键词：向量空间模型，文本聚类，特征选择，模糊C-均值，遗传算法ABSTRACTWiththedevelopmentofinformationtechnology,especiallywiththepermeationandtheapplicationofInternet,electronictextshavebecomethemajorsourceofinformationprovision.Thetasktoorganizedocumentsinaneffectiveformisrequiredfortheconvenienceoftopicdiscovery,informationretrievalandforthepurposeofnewdocuments’pre-categorizingpreparationsetc.Tomeettheserequirements,documentclusteringtechniquesemergeintime.However,thestudyoftextclusteringwasmainlybasedontheHardClusteringtechniqueinthepast,i.e.onetextgivencanonlybepartitionedintooneclass.Actually,withtheinformationexplosionandpervasionamongvariousresearchfields,onetextalwayspointsmoretopicsduetothediversityandabundanceofdocuments.Therefore,amethodtodescribethedocumentclassificationconditionsmoreobjectivelyisindemand.HencetextsoftclusteringbasedonfuzzyclusteringtechniqueisbecomingpopularinTextMining.Bothfeatureselectionandclusteringalgorithmsarethemostimportantfactorsinthestudyoftextclustering,somainsearchofthispaperlaysonthesetwoparts:Thefirstconcernistextunsupervisedfeatureselection.Consideringfeatureselectioncannotbeingoo