面向企业竞争情报的文本聚类技术的研究与应用-计算机应用技术专业毕业论文.docxVIP

  • 3
  • 0
  • 约4.86万字
  • 约 63页
  • 2019-05-11 发布于上海
  • 举报

面向企业竞争情报的文本聚类技术的研究与应用-计算机应用技术专业毕业论文.docx

创新性声明 本人声明所呈交的论文是我个人在导师的指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得西安电 子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的 同志对本研究工作所做的任何贡献均已在论文中作了明确的说明并表示了谢 意。 申请学位论文若有不实之处,本人承担一切相关责任。 本人签名: 日期: 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本 人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电 子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校 可以公布论文的全部或部分内容,可以允许采用影印、缩印或其他复制手段 保存论文。 (保密的论文在解密后遵守此规定) 本学位论文属于保密在 年解密后适用本授权书。 本人签名: 日期: 摘要 摘要 面向企业竞争情报的文本聚类技术的研究与应用 面向企业竞争情报的文本聚类技术的研究与应用 摘要 伴随着因特网的快速发展,网络上的数据信息急速膨胀。这些海量的数据蕴 含巨大的价值,并且主要以文本形式存在。为了实现对大规模文本的分析并从中 提取有用信息,文本聚类作为文本挖掘技术的一个重要分支,得到了深入的研究 和快速的发展。其中 K-means 作为一种经典的聚类算法,具有线性的时间复杂度, 并且其算法过程简单易于实现,在大规模文本处理方面有着广泛的应用。但是其 聚类效果很容易受到初始中心的影响,导致陷入局部最优解,从而降低聚类结果 的准确性。 本文针对 K-means 算法的缺点对其初始中心选择的过程进行重点研究,提出 了“近邻”的概念,并以 Web 文档为聚类对象,详细阐述了文本聚类的整个过程, 包括:文本预处理、聚类分析和质量评价。基于“近邻”的思想,本文设计了一 种初始中心选择的改进方法。算法改进的思想是使得被选为簇中心的文档之间具 有的较低的相似度,并拥有足够多的近邻,从而避免了聚类结果陷入局部最优解 的情况,改善了聚类算法的稳定性与准确性。 本文在多个文档集上进行聚类实验,验证了改进 K-means 算法的有效性。同 时在理论研究的基础上,将改进算法应用于企业竞争情报系统的核心模块——文 档聚类系统,并在企业竞争情报的分析任务中取得了良好的效果。 关键词:竞争情报 文本聚类 K-means 算法 数据挖掘 Ab Abstract 面向企业竞争情报的文本聚类技术的研究与应用 面向企业竞争情报的文本聚类技术的研究与应用 Abstract With the rapid development of Internet, the data on the network expands drastically. These massive data contains great value, and most of them are in text form. In order to analysis the large-scale text and obtain useful information from it, text clustering as an important method of text mining has been studied in depth and develops rapidly. In which K-means as a classic clustering algorithm has linear time complexity and because of its easy implementation, it has wide application in the large-scale text processing. However, the clustering result of K-means algorithm is easily influenced by its initial centroids, and this will result in falling into local optimal solution and reduce the accuracy of clustering results. In this paper, we mainly study the selection of initial cluster centroids for the drawback of K-means algorithm, a “neighbor” con

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档