- 3
- 0
- 约4.86万字
- 约 63页
- 2019-05-11 发布于上海
- 举报
创新性声明
本人声明所呈交的论文是我个人在导师的指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得西安电 子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的 同志对本研究工作所做的任何贡献均已在论文中作了明确的说明并表示了谢 意。
申请学位论文若有不实之处,本人承担一切相关责任。 本人签名: 日期:
关于论文使用授权的说明
本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本 人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电 子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校 可以公布论文的全部或部分内容,可以允许采用影印、缩印或其他复制手段 保存论文。
(保密的论文在解密后遵守此规定) 本学位论文属于保密在 年解密后适用本授权书。
本人签名: 日期:
摘要
摘要
面向企业竞争情报的文本聚类技术的研究与应用
面向企业竞争情报的文本聚类技术的研究与应用
摘要
伴随着因特网的快速发展,网络上的数据信息急速膨胀。这些海量的数据蕴 含巨大的价值,并且主要以文本形式存在。为了实现对大规模文本的分析并从中 提取有用信息,文本聚类作为文本挖掘技术的一个重要分支,得到了深入的研究 和快速的发展。其中 K-means 作为一种经典的聚类算法,具有线性的时间复杂度, 并且其算法过程简单易于实现,在大规模文本处理方面有着广泛的应用。但是其 聚类效果很容易受到初始中心的影响,导致陷入局部最优解,从而降低聚类结果 的准确性。
本文针对 K-means 算法的缺点对其初始中心选择的过程进行重点研究,提出 了“近邻”的概念,并以 Web 文档为聚类对象,详细阐述了文本聚类的整个过程, 包括:文本预处理、聚类分析和质量评价。基于“近邻”的思想,本文设计了一 种初始中心选择的改进方法。算法改进的思想是使得被选为簇中心的文档之间具 有的较低的相似度,并拥有足够多的近邻,从而避免了聚类结果陷入局部最优解 的情况,改善了聚类算法的稳定性与准确性。
本文在多个文档集上进行聚类实验,验证了改进 K-means 算法的有效性。同 时在理论研究的基础上,将改进算法应用于企业竞争情报系统的核心模块——文 档聚类系统,并在企业竞争情报的分析任务中取得了良好的效果。
关键词:竞争情报 文本聚类 K-means 算法 数据挖掘
Ab
Abstract
面向企业竞争情报的文本聚类技术的研究与应用
面向企业竞争情报的文本聚类技术的研究与应用
Abstract
With the rapid development of Internet, the data on the network expands drastically. These massive data contains great value, and most of them are in text form. In order to analysis the large-scale text and obtain useful information from it, text clustering as an important method of text mining has been studied in depth and develops rapidly. In which K-means as a classic clustering algorithm has linear time complexity and because of its easy implementation, it has wide application in the large-scale text processing. However, the clustering result of K-means algorithm is easily influenced by its initial centroids, and this will result in falling into local optimal solution and reduce the accuracy of clustering results.
In this paper, we mainly study the selection of initial cluster centroids for the drawback of K-means algorithm, a “neighbor” con
您可能关注的文档
- 面向大数据的传输光纤设计和分析-电子与通信工程专业毕业论文.docx
- 考虑偏差因素的集成电路软错误分析方法研究-仪器仪表工程专业毕业论文.docx
- 面向电力系统的图形编辑器的设计与实现-软件工程专业毕业论文.docx
- 美国多元文化教师教育分析-比较教育学专业毕业论文.docx
- 面向HEVC视频编码标准的视频质量评价分析与研究-信息与通信工程专业毕业论文.docx
- 门式刚架转角节点性能分析-结构工程专业毕业论文.docx
- 马血中SOD和凝血酶的提取及膜浓缩工艺研究-食品科学专业毕业论文.docx
- 面向HL7的临床诊断工作流模型的设计与实现-计算机科学与技术专业毕业论文.docx
- 面向农田监测应用的WSN节点软件系统设计及LQI测距研究-信号与信息处理专业毕业论文.docx
- 面向云架构的数据库中间件的设计与实现-软件工程专业毕业论文.docx
原创力文档

文档评论(0)