- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 要
聚类作为一种知识发现的重要方法,它广泛地与中文信息处理技术相结合,应用于网络信息处理中以满足用户快捷地从互联网获得自己需要的信息资源。文本聚类是聚类问题在文本挖掘中的有效应用,它根据文本数据的不同特征,按照文本间的相似性,将其分为不同的文本簇。其目的是要使同一类别的文本间的相似度尽可能大,而不同类别的文本间的相似度尽可能的小。整个聚类过程无需指导,事先对数据结构未知,是一种典型的无监督分类。
本文首先介绍了文本聚类的相关的技术,包括文本聚类的过程,文本表示模型,相似度计算及常见聚类算法。本文主要研究的聚类主要方法是k-均值和SOM算法,介绍了两种算法的基本思想和实现步骤,并分析两种算法的聚类效果。同时介绍了两种算法的改进算法。
关键词:文本聚类 聚类方法 K-MEAN SOM Abstract
Clustering as an important knowledge discovery method, which extensively with Chinese information processing technology, used in network information processing to meet the users to quickly access from the Internet, the information resources they need. Text clustering is a clustering problem in the effective application of text mining, which according to the different characteristics of text data, according to the similarity between the text, the text will be divided into different clusters. The aim is to make the same class as large as possible the similarity between the text, and different types of text as small as possible the similarity between. The clustering process without guidance, prior to the data structure is unknown, is a typical unsupervised classification. This paper studies the effect of influencing factors that text clustering, text representation of the model such as the Boolean model, vector space model, probabilistic retrieval model and language model. Also studied the analysis of such text clustering algorithm: hierarchical clustering, agglomerative hierarchical clustering algorithm, hierarchical clustering algorithm to split and so on. Also studied the text clustering algorithm analysis and methods of improvement.
Key words:Text clusteringclustering method k-mean som
毕业设计(论文)原创性声明和使用授权说明
原创性声明
本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
作 者 签 名: 日 期:
指导教师签名: 日 期:
使用授权说明
本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照
您可能关注的文档
- “百度搜索引擎”下的“百度知道”系统的毕业论文设计和实现毕业论文设计.doc
- 施工方在工程分包管理中存在的问题及其对策分析——以“衫溪”项目1#楼工程为例46本科毕业论文设计(毕业论文设计).doc
- XXX二期15号楼施工组织毕业论文设计.doc
- 反班级型非正式群体对班级的影响及管_理策略毕业论文设计.doc
- 公司考勤管理系统的毕业论文设计与实现本科毕业论文设计.doc
- “百度搜索引擎”下的“百度知道”系统的毕业论文设计和实现_毕业论文设计.doc
- 某高层建筑高低压供电系统的毕业论文设计.doc
- 基于VB的人力资源管理信息系统的毕业论文设计与实_现计算机专业毕业论文设计.doc
- 储罐的毕业论文设计_毕业论文设计.doc
- 人工鱼群法在组合优化问题的研究_毕业论文设计.doc
- 基于序列特征的固有无序蛋白结合位点的统计分析40本科设计毕业论文41.doc
- 基于FluidSIM的铣床装置系统仿真毕业论文设计.doc
- 基于远程教学交互理论的微视频设计毕业论文开发与实践研究设计毕业论文.doc
- 吉林省逆向物流的发展研究设计毕业论文.doc
- 几何元素在人物形象设计毕业论文中的创新应用设计毕业论文.doc
- 计算机木马病毒研究与防范设计毕业论文.doc
- 同类网站查询接口的集成系统毕业论文设计与实现_毕业论文设计论文.doc
- 技术性贸易壁垒对我国食品出口的影响设计毕业论文.doc
- 基于PLC的巷道式堆垛机定位控制系统的毕业论文设计.doc
- 技术性贸易壁垒与绿色毛衣壁垒之异同设计毕业论文.doc
文档评论(0)