改进的k均值算法在中文文本聚类中的分析-analysis of improved k - means algorithm in chinese text clustering.docxVIP
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进的k均值算法在中文文本聚类中的分析-analysis of improved k - means algorithm in chinese text clustering
procedurecanavoidproducingclusterfractionseffectively.Owingtothemergingstep,wesuccessfullyimprovedthesituationthattheclusteringperformanceisaffectedbyinitialclustercenters.TheCBKMcanachieveglobaloptimization.BecauseofthatCBKMisthehybridofKMandCKM,itstimecomplexityishigherthanKMorBKM,butismuchlowerthansumofthelatertwo.ExperimentsweredoneusingSogoucorpus,theresultshowthatcomparewithKMandBKM,CBKMhashighervaluesinmutual,purity,F-measureandlowervalueofentropy.Theimprovedalgorithmcaneffectivelyimprovetheperformance.Keywords:CooperativeClustering,K-meansAlgorithm,BisectingK-meansClusteringAlgorithm,VectorSpaceModel.绪论第一章绪论1.1研究背景21世纪是一个信息的时代,信息量增长呈指数级别的变化。据不完全统计,全世界每年出版图书80万种,期刊40多万种,其他文献资料400多万种;平均每35秒就有一篇论文发表,不到1分钟就有一本新书问世[1]。庞大的信息量让我们处在一个信息的海洋中,我们在享受信息世界带给我们便捷的同时,也面临这被海量信息淹没的困境。如何从庞杂的信息中,辨别真伪找到真正需要的信息,已成为一个日益被关注的课题。数据挖掘技术是在这一历史背景下产生的。数据挖掘是指从大量数据中提取或“挖掘”知识,或者说是从大规模数据集中抽取隐含的有意义的规律或模式的过程[5,44]。它是随着数据库技术的发展以及日益增大的数据量需要处理的形势下产生的。它是多种学科如统计学,机器学习,多维分析相互交叉,相互融合形成的一个领域。数据挖掘对象可以是关系数据库,数据仓库,事务数据库等[5]。除此之外,还可以对Web上的数据进行挖掘,比如文本,音频,视频,网页链接等。随着Internet技术的发展,网络对人们的生活影响越来越大。网络上的信息主要存在形式有声音,图像,文字等。其中,以文字为载体的信息量最大。如何对文本信息进行有效的挖掘已经成为近年来一个重要的研究课题。文本聚类能够对大量文本进行组织和管理,很大程度上解决了信息爆炸和信息杂乱所带来的问题。将物理或抽象对象的集合分成相似的对象类的过程称为聚类。聚类的目标是文本集合分成多个类或这簇,同一簇中的对象相似度较高,不同簇中的文本内容差别较大[2]。它是聚类分析技术在文本处理领域的一种应用。文本分类[3-4]是对文本集按照一定的分类体系或标准进行自动分类标记。分类的目的是建立一个分类函数或分类模型,该模型能把数据库中的数据项映射到模型中的某一个类别。文本聚类[5-7]未知类别的文本集进行分析,根据文本自身结构对文本集合进行分类并对类别进行标识的过程,是一种“无指导的学习”。文本聚类在信息检索领域有着重要的应用。信息检索可以利用文本聚类的结果对检索到的信息进行分类,从而帮助用户快速地在该类中发现相关信息,过滤干扰信息,提高检索的精度。文本聚类分析了用户的浏览行为,通过用户日志得到用户浏览文档并利用对这些对文档聚类,建立用户模型,系统可以根据这个模型得知用户兴趣,定期给推荐用户感兴趣的文档,实现个性化服务[47,50]。1.2课题研究的理论和实际意义文本聚类是一种典型的无指导的学习,它的目标是将文本分成若干个簇,使得同一簇内文本的相似度尽可能的大,不同文本之间的相似度尽可能的小。文本聚类、文本分类是两个有关联的,但不同的领域。文本分类可以根据训练集合把未知文本分配到已知的类别当中。而文本聚类没有训练集,它是根据给定文本内在的联系(通常指相似度)将文本分为不同的类别,并给每个类别一个标识。聚类分析已经广泛地用在许多应用中,比较典型的有图像处理、信息检索、模式识别,在地理信息系统中,通过聚类发现特征空间从而建立主题索引;经济学空间数据分析等等[5]。具体的应用如:在市场调查方面,帮助发现不同的客户群体,概括出每个群体的消费模式和习惯,然后根据分类结果制定销售方案;在城市规划方面,根据收入水平、地理位置、价格等因素来建筑不同类型的住宅。文本聚类技术在信息检索领域有着广泛的应用,如可以快速的找到用户所需信息、定期推
您可能关注的文档
- 分布式对象文件系统的缓存策略分析-cache policy analysis of distributed object file system.docx
- 分布式多传感器系统航迹融合算法分析-analysis of track fusion algorithm for distributed multisensor system.docx
- 分布式电源自动检测系统分析-analysis of distributed power automatic detection system.docx
- 分布式多主体仿真技术及应用分析-distributed multi-agent simulation technology and its application analysis.docx
- 分布式多智能体系统一致性问题分析-analysis of consistency problem in distributed multi-agent system.docx
- 分布式电源接入配电网对闪变响应及闪变传递计算-calculation of flicker response and flicker transmission of distributed power access distribution network.docx
- 分布式发电系统中储能装置配置的分析-analysis of energy storage device configuration in distributed generation system.docx
- 分布式废水处理体系的设计分析-design and analysis of distributed wastewater treatment system.docx
- 分布式发电系统的短期发电预测分析-short - term power generation forecasting analysis of distributed power generation system.docx
- 分布式非结构化文本数据安全分析系统-distributed unstructured text data security analysis system.docx
- 改进层次分析法及基于bs架构的实现-improved analytic hierarchy process and implementation based on bs architecture.docx
- 改进的fcm和插值理论在数字图像修复中的应用分析-application analysis of improved fcm and interpolation theory in digital image restoration.docx
- 改进的rna-seq数据转录组表达分析研究-study on improved rna - seq data transcriptome expression analysis.docx
- 改进的杜邦财务分析体系在房地产企业的应用分析-application and analysis of improved dupont financial analysis system in real estate enterprises.docx
- 改进的杜邦财务分析体系在房地产企业的应用研究分析-application research and analysis of improved dupont financial analysis system in real estate enterprises.docx
- 改进的模糊聚类算法在入侵检测中的应用分析-application analysis of improved fuzzy clustering algorithm in intrusion detection.docx
- 改进的emd在齿轮箱故障诊断中的分析与验证-analysis and verification of improved emd in gearbox fault diagnosis.docx
- 改进的粒子群算法在传播模型校正中的应用分析-application and analysis of improved particle swarm optimization algorithm in correction of propagation model.docx
- 改进的基于梯度场的遥感图像拼接缝消除算法分析-analysis of improved remote sensing image seam removal algorithm based on gradient field.docx
- 改进的双响应面法及其动态特性机械系统的稳健设计方法理论与应用-theory and application of improved double response surface method and its dynamic characteristics robust design method of mechanical system.docx
原创力文档


文档评论(0)