- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Sollin算法的快速聚类研究.pdf
技术研究与应用 船 舶 职 业 教 育 第 3卷 第 1期
TechnologyResearchandApplication SHIPBUILDING VOCATIONALEDUCATION VOI.3, NO.1
基于Sollin算法的快速聚类研究
刘 欢
(渤海船舶职业学院,辽宁兴城 125105)
摘要:文本聚类技术作为处理和组织大量文本数据的一项重要技术,能够在很大程度上解决由于信息
爆炸所带来的问题。Sollin算法是构建最小生成树的典型算法,与Kruskal算法和Prim算法相比,具有容
易实现并行运算的特点。因此,利用基于Sollin的快速层次聚类算法在复旦语料和搜狗语料上进行聚类实
验,结果表明基于Sollin的快速层次聚类算法在运行效率和聚类质量上都优于传统层次聚类算法。
关键词:层次聚类;Sollin算法;运行效率;聚类质量
中图分类号:TP301.6 文献标识码 :A 文章编号:2095—5928 (2015)01-6O—O5
QuickClusteringResearchBasedonSollinArithmetic
(BohaiShipbuildingVocationalCoUege,Xingcheng125105,China)
Abstract:Textclusteringtechnologyasanimportanttechnoloyg processingandorganizinglargeamountsof
textdatacan solveproblemscausedby information explosion to agreatextent.SoUin arithmeticisatypical
arithmetic forconstructing the minimum spanning tree.and compared 、Ⅳith Kruskalalgorithm and Prim
algorithm,itiseasy to realize paralleloperation.Therefore,the Fudan corpusand Sogou COrpusclustering
research resultbasedonSollin quickclusteringarithmeticshowsthatthequick hierarchicalclusteringarithm etic
basedonSoUinissuperiortothetraditionalhierarchicalclusteringarithmeticinefficiencyandlusteringqualiyt.
Keywords:hierarchicalclustering;Sollinarithmetic;operatingefficiency;clusteringquality
0 引言 数据进行分析。根据聚类方式的不同,文本聚
文本作为信息载体,因其数量巨大而难 以 类可以分为划分式聚类和层次聚类。由于层次
处理和组织大量文本 聚类算法简单容易实现且适合多种形状分布的
数据的一项重要技术, 够在很大程度上解决 数据,因此本文主要对层次聚类进行研究。
由于信息爆炸所带来自 题。文本聚类是通过 层次聚类按照聚类过程的不同可以分为 自
数据集的空间分布情
文档评论(0)