- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
相对杂讯过滤法
相对杂讯过滤法-以混合式技术改善文件聚类精确度古佑嘉,真理大学信息管理系王海霞,真理大学信息管理系王台平,真理大学信息管理系摘要本研究讨论的是利用混合式方式改善文件聚类的精确度。目的是以电脑自动化的方式取代传统以人工分类方式以完成文件聚类,并运用AHC结合K-means的方式达到控制文件聚类时的品质,以提高其精确度(Precision)及召回率(Recall)。 文件聚类之前,需针对文件做前处理的动作。首先我们使用CKIP的中文分词系统将文件进行中文分词的处理,接著计算TF,每个关键词在各篇文章中出现的次数及IDF,最后用杂讯过滤的方法,将权重值中会影响文件聚类精确度与召回率的关键词权重值加以过滤。实验信息在95%的信赖度之下,有效样本为512篇新闻信息。实验结果显示出,本研究所提出AHC结合K-means聚类演算法并加入杂讯过滤法相较於AHC结合K-means聚类演算法,获得较理想的聚类结果。关键字:文本挖掘,文件聚类,凝聚式阶层聚类法,杂讯过滤绪论研究动机数据挖掘(Data Mining)是信息科学中的一项新兴且重要的技术,美国麻省理工学院(Massachusetts Institute of Technology, MIT)的Technology Review期刊更将之列入为改变未来世界的十大创新科技之一(曾新穆,李建亿,2003)。而文本挖掘(Text Mining)就是由数据挖掘中延伸出来,其中最广泛被运用的是文件分类(Text Classification)。分类,指的是事先以人工方式定义各个类别建立好模型。然而,聚类则不需事先建立模型,而以当时文件中最相近的视为一群。以往在文件自动分类的研究,大多采用分类(Classification)的方式做文件自动分类(谢儒诚,2002)。由於类别是事先定义好的,每当有新的文件产生而要加入时,如果其未在事先定义的类别中则会导致不知道该分至何类别。所以,使用文件聚类(Clustering)的方式就不会产生上述的问题。在文件聚类上,最为广泛被使用的两种聚类演算法: Agglomerative Hierarchical Clustering(AHC)K-means。AHC的品质控制比较好,能将信息以阶层式的树状图表达出来,缺点是在处理较大量的信息时较不易判读及分析,而且其执行效率差。K-means是最简单又易实作的方法,能处理较大量的信息,执行的效率较高。缺点是从其信息中随机选取初始中心点的K值该是多少却没有一定,且对於杂讯及离群值有著高敏感度。本论文的研究动机主要来自以下几点说明:第一,在讨论聚类演算法的论文中,多数都曾提及Single Linkage容易造成各群集之间「大者恒大,小者恒小」的情形出现,因此聚类的结果往往不如预期。但洪鹏翔学者的研究中,却显示Single Linkage相较於Complete Linkage有更好的精确度表现。洪鹏翔学者说明这是因为新闻类别中的新闻群聚并非是平均分布的,其中只有部分新闻需要形成新闻群聚,与Single Linkage所产生的群聚分布类似(洪鹏翔,2000)。第二,国内学者李谚泯将非阶层式聚类K-means及阶层式聚类AHC做一个结合,将修改过后的Modify K-means演算法先对信息进行处理,之后采用阶层式聚类处理信息,进而得到阶层式树状图。Hierarchical可以将所有信息的差异求出,先用Partitioning的方式对信息进行分割处理,而Hierarchical就只需对群集进行处理即可,在信息量大时,可以达到节省时间的目的(李谚泯,2003)。研究目的在此次的研究中,为了改善聚类在文件上的精确度,我们使用以AHC(Agglomerative Hierarchical Clustering)阶层式聚类演算法求取出合适的K值,提供给K-means非阶层式聚类演算法进行新闻文件聚类的动作。先进行阶层式聚类演算法可以针对聚类时的群数进行控制,虽然实际上较花时间,但对於品质有较良好的表现。而取出合适的K值,可以让K-means非阶层式聚类演算法在处理文件上能够达到加速收敛的目的,所以我们提出AHC(Agglomerative Hierarchical Clustering)阶层式聚类演算法结合K-means非阶层式聚类演算法进行文件聚类。聚类处理之前,我们将针对各个文件中去计算其关键字的平均值,以平均值倍数的区间为门槛值,对超过或是未达此门槛值的关键字权重进行过滤,删除会影响文件聚类的关键词,以提升类各类别的精确度。文献探讨特徵词汇在做文件聚类之前,除了需要将文件做分词的处理接著就是选取文件中的关键词,并找出能代表本篇文章的关键字,再和文件群比较看看哪些文章是相似的且需要被归为一类。若特徵词取的好,可代表本文章的内容;若特徵
文档评论(0)