- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
相对杂讯过法
相对杂讯过滤法-以混合式技术改善文件聚类精确度
古佑嘉,真理大学信息管理系王海霞,真理大学信息管理系王台平,真理大学信息管理系摘要
本研究讨论的是利用混合式方式改善文件聚类的精确度。目的是以电脑自动化的方式取代传统以人工分类方式以完成文件聚类,并运用AHC结合K-means的方式达到控制文件聚类时的品质,以提高其精确度(Precision)及召回率(Recall)。 文件聚类之前,需针对文件做前处理的动作。首先我们使用CKIP的中文分词系统将文件进行中文分词的处理,接著计算TF,每个关键词在各篇文章中出现的次数及IDF,最后用杂讯过滤的方法,将权重值中会影响文件聚类精确度与召回率的关键词权重值加以过滤。实验信息在95%的信赖度之下,有效样本为512篇新闻信息。实验结果显示出,本研究所提出AHC结合K-means聚类演算法并加入杂讯过滤法相较於AHC结合K-means聚类演算法,获得较理想的聚类结果。
关键字:文本挖掘,文件聚类,凝聚式阶层聚类法,杂讯过滤
1.绪论
研究动机
数据挖掘(Data Mining)是信息科学中的一项新兴且重要的技术,美国麻省理工学院(Massachusetts Institute of Technology, MIT)的Technology Review期刊更将之列入为改变未来世界的十大创新科技之一(曾新穆,李建亿,2003)。而文本挖掘(Text Mining)就是由数据挖掘中延伸出来,其中最广泛被运用的是文件分类(Text Classification)。
分类,指的是事先以人工方式定义各个类别建立好模型。然而,聚类则不需事先建立模型,而以当时文件中最相近的视为一群。以往在文件自动分类的研究,大多采用分类(Classification)的方式做文件自动分类(谢儒诚,2002)。由於类别是事先定义好的,每当有新的文件产生而要加入时,如果其未在事先定义的类别中则会导致不知道该分至何类别。所以,使用文件聚类(Clustering)的方式就不会产生上述的问题。
在文件聚类上,最为广泛被使用的两种聚类演算法: Agglomerative Hierarchical Clustering(AHC)、K-means。AHC的品质控制比较好,能将信息以阶层式的树状图表达出来,缺点是在处理较大量的信息时较不易判读及分析,而且其执行效率差。K-means是最简单又易实作的方法,能处理较大量的信息,执行的效率较高。缺点是从其信息中随机选取初始中心点的K值该是多少却没有一定,且对於杂讯及离群值有著高敏感度。
本论文的研究动机主要来自以下几点说明:
第一,在讨论聚类演算法的论文中,多数都曾提及Single Linkage容易造成各群集之间「大者恒大,小者恒小」的情形出现,因此聚类的结果往往不如预期。但洪鹏翔学者的研究中,却显示Single Linkage相较於Complete Linkage有更好的精确度表现。洪鹏翔学者说明这是因为新闻类别中的新闻群聚并非是平均分布的,其中只有部分新闻需要形成新闻群聚,与Single Linkage所产生的群聚分布类似(洪鹏翔,2000)。
第二,国内学者李谚泯将非阶层式聚类K-means及阶层式聚类AHC做一个结合,将修改过后的Modify K-means演算法先对信息进行处理,之后采用阶层式聚类处理信息,进而得到阶层式树状图。Hierarchical可以将所有信息的差异求出,先用Partitioning的方式对信息进行分割处理,而Hierarchical就只需对群集进行处理即可,在信息量大时,可以达到节省时间的目的(李谚泯,2003)。
研究目的
在此次的研究中,为了改善聚类在文件上的精确度,我们使用以AHC(Agglomerative Hierarchical Clustering)阶层式聚类演算法求取出合适的K值,提供给K-means非阶层式聚类演算法进行新闻文件聚类的动作。先进行阶层式聚类演算法可以针对聚类时的群数进行控制,虽然实际上较花时间,但对於品质有较良好的表现。而取出合适的K值,可以让K-means非阶层式聚类演算法在处理文件上能够达到加速收敛的目的,所以我们提出AHC(Agglomerative Hierarchical Clustering)阶层式聚类演算法结合K-means非阶层式聚类演算法进行文件聚类。聚类处理之前,我们将针对各个文件中去计算其关键字的平均值,以平均值倍数的区间为门槛值,对超过或是未达此门槛值的关键字权重进行过滤,删除会影响文件聚类的关键词,以提升类各类别的精确度。
文献探讨
特徵词汇
在做文件聚类之前,除了需要将文件做分词的处理接著就是选取文件中的关键词,并找出能代表本篇文章的关键字,再和文件群比较看看哪些文章是相似的且需要被归为
您可能关注的文档
- 用数学归纳证明不等式.doc
- 用户自定义段计算.doc
- 用数学归纳证明数列中的问题.doc
- 用数对确定体的位置.doc
- 用万用表测晶体振荡器是否工作的方法.doc
- 用数对确定置的教学设计。.doc
- 用数对确定置教学设计zhengyi.doc
- 用数对确定置第三稿.doc
- 用数对确定置练习40.doc
- 用数对确定置的教学设计1.doc
- T_CITS 324-2025 循环肿瘤细胞检测技术质量保证要求.docx
- DB45_T 2869-2024 紫黑香糯栽培技术规程.docx
- DBJ51_T 162-2021 四川省地螺丝钢管桩技术标准.docx
- DBJ50∕T-237-2016 道路橡胶沥青路面技术规程.docx
- DBJ50_T-474-2024 600MPa级高延性冷轧带肋钢筋应用技术标准.docx
- DB45∕T 1655-2017 芋头组培苗生产技术规程.docx
- DBJ51_T 070-2016 四川省膨胀玻化微珠无机保温板建筑保温系统应用技术规程.docx
- DBJ50_T-173-2013 塑料片材空铺法屋面防水应用技术规程.docx
- DB53_T 1257-2024 智慧戒毒安全防范平台数据接入规范.docx
- DB1303_T 392-2025 农产品快速检测实验室操作规范.docx
文档评论(0)