Web文本挖掘中模糊聚类有效性评价研究.docVIP

下载本文档

2
0
约5.21千字
约 10页
2018-08-11 发布于福建
举报
版权申诉

Web文本挖掘中模糊聚类有效性评价研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web文本挖掘中模糊聚类有效性评价研究

Web文本挖掘中模糊聚类有效性评价研究　　摘要：本文研究了基于模糊聚类的Web文本挖掘和模糊聚类有效性评价函数，并将其应用于Web文本挖掘中模糊聚类有效性评价。仿真实验表明该方法有一定的准确性和可行性。　　Abstract： This paper studies web documents mining based on fuzzy clustering and validity evaluation function， and puts forward to applying validity evaluation function into evaluation of web text mining. The experiments show that FKCM can effectively improve the precision of web text clustering； the method is feasible in web documents mining. The result of emulation examinations indicates that the method has certain feasibility and accuracy. 　　关键词：模糊聚类；Web文本挖掘；相似度函数；有效性评价函数　　Key words： fuzzy cluster；Web text mining；similarity measure function；validity evaluation function 　　中图分类号：TP39 文献标识码：A 文章编号：1006-4311（2012）30-0207-02 　　0 引言　　将模糊核聚类用于web文本挖掘，实现多web文本的聚类分析，已成为文本信息进行有效组织、摘要和导航的重要手段。由于模糊聚类是一种无监督的学习过程，如何用一种客观公正的质量评价方法来评判聚类结果的有效性是一个困难而复杂的问题。广义上讲，聚类有效性评价包括聚类质量的度量、聚类算法适合某种特殊数据集的程度以及某种划分的最佳聚类数目[1]。　　本文研究了模糊聚类算法，并对现有的模糊聚类算法进行了改进。研究了评价聚类效果的两种有效性函数，并将其应用于Web文本数据的模糊聚类效果的评价，讨论了模糊聚类最佳类别数的自动确定问题。　　1 web文本预处理　　web文本分类首先需对文本信息进行建模（预处理），文本中存在很多非结构化信息，意义的特征项（如词条）来代表文本。在web文本挖掘时只修对这些特征项进行处理，从而实现对非结构化文本的处理，这是一个非结构化向结构化转化的处理步骤。　　1.1 web文本建模在信息处理领域，文本的表示通常采用Gerard Salton[2]提出的向量空间模型（设D（d1，d2，…，di，…，dn）为含有n个文本的文本集，该模型是将含有n个文本的文本空间看作是由一组规范化正交词条矢量组成的向量空间，每个文本di表示为其中一个规范化特征矢量V（di）。V（di）=（t1，w1（di）；…tj，wj（di）；…；tm，wm（di））（1）　　其中，tj为文本di中的特征词；wj（di）为tj在di中权重，称V（di）为文本di的向量空间表示，wj（di）=ψ（tfj（di））。其中ψ采用TF-IDF函数，公式如下：　　w■d■=■ （2）　　式中tf■为特征词tj在di中的词频，N是文本集中文本总数，nj是文本集中包含特征词tj的文本数，l为在文本di中特征词的个数。　　1.2 文本信息特征集的缩减 VSM 文本表示成数学上可分析处理的形式，但是存在的问题是文本特征向量具有惊人的维数。因此，在对文本进行分类处理之前，应对文本信息特征集进行降维处理。降维的方法有特征选取和特征抽取。通常的方法是将计算每个词出现的频率，然后删除一些频率很高或很低的词，同时还要考虑针对每个特征词条的权重排序，选取预定数目的最佳特征作为结果的特征子集。　　2 基于Dsim的web文本挖掘　　2.1 相似度函数Dsim 用VSM对Web文本进行的结构化处理，使得文本特征向量的维数相当大，尽管前面对文本特征向量进行了降维处理，但大多数向量空间仍属于高维空间。随着数据维数d的增加，数据的最大―最小距离差Dmax-Dmin以d1/k-1/2的速度增长[3][4][5]。对L■范数距离度量来讲k越大，最大和最小距离之间的对比越不明显[3][4][5]。赵恒[6]等人提出将Hsim（）函数作为相似度函数来进行模糊分类，相似性度量函数Hsim（）可以较好地克服L■范数等传统的距离函数在高维空间中的缺点，但它不具备平移不变性和不依赖幅值的特点。基于此，对Hsim（）