- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
WEB数据挖掘中XML聚类研究
WEB数据挖掘中XML聚类研究
[摘 要]为了满足基于Web的XML数据信息的挖掘的需求,提出一种基于结构相似度的XML文档的聚类算法,该方法是在根据XML文档的语义信息和结构信息计算出相似度基础之上对XML文档集合进行聚类,并进行了实验,证明该方法有效,与同类算法相比有其优势的地方。
[关?I词]XML聚类算法 Web挖掘 相似度 亚簇
中图分类号:G642文献标识码:A 文章编号:1002-6908(2007)0620038-03
一、引言
文本聚类是数据挖掘中的一项重要内容,成功的聚类不但可以提高信息检索系统的查准率和召回率,还可以用于组织搜索引擎返回的结果,自动产生文本的簇或类,并利用这些簇或类来对新文档进行归类。
基于XML文档的聚类与普通的文本聚类一样,就是将XML文档集合组成不同的簇或类,使得簇或类内文档之间的相似性尽量大,而簇或类之间的相似性尽量小,但是由于XML文档有其特殊性,它具有半结构特性,因而,我们应在研究普通文本聚类的基础之上对它进行更深层次地研究。
本文的研究主要依据以下事实:针对于XML文档的数据查询已经有了很好的XML查询语言(以XQuery Language,XQL),它能根据用户提供的数据在Web上进行查询,并返回结果给用户。在这方面许多研究者们已提出了查询处理XML数据的各种方法,而相比之下,在处理非结构化或较少结构化的XML文档或来自不同信息源的异构XML数据时,用户往往希望能发现与查询相关(但不精确匹配)的信息,例如:某用户想要从Web中获取关于“book”这一主题的作者名和书名的对应关系,那么他只需给出“book”这一关系主题,并指出构成该关系的两类实体(author,title)来定义自己的挖掘请求,接下来系统会自动地从网上找到尽量多的与(author,title)相匹配的实例数据反馈给用户,这实际上就是近似搜索技术,虽然传统的信息检索技术也可以应用于XML文档,但是这种基于向量空间模型(VSM)的检索技术并不能反映XML文档中的结点嵌套结构的语义信息。
因而,从上所述本文的对XML文档的聚类研究主要是关心与XML文档树结构有密切联系的信息,而非文档中表示事物具体信息的数据本身,所以本文在XML文档聚类中提出的相似度计算是利用XML文档的语义信息和结构信息,从结构的角度准确的判断XML文档之间的相似性。本文的研究结果主要应用于Web文本挖掘,Web网页关系信息抽取,面向XML文档的近似搜索等等。
二、基于结构相似度的XML文档聚类算法及关键技术
(一)基于结构相似度的XML文档的聚类算法框架和简述
本文提出一种基于结构相似度的XML文档聚类算法,该算法的基本思想是:在用户给定的XML文档集合之上,按某一策略产生的XML文档相似度阈值对此集合进行划分,划分的结果是得到若干亚簇,然后在每个亚簇中选取一个文档作为代表文档来表征该亚簇,最后,在此基础上对代表文档进行凝聚聚类。相似度阈值产生的策略是:当一个样例XML文档与XML文档集合中其它文档的相似度降序排列时,势必产生一条递减曲线,用n次曲线拟合它,然后对拟合曲线求二阶导数,得到曲线拐点,拐点对应的相似度值即为阈值。至于相似度的计算,本文将采用结合XML的元素标记的语义信息与结点的结构信息的方法进行计算。具体过程是:对XML文档树中每一个元素标记计算语义等级,然后再对每一个结点赋予不同的权重,结合二者来计算两个XML文档的相似度,最终得到整个XML文档集合的相似度矩阵,在阈值的产生、亚簇的生成和凝聚聚类中都会使用到这个矩阵。
(二)XML文档预处理
许多XML文档树都存在相同路径,相同路径的重复出现对计算相似度是有害的。一方面,它会急剧增加我们的计算量,严重影响算法的性能;另一方面,有时还会干扰计算结果的准确性,在计算根结点的权重时,会导致根结点的权重过大“淹没”其它结点。因此应当删除这些冗余的路径,提取最小有效结构,如图0-2提取最小有效结构所示。
对XML文档树进行提取最小有效结构的处理方法:一种是怎样处理重复的叶结点,另一种是怎样处理重复的非叶结点。对于前者,将重复的叶结点直接舍弃就行了,对于后者必须合并非叶结点及其包含的子结点。
(三)计算语义等级
1.特征向量的提取
特征提取,就是将文本中对表达文本所属类别有比较强说服力的词汇从文本中抽取出来,形成一个向量。对于XML文档,我们可以提取XML文档所有的元素标记名称作为特征向量。
2.语义扩展
对上一步提取出的特征向量元素标记进行扩展,本文采用普林斯顿大学认知实验室Miller等人开发研制的WordNet2. 0软件对
文档评论(0)