基于结构与内容相融合XML文档聚类的研究(智能信息系统).docx

下载文档 降价啦

1
0
约9.08千字
约 41页
2017-08-31 发布于安徽
举报
版权申诉
保障服务

基于结构与内容相融合XML文档聚类的研究(智能信息系统).docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《智能信息系统》课程论文基于结构与内容相融合的XML文档聚类研究姓名：祝黎学号： 2012201040008 院系：信息管理学院专业：管理科学与工程年级： 12级硕士基于结构与内容相融合的XML文档聚类研究祝黎（武汉大学信息管理学院，湖北武汉 430072）摘要本文分析了国内外已有的XML文档聚类技术，对XML聚类技术进行了研究，提出了一种将文档结构和内容相融合的聚类方法——两阶段聚（TPCM：Two Phase Clustering Method of XML Documents）。该方法首先采用传统的相似度计算和K-means 聚类算法对XML文档结构进行大类的聚类，然后利用改进的数路径模型方法对大类进行更有效、更准确的XML文档分类。关键词 xml；文档聚类；两阶段法；K-meansAbstract This paper analyzed the domestic and foreign existing XML document clustering technique, the XML clustering techniques are studied, this paper puts forward a document structure and content of the integration of clustering method, Two Phase Clustering Method of XML Documents. This method firstly uses traditional similarity calculation and K - means to cluster the XML document structure types, and by using the improved method of path model number of categories to get more effective and more accurate classification of the XML document.Keywords xml; document clustering;TPCM;K-means1.引言我们正处在一个信息爆炸的时代，随着WEB网上信息的爆炸式增长，从半结构化文档（特别是XML文档）中提取信息变得越来越重要。目前互联网上已经形成了一个巨大的由XML格式数据构成的数据仓库。如何有效存储、索引、挖掘与利用XML数据已成为研究热点。XML是一种元标记语言，它提供描述结构化资料的格式，可用于创建标记语言。它以其良好的数据存储格式、可扩展性、高度结构化、便于网络传输等优点在许多领域应用，便于网页信息组织，不仅能满足不断增长的网络应用需求，而且还能确保在与网络进行交互时，具有良好的可靠性与互操作性。文本聚类是数据挖掘中的一项重要内容，它不但可以提高信息检索系统的查准率和查全率，还可以用来组织搜索引擎返回的结果，自动产生文本的层次簇或类，并利用这些簇或类对新文档进行归类。XML文本聚类的目标和普通的文本聚类一样，就是将XML文档集组成不同的类，使得类内文档之间的相似性尽量大，而类间的相似性尽量小。XML文档是信息与元信息的混合体，其“语义”可以看作是由文档内容和文档结构两部分构成。这里的内容是指元素值和属性值，结构是指由标记名称及标记之间的层次关系描述的元素值（属性值）之间的语义关系。而现有的XML文档聚类算法也根据上面的两种关系分为基于结构相似度和基于语义相似度两大类。但是这两大类其实都只考虑了XML文档的一个部分，在很多场合的应用是不合理的。：两个有截然不同结构的Schema可以有同样内容的文档实例，两个有截然不同内容的XML文档若他们的Schemas相似也可以聚类在一起。文献［1］提出将文本内容中的高频词和文档标记简单合并作为特征向量，引进向量空间法对文档进行聚类。这种方法虽然综合考虑了文档的内容特征和结构特征，但将两类特征看作是正交的，割裂了彼此之间的联系，显然与文档的特点不相符合。文献[3]提出了反映XML文档内容特征和结构特征的构件向量,在数据为中心的文档集中获得了较好的聚类效果。但是该方法在处理开放的、大规模的以文本为中心的XML真实数据时,会产生大量的构件向量,导致算法的执行效率大打折扣。而本文分析了国内外已有的XML文档聚类技术，对XML聚类技术进行了研究，提出了一种将文档结构和内容相融合的聚类方法——两阶段聚（TPCM：Two Phase Clustering Method of XML Documents）。该方法首先采用传统的相似度计算和K-means 聚类算法对XML文档结构进行大类的聚类，然后利用改进的数路径模型