the xml文档自动聚类的研究guide download.pdfVIP

下载本文档

2
0
约1.64万字
约 6页
2017-08-30 发布于安徽
举报
版权申诉

the xml文档自动聚类的研究guide download.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

维普资讯第 25卷第 2期情报学报 AVo1．25．№2 2006年 4月 pril，2006 XML文档自动聚类研究潘有能 (浙江大学信息资源管理系，杭州 310028) 摘要本文在文本聚类的基础上对 XML文档自动聚类进行了研究，对划分聚类法和层次聚类法进行了改进，使之适合于XML文档聚类；给出了元素比较法、边集比较法和编辑距离法等三种计算文档间相似度的方法，并利用实际数据进行了测试和分析。关键词数据挖掘文本聚类 XML Research onXM L DocumentsCluster PanYouneng (DepatfmentofInformationResourcesManagement，ZhejiangUni~ ity，Ht咖 u310028) Abstract OnthebasisoftextcIuster．theauthormakesaJlexploratoryresearchonXMLdocumentscluster，thou# the improvementonpartitionclusterandlayercluster，makeshtemcanUSeonXMLdocumentscluster．Then，hteauhtordiscusses80me mehtodaboutXMLdocuments similaritycMc~afion． Keywords datamining，textcluster，XML．就是将 XML文档集组成不同的类，使得类内文档之 1 前言间的相似性尽量大，而类间的相似性尽量小。但是由于XML文档和一般的非结构化文档有着很大差 XML(ExtensibleMarkupLanguage，可扩展标记语别，我们需要在普通的文本聚类的基础上进行更深言)是近几年新发展起来的基于Internet的元数据置层次的研究。标语言，自发布之日起，XML就以其良好的可扩展性受到业界的普遍欢迎和支持，逐渐成为web上的 2 XML文本聚类技术通用语言，在数据交换、Web服务、内容管理、Web集成等方面得到了重要应用。目前文本聚类的方法主要有划分聚类法、层次文本聚类是数据挖掘中的一项重要内容，它不聚类法、自组织映射法、基于遗传算法的文本聚类法但可以提高信息检索系统的查准率和查全率，还可等，由于XML文档是一种结构化的文本，其语义信以用于组织搜索引擎返回的结果，自动产生文本的息可以通过文档结构得以描述，主要是通过对 XML 层次簇或类，并利用这些簇或类来对新文档进行归 ‘文档结构的分析比较进行聚类，所以并不是所有的类。文本聚类算法都适合于XML文本聚类，在自组织映 XML文本聚类的目标和普通的文本聚类一样，射法中，主要是利用自组织特征映射法 (SOM)方法收稿日期：2005年 4月29日