基于XML结构相似性名老中医病例聚类分析.docVIP

下载本文档

4
0
约3.16千字
约 7页
2018-08-28 发布于福建
举报
版权申诉

基于XML结构相似性名老中医病例聚类分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于XML结构相似性名老中医病例聚类分析

基于XML结构相似性名老中医病例聚类分析　　摘要:针对名老中医病例的结构特点，设计了一种基于模拟退火的聚类算法对数据库中病例聚类进行全局优化。病例聚类时，根据一般意义的树间编辑距离，提出一种用于判断XML描述的病例之间是否相似的度量(称为XML编辑距离)。利用XML编辑距离，可将XML数据间相似性度量的时间复杂度限制在多项式级，且能保持病例的XML描述文档的节点语义信息和节点间的祖孙嵌套关系。最后，在Tamino数据库上进行实验，结果证实了基于模拟退火的病例聚类算法在名老中医数据挖掘实践中的可行性和有效性。　　关键词:名老中医病例; 可扩展标记语言描述文档; 可扩展标记语言编辑距离; 聚类算法; 模拟退火算法　　中图分类号:TP391文献标志码:A 　　文章编号:1001－3695(2008)02－0365－03 　　　　聚类方法被广泛研究并应用于机器学习#65380;统计分析#65380;模式识别以及数据挖掘与知识发现等不同的领域，是分析数据并从中发现有用信息的一种有效手段。本文通过比较名老中医基于XML描述的病例之间的相似性和差异性，利用聚类算法对大规模XML文档进行聚类，从而可以将相似度大的文档聚合在一起，归为一类。另外，还可以对各个聚类建立索引。那么，在查询名老中医病例时，只需要搜索小范围的病例即可，以此达到提高名老中医病例查询的效率和准确性，并为下一步挖掘奠定基础。现有的聚类算法主要有划分聚类法，如K－mean[1]和层次聚类法[2]两种。　　本文受文献[3，4]方法的启示，尝试将模拟退火算法用于病例的划分聚类实践中，提出基于模拟退火的病例聚类算法，旨在获得全局最优的病例聚类。　　对Tamino数据库中的病例进行聚类之前，需要定义一种用来判断病例间是否相似的度量。本文将XML形式的病例一般先转换为DTD文档形式，可以用来作为它的标志。那么，病例之间的相似性就可以转换为分析它们对应的XML文档之间的相似程度。为此，本文引用文献[5]中树间编辑距离(edit distance，ED)的概念，并根据病例的XML描述文档的特点，对之作适当的更改;提出XML文档的相似测度即XML编辑距离，以更加适合于定量度量病例间的相似性。　　　　1基于XML 的病例相似性分析　　　　基于上述观察，病例间的相似性就可以通过两棵XML文档树间的相似度来推导。文献[5]中利用ED来计算一般意义上两棵树之间的相似度。其基本思想是将两棵树(T??1，T??2)间的ED定义为利用一系列树的编辑操作(称为编辑操作序列S)，将其中一棵树T??1转换为另一棵树T??2所需的最小代价。其中，树的编辑操作主要有插入节点#65380;删除节点和改变节点标签三种[5]。　　　　利用树映射操作得到树的编辑距离可以用于定量度量两棵树之间的相似性和差异性。可是，Zhang等人[7]从理论上已证明了求解两棵无序树之间的最小映射问题是NP－hard 的。这主要是因为无序树的映射需要遍历两棵树的每一个节点，其代价非常大。然而，基于XML的病例描述文档树型结构具有一些特性，如XML文档树的节点间具有嵌套结构的语义，且不同类型的节点带有各异的语义信息。如果采用差的树映射方法则会导致XML节点语义被破坏以及不必要的计算。因此，本文根据构件的XML描述文档的特点，对树间编辑距离作适当改进，提出XML编辑距离作为定量度量构件间相似性的测度。在此，先引入节点签名(nodesignature)和最小共同祖先两个概念。　　定义2节点签名。假定x和x′为XML文档树T的两个节点，且x′为x的祖先，则节点签名signature(x，x′)=label(x′)/label(i??1)/…/label(i??n)/label(x)，即从x′到x的路径上的节点标签序列。若x为叶子节点(即刻面的描述术语)，则signature(x，x′)=/label(x′)/label(i??1)/…/label(i??n)/value(x)。　　定义3最小共同祖先[6]。假定x和x′为XML文档树T的两个节点，m节点是x和x′的共同祖先。如果在T中不存在节点n≠m 也是x和x′的共同祖先，而且n是m的子孙节点，则称m为x和x′的最小共同祖先，记为m=lca(x，x′)。　　同样地，这里也可以将求解两棵XML文档树的编辑距离转换为求XML文档树间最小映射代价。有了节点签名和最小共同祖先，在映射两棵XML文档树时，不需要对两棵树的每个节点进行一一对应的匹配，而只需要匹配那些具有共同的最小祖先和相同节点签名的节点。下面给出XML文档树映射概念。　　定义4XML文档树映射。给定两棵XML文档树TXs和TXt。一个从TXs到TX