面向信息检索的XML文档节点语义研究.pdfVIP

下载本文档

5
0
约8.03万字
约 51页
2017-09-16 发布于安徽
举报
版权申诉

面向信息检索的XML文档节点语义研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

优秀硕士毕业论文，完美PDF内部资料。支持编辑复制，值得参考！！！

要可扩展标记语言XML 已经成为数据交换的重要格式，并且广泛应用在数字图书馆、科学数据库以及互联网等领域。随着XML 文档的广泛应用，对于XML 文档检索的研究已逐渐成为信息检索领域的一个重要研究方向。目前对于 XML 信息检索的研究已经取得了一定的成果，但是排序的精确度不高。对XML 检索结果的排序直接关系到XML 信息检索的性能，但现有的XML 检索结果排序模型考虑了词项在XML 文档中出现的统计特性，但没考虑词项所在的位置，即视 XML 文档中各节点具有同等的重要性。然而，节点在整个 XML 文档中的角色不同，因此，相同内容出现在不同节点中，应该具有不同的权重，即不同的节点具有不同的语义权重。本文提出了一种基于向量空间模型的XML 节点语义权重自动获取方法，该方法主要是通过对节点与文档的相似性计算来获取节点的语义权重。实验数据选择Wiki 部分数据集，专家对各节点语义权重的手工标注结果与该模型自动标注结果的 Pearson 相关系数达到 0.827，说明该节点语义标注模型能够较好地分析节点在XML 文档中的重要性，有利于改善排序效果。另外，还进行了SVD 实验，在实验中根据奇异值分解重新成了新的语义权重，通过比较我们发现经过 SVD 后的权重模型与专家标注的Pearson 相关系数高达0.928，这说明分解后的效果更好。关键词： XML 节点节点语义权重向量空间模型 1 Abstract XML has become an important format for exchange data. XML standard has been used in digital library, science database and Internet widely. The research on retrieval of XML documents has developed into an important aspect with the application of XML documents. Now there are a lot of achievements about XML Information Retrieval，but precision is not high. Ranking of XML search results directly relates to the performance of XML information retrieval. Most of the existing ranking models of XML search results consider words statistical characteristics in the XML document, but they do not consider the position of word. That is to say, all of nodes in XML document have the equal importance. However, each node plays different role in the entire XML document. So, the same content in different node should have different weight. That means different nodes should have different node semantic weight. In this paper, we present a VSM based method for XML node semantic weight. It is scaled by the similarity between the node and the whole document. Experiment dat