- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
优秀硕士毕业论文,完美PDF内部资料。支持编辑复制,值得参考!!!
要
可扩展标记语言XML 已经成为数据交换的重要格式,并且广泛应用在数字
图书馆、科学数据库以及互联网等领域。随着XML 文档的广泛应用,对于XML
文档检索的研究已逐渐成为信息检索领域的一个重要研究方向。目前对于 XML
信息检索的研究已经取得了一定的成果,但是排序的精确度不高。对XML 检索
结果的排序直接关系到XML 信息检索的性能,但现有的XML 检索结果排序模
型考虑了词项在XML 文档中出现的统计特性,但没考虑词项所在的位置,即视
XML 文档中各节点具有同等的重要性。然而,节点在整个 XML 文档中的角色
不同,因此,相同内容出现在不同节点中,应该具有不同的权重,即不同的节点
具有不同的语义权重。
本文提出了一种基于向量空间模型的XML 节点语义权重自动获取方法,该
方法主要是通过对节点与文档的相似性计算来获取节点的语义权重。实验数据选
择Wiki 部分数据集,专家对各节点语义权重的手工标注结果与该模型自动标注
结果的 Pearson 相关系数达到 0.827,说明该节点语义标注模型能够较好地分析
节点在XML 文档中的重要性,有利于改善排序效果。
另外,还进行了SVD 实验,在实验中根据奇异值分解重新 成了新的语义
权重,通过比较我们发现经过 SVD 后的权重模型与专家标注的Pearson 相关系
数高达0.928,这说明分解后的效果更好。
关键词: XML 节点 节点语义权重 向量空间模型
1
Abstract
XML has become an important format for exchange data. XML standard has
been used in digital library, science database and Internet widely. The research on
retrieval of XML documents has developed into an important aspect with the
application of XML documents. Now there are a lot of achievements about XML
Information Retrieval,but precision is not high. Ranking of XML search results
directly relates to the performance of XML information retrieval. Most of the existing
ranking models of XML search results consider words statistical characteristics in the
XML document, but they do not consider the position of word. That is to say, all of
nodes in XML document have the equal importance. However, each node plays
different role in the entire XML document. So, the same content in different node
should have different weight. That means different nodes should have different node
semantic weight.
In this paper, we present a VSM based method for XML node semantic weight. It
is scaled by the similarity between the node and the whole document. Experiment dat
您可能关注的文档
最近下载
- 浙教版八年级上册初二数学全册课时练(一课一练).doc VIP
- 广东省2025届春季高考学业水平考试语文试卷(四)(含答案).docx VIP
- 标准图集-22S804 矩形钢筋混凝土蓄水池.pdf VIP
- 2025年广东省高中学业水平考试春季高考数学试题(含答案解析).docx VIP
- 招标代理服务服务方案.doc VIP
- VR技术对博物馆游客游览满意度的提升研究论文.doc VIP
- 第二章结构设计方法培训教材.ppt VIP
- 医院常用药品通用名商品名规格一览表.pdf VIP
- 组织胚胎学—第三章循环器官.ppt VIP
- 2.2基本不等式(第1课时)课件(共19张PPT)—高一上学期数学人教A版(2025)必修第一册(含音频+视频).pptx VIP
文档评论(0)