- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
XML上关键字检索研究毕业论文
目 录
摘要 I
Abstract II
第1章 绪论 1
1.1 选课目的 1
1.2选课背景和意义 1
1.3国内外研究现状 2
1.3.1最紧致片段研究现状 3
1.4论文主要研究内容 4
1.5论文组织结构 4
第2章 相关技术介绍 6
2.1开发环境与开发工具 6
2.2 Java语言介绍 6
2.3 MyEclipse介绍 7
2.4 MySQL介绍 7
2.5 JDK介绍 8
2.6本章小结 9
第3章 Index Lookup Eager算法原理与实现 10
3.1 最紧致片段及SLCA相关概念 10
3.1.1XML数据及其树结构 10
3.1.2最紧致片段相关概念 13
3.1.3 SLCA概念详述 14
3.2 ILE算法原理 15
3.2.1前缀编码 15
3.2.2 Dewey编码 16
3.2.3ILE算法基本思想 17
3.2.4 ILE算法示例及分析 18
3.3 ILE算法的实现 21
3.3.1查询左右匹配节点 23
3.3.2求解最低公共祖先LCA 24
3.3.3求解孩子节点 25
3.3.4求解节点的祖先关系 26
3.4本章小结 27
第4章 SLCA查询系统的实现 28
4.1 数据库的实现 28
4.1.1解析XML文档 28
4.1.2数据库的设计 29
4.2 配置开发环境 31
4.2.1安装JDK 31
4.2.2 安装MySQL数据库 31
4.2.3 安装MyEclipse 32
4.3 页面设计和实现方法 32
4.3.1主界面 32
4.3.2查询功能的实现 34
4.3.3数据库的连接 35
4.4本章小结 35
第5章 软件测试 36
5.1软件测试的方法和步骤 36
5.2测试用例设计与过程及结果分析 36
5.2.1 单元测试 36
5.2.2 集成测试 37
5.2.3 验收测试 37
5.3 评价 37
结论 38
参考文献 39
致谢 41
附录1 开题报告 42
附录2 中期报告 48
附录3 文献综述 52
附录4 外文原文 57
附录5 外文翻译 11
第1章 绪论
1.1 选课目的
随着计算机网络和Internet的发展,在万维网上的文档资料越来越丰富。近年来,万维网已经成为资讯分享的主要平台,但是以HTML表示的网页资料,并不适合自动化处理。为此W3C制定了XML,允许使用者自己定义文件所需的标签和结构,以用来表述资料本身的涵义。现已有相当多的企业或组织,将资料以XML表示,以便网络上的资料交换与处理。
XML上的关键字检索由于不需要对XML的模式有所了解,对用户来说是简单而实用的。在XML上的关键字检索正在成为一个研究热点。XML上的关键字检索不需要用户对所查询的XML的DTD或模式、复杂的XML查询语言等相关知识有所了解,因此更容易被用户接受。通常在web上的关键字检索,比如Google或者百度,他们的返回结果是包含用户提供的关键字的整个网页,属于文档级。但如果对大XML文档上的关键字检索,由于XML文档被建模成树形,有着层次嵌套的关系,用户通常希望得到最小结果片段,此时查询的粒度不再是文档级别而是元素级。所以, 更加详细的检索出用户所需要的信息是网络的迫切需要也是用户的迫切需要。如何检索出用户最需要得到信息即如何快速有效计算出关键字之间最紧密的联系是一个有广泛应用前景的课题。
1.2选课背景和意义
XML(Extend MARKUP Language)由于其具有的子描述性、灵活的数据结构以及丰富的数据表示能力等特点,现在已经被广泛应用到Internet智能信息检索、电子商务中的数据表示和数据交换、数据集成、Web Service、数字图书馆等领域。这使得XML类型的数据成为当前流行的数据形式,对XML数据的有效管理也随之成为当前数据库领域研究的热点。
作为日渐广泛采用的数据形式,从XML数据中提取有用的信息是一个不可回避的研究内容。为了从自描述的、半结构化的XML数据中抽取用户感兴趣的信息,研究人员开发了许多查询描述形式,文献根据查询请求描述特点的不同,可概括为两大类查询模式:XML结构化查询和XML关键字查询。
XML结构查询首先定义精确的查询描述语言,用户借助它来描述自己感兴趣的模式,将用户的模式交由实际的XML数据处理系统处理,然后返回与模式相匹配的结果。这就要求用户掌握XML文档结构及查询语言。然而Internet的大多数使用者,是那些既不懂得查询语言,又不了解XML文档结构的普通用户,这时基于关键字的XML数据查询是比较方便的,他只需要用户提供简单的关键字信息,而无需要用户懂得任何查询语言或文档结构。
XML关键字查询中,主要有两种方式:一是直接将纯关键
文档评论(0)