基于linked data的大规模语义数据分布式检索研究-research on distributed retrieval of large-scale semantic data based on linked data.docxVIP

下载本文档

7
0
约4.41万字
约 51页
2018-05-18 发布于上海
举报
版权申诉

基于linked data的大规模语义数据分布式检索研究-research on distributed retrieval of large-scale semantic data based on linked data.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于linked data的大规模语义数据分布式检索研究-research on distributed retrieval of large-scale semantic data based on linked data

目录第一章绪论 11.1 课题的背景 11.2 研究目标和主要内容 11.3 论文组织结构 2第二章相关研究综述 32.1 语义检索系统的研究现状 32.1.1 文档搜索引擎 42.1.2 实体搜索引擎 52.1.3 多媒体信息搜索引擎 52.1.4 基于关系的语义检索系统 62.1.5 语义分析 62.1.6 基于数据挖掘的语义搜索 72.2 检索系统的评价 72.2.1 标准测试集 82.2.2 无序检索结果的评价方法 82.2.3 有序检索结果的评价方法 102.3 本文相关工作 11第三章分布式倒排索引模型的设计与实现 133.1 RDF 文档的基本定义 133.2 语义倒排索引的结构设计 143.2.1 基本索引模型 143.2.2 改进索引模型 163.3 不同索引结构的查询模型 163.4 基于 MapReduce 的倒排索引实现算法 17第一次 MapReduce 18第二次 MapReduce 20第四章 TreeRank 语义排序模型设计与实现 224.1 带有辅助关键字的查询模式 234.2 TBox 倒排索引结构设计与实现 244.2.1 本体类的编码 25TBox 索引结构27RO 值的计算294.3 TreeRank 语义排序算法30第五章分布式语义检索系统的评价 335.1 数据的预处理 335.2 创建语义搜索引擎测评数据集 345.3 实验设计及实验结果 365.3.1 分布式倒排索引模型评测 365.3.2 TreeRank 语义排序模型评测395.3.3 系统演示 41第六章总结与展望 436.1 总结 436.2 展望 43参考文献 45发表论文和参加科研情况说明 48致谢 49第一章绪论1.1 课题的背景语义 Web 是一种能够让机器理解人类语言的新型 Web 形式。现在的万维网中，计算机只是将网页中的内容以不同的形式显示出来。但是计算机本身并不能够理解网页中的内容，也不能够理解用户的意图来实现一些自动化操作。语义 Web 则是一种智能化的网络，它不但能够理解人类的语言，而且还能够实现人机交互式的网络访问。资源描述框架（resource description framework，RDF）是语义 Web 中的一种标准数据模型。Web 中的每个资源都用一个通用资源标识符 URI 来表示。URI 可以是 URL，也可以是其他形式的唯一标识符。RDF 数据中的属性是一类特殊的资源，用来描述资源之间的关系，仍然用 URI 来标识。一个 RDF 数据集是由若干陈述句即“对象-属性-值”三元组构成。每个三元组（S, P, O）中 S 表示主语，P 表示谓语，O 表示宾语，O 可以是 URI 或者字面值（literal）。若 O 是 URI，则表示资源 S 与资源 O 通过属性 P 联系。若 O 是 literal，则表示资源 S 具有属性 P，值为 O。链接数据（Linked Data）运动是一系列利用 Web 在不同数据源之间创建语义关联的一种实践方法。不同的组织和系统在 Web 上发布开放数据，然后在不同的数据之间建立 RDF 链接。从 2007 年 10 月第一代 Linked Data 发布至今，linked date 的规模增长十分迅速。截止至 2012 年 9 月 22 日，Linked Data 已经包括 295 个数据集、316 亿个 RDF 三元组以及 5.04 亿个 RDF 链接。如此大规模的语义数据就为传统信息检索技术提出了新的挑战。1.2 研究目标和主要内容本课题的研究内容是针对以分布式集群为基础的大规模语义数据的检索研究，以期为用户提供类 Google 的查询界面以及包括关键字检索在内的多种查询模式，之后对检索系统从查询效率、准确率、召回率等角度进行性能评估。该系统区别于传统的关键字检索系统，它应该能够对数据中的语义信息进行识别，并根据用户输入的关键字为其提供智能化的查询服务。本课题拟要解决的主要技术问题有：1) 设计包含语义信息的倒排索引，以此来支持高效率的关键字检索。要充分利用底层数据的存储结构，将倒排索引的结构与底层结构相结合。同时要将本体整合到索引中，为数据添加语义信息。此外如何在分布式的条件下构建索引也是一个需要解决的技术问题。2) 针对 Linked Data 大规模语义数据设计 RDF 数据语义排序模型。利用已有的信息检索工具，结合底层数据存储结构和语义倒排索引模型。对现有的排序（Rank）理论进行改进，对查询结果进行语义排序，提供带有用户偏好的查询服务。1.3 论文组织结构全文共分六章。第一章主要阐述课题背景及意义，以及研究目标和主