语义网简明教程SW1-导论.pptVIP

下载本文档

11
0
约6.92千字
约 39页
2018-03-31 发布于江西
举报
版权申诉

语义网简明教程SW1-导论.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语义网简明教程SW1-导论

第 1 章导论目前的Web 1990年，Tim Berners-Lee 发明了万维网（Web）目的是为了让人们通过互联网来发布和获取信息现在已经应用于电子商务、电子政务、电子学习等上网人数达5亿多，有30亿网页获取信息的手段 URL浏览网页简单的查询工具现在的检索工具，速度快、范围广，如Google 信息的组织方式大部分采用HTML：将数据和显示方式结合在一起，无结构。也采用XML：将数据、结构、显示方式分开。 Web现状现有Web远远不能满足人们对信息共享和处理的需要现有Web只是面向人，网页上的文本、图形、图像等各种媒体的出现都是供人们阅读的。没有提供计算机可读的语义信息，计算机并不能“理解” Web的内容。检索只能按照串匹配手段进行检索，不能按语义进行检索。限制了计算机在信息检索中的自动分析处理以及进一步智能化的信息处理能力。如何从浩瀚的信息海洋中快速准确地找到所需要的信息已经成为人们越来越关心的问题未来的Web 2000年， Tim Berners-Lee 提出了下一代互联网的概念：语义网（Semantic Web）。语义网的目标为Internet上的信息提供计算机可以理解的语义满足智能主体（Agent）对Web上异构、分布信息的有效检索和访问实现网上信息在语义层上的全方位互联实现更高层的、基于知识的智能应用 1.1 语义Web针对的问题针对Web现在的局限：缺乏对信息的描述链接缺乏语义检索基于“关键词”，而不是基于“内容” 从当前的Web过渡到 Semantic Web，需考虑如下的问题：信息检索信息抽取信息表示信息与自然语言语义数据挖掘和知识发现 1、信息检索信息技术及网络技术的发展使信息量越来越大信息检索日益成为信息社会不可缺少的工具评价标准：查全率、查准率、检索速度检索分类按检索对象：文本检索和多媒体检索（image、audio、vidio）按检索范围：全文检索和字段检索（如数据库中检索）按匹配方式：模糊匹配和精确匹配按截词方式：左截词、右截词和中间截词基于串匹配方式基于字面匹配不能找到同义词，如“计算机”和“电脑” 解决方法：建立“知识”体系，如可以知道“计算机”和“电脑”为同一概念检索工具构建在基于“知识”的基础之上 2、信息抽取基于内容的检索检索不能只盯着字面应该关注字面下隐藏的“内容” 提取出这些“内容”作为检索的依据元数据元数据是描述数据的数据是描述信息资源的一些关键信息点（如主题、作者、发表时间等）对信息资源从不同的方面进行描述元数据分类内容元数据内容管理元数据参考信息元数据载体信息元数据 2、信息抽取（续）信息抽取主要抽取元数据元数据的作用对资源的描述增强各种资源之间的可交换性提高资源的可访问性为不同的数据格式架起沟通的桥梁存在问题抽取元数据困难，如主题如何确定。用于信息检索存在问题，如给定的检索词无对应的元数据。 3、信息表示信息资源可以采用多种表示方式：HTML、XML、WML等 HTML是Internet上最广泛使用的语言没用将内容与表示分离缺乏对数据结构的描述难以抽取语义信息例如： HTML HEAD TITLE红楼梦/TITLE /HEAD BODY h1书名：《红楼梦》/h1 h2作者：曹雪芹 /h2 h2描述：中国四大名著/h2 /BODY /HTML HTML将成为信息检索的一大瓶颈 3、信息表示（续） XML将成为未来Web语言标记对内容进行界定，使数据之间具有层次关系 ?xml version=“1.0” encoding=“GB2312” standalone=“no” ? !DOCTYPE Book SYSTEM /Book.dtd 书书名《红楼梦》/书名作者〉曹雪芹 /作者描述〉中国四大名著/描述 /书解决方法：使用具有内容表达能力的XML 4、信息与自然语言语义信息是为了某种特定目的在一定范围内聚合起来的数据集信息总是承载着丰富的语义信息的语义可以被其创建者理解可能不容易被他人理解不容易被计算机理解自然语言是人们进行信息交流的手段内涵丰富的语义有同义词、多义词、近义词、反义词等现象与特定环境有关计算机不能理解语义 5、数据挖掘网络上充斥着大量的、各种各样的信息一些是我们所知的：可以抽取其中的信息另一些是未知的数据挖掘（Data Mining）、知识发现（Knowledge Discoverry ）是一种有效地从大量的