- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语义网简明教程SW1-导论
第 1 章 导 论 目前的Web 1990年,Tim Berners-Lee 发明了万维网(Web) 目的是为了让人们通过互联网来发布和获取信息 现在已经应用于电子商务、电子政务、电子学习等 上网人数达5亿多,有30亿网页 获取信息的手段 URL浏览网页 简单的查询工具 现在的检索工具,速度快、范围广,如Google 信息的组织方式 大部分采用HTML:将数据和显示方式结合在一起,无结构。 也采用XML:将数据、结构、显示方式分开。 Web现状 现有Web远远不能满足人们对信息共享和处理的需要 现有Web只是面向人,网页上的文本、图形、图像等各种媒体的出现都是供人们阅读的。 没有提供计算机可读的语义信息,计算机并不能“理解” Web的内容。 检索只能按照串匹配手段进行检索,不能按语义进行检索。 限制了计算机在信息检索中的自动分析处理以及进一步智能化的信息处理能力。 如何从浩瀚的信息海洋中快速准确地找到所需要的信息已经成为人们越来越关心的问题 未来的Web 2000年, Tim Berners-Lee 提出了下一代互联网的概念:语义网(Semantic Web)。 语义网的目标 为Internet上的信息提供计算机可以理解的语义 满足智能主体(Agent)对Web上异构、分布信息的有效检索和访问 实现网上信息在语义层上的全方位互联 实现更高层的、基于知识的智能应用 1.1 语义Web针对的问题 针对Web现在的局限: 缺乏对信息的描述 链接缺乏语义 检索基于“关键词”,而不是基于“内容” 从当前的Web过渡到 Semantic Web, 需考虑如下的问题: 信息检索 信息抽取 信息表示 信息与自然语言语义 数据挖掘和知识发现 1、信息检索 信息技术及网络技术的发展使信息量越来越大 信息检索日益成为信息社会不可缺少的工具 评价标准:查全率、查准率、检索速度 检索分类 按检索对象:文本检索和多媒体检索(image、audio、vidio) 按检索范围:全文检索和字段检索(如数据库中检索) 按匹配方式:模糊匹配和精确匹配 按截词方式:左截词、右截词和中间截词 基于串匹配方式 基于字面匹配 不能找到同义词,如“计算机”和“电脑” 解决方法: 建立“知识”体系,如可以知道“计算机”和“电脑”为同一概念 检索工具构建在基于“知识”的基础之上 2、信息抽取 基于内容的检索 检索不能只盯着字面 应该关注字面下隐藏的“内容” 提取出这些“内容”作为检索的依据 元数据 元数据是描述数据的数据 是描述信息资源的一些关键信息点(如主题、作者、发表时间等) 对信息资源从不同的方面进行描述 元数据分类 内容元数据 内容管理元数据 参考信息元数据 载体信息元数据 2、信息抽取(续) 信息抽取主要抽取元数据 元数据的作用 对资源的描述 增强各种资源之间的可交换性 提高资源的可访问性 为不同的数据格式架起沟通的桥梁 存在问题 抽取元数据困难,如主题如何确定。 用于信息检索存在问题,如给定的检索词无对应的元数据。 3、信息表示 信息资源可以采用多种表示方式:HTML、XML、WML等 HTML是Internet上最广泛使用的语言 没用将内容与表示分离 缺乏对数据结构的描述 难以抽取语义信息 例如: HTML HEAD TITLE红楼梦/TITLE /HEAD BODY h1书名:《红楼梦》/h1 h2作者:曹雪芹 /h2 h2描述:中国四大名著/h2 /BODY /HTML HTML将成为信息检索的一大瓶颈 3、信息表示(续) XML将成为未来Web语言 标记对内容进行界定,使数据之间具有层次关系 ?xml version=“1.0” encoding=“GB2312” standalone=“no” ? !DOCTYPE Book SYSTEM /Book.dtd 书 书名《红楼梦》/书名 作者〉曹雪芹 /作者 描述〉中国四大名著/描述 /书 解决方法:使用具有内容表达能力的XML 4、信息与自然语言语义 信息 是为了某种特定目的在一定范围内聚合起来的数据集 信息总是承载着丰富的语义 信息的语义可以被其创建者理解 可能不容易被他人理解 不容易被计算机理解 自然语言是人们进行信息交流的手段 内涵丰富的语义 有同义词、多义词、近义词、反义词等现象 与特定环境有关 计算机不能理解语义 5、数据挖掘 网络上充斥着大量的、各种各样的信息 一些是我们所知的:可以抽取其中的信息 另一些是未知的 数据挖掘(Data Mining)、知识发现(Knowledge Discoverry ) 是一种有效地从大量的
您可能关注的文档
最近下载
- GB+16423-2020金属非金属矿山安全规程.docx VIP
- 2024《拔高训练之50类题型精练》九年级物理全一册.pdf
- 罗道病课件文档.ppt VIP
- T∕CACM 1021.89-2018 中药材商品规格等级 鸡内金.docx VIP
- 人教版(2024)九年级全一册物理全册教案.docx
- T/BGEA001-2019 预拌流态固化土填筑工程技术标准.pdf VIP
- (2025秋新版)二年级语文上册全册教案.pdf
- 涉诈风险账户审查表.doc VIP
- CATIA自由曲面教程教程分析.doc
- 2025云南昆明巫家坝建设发展有限责任公司及下属公司第三季度招聘23人笔试历年参考题库附带答案详解.docx
文档评论(0)