- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语义网简明教程SW2-元数据
第2章 元数据与信息提取 本章内容 1、Web体系结构 计算机应用系统: 主机系统 文件/服务器体系结构 客户机/服务器(Client/Server,C/S)体系结构 浏览器/服务器(Browser/Server,B/S)体系结构 客户机/服务器(Client/Server) 基本思想 在一个统一的地方集中存放资源,包括信息、软件、硬件等资源 实现资源共享 体系结构 服务器:用于存放提供服务的资源的计算机系统。 客户端:运行软件、访问服务器资源的计算机。 应用场合 以数据库系统为基础的事务处理系统 如:处理订单、股票交易、政府运作等 特点 对于问题采用单独的定制解决方案 缺点 软件分发困难 用户需重新学习 浏览器/服务器(Browser/Server) Web是一个巨大的Client/Server系统 服务器 存放要发布的信息,多以网页形式访问 运行发布信息的软件,如IIS 相应用户的请求 客户端 使用统一的客户端软件:浏览器,如IE、Netscape 向服务器发出请求 显示服务器返回的结果 优点 不受系统的限制 不用分发软件 2、Web信息结构 HTML网页示例(1) HTML网页示例(2) 3、搜索引擎 应用背景 Web连接了数以万计的计算机,规模不断扩大 信息量巨增 用手工检索困难 需使用自动手段检索 定义 搜索引擎是一个为用户提供检索服务的网站 使用程序把Web信息进行归类 帮助人们在Web上找到所需的信息 搜索引擎的类别 目录式搜索引擎 建立网络信息资源的分类目录 通过检查信息内容,将信息编入相应目录 通过浏览目录来检索信息 机器人搜索引擎 通过一些网络“爬虫”程序 按照某种策略对网络上的站点进行自动搜索 将搜索到的信息存入临时数据库 按页面信息建立索引库 供用户在索引库中快速检索 Google Google 释义 由英文单词“googol”变化而来 表示 1 后边带有 100 个零的数字 代表Google想征服网上无穷无尽资料的雄心 斯坦福大学的博士生 Larry Page 和 Sergey Brin 在 1998 年创立 搜索时间通常不到半秒 每天需要提供 1.5 亿次查询服务 Google 的技术 代理搜索技术 高级 PageRank(网页级别)技术 雅虎搜索引擎 大卫·费罗(David Filo) 和杨致远(Jerry Yang) 美国斯坦福大学电机工程系的博士生 1994年4月建立了网络指南信息库 分类目录 站点目录分为14个大类,每一个大类下面又分若干子类 连接速度快,包含范围广 雅虎中国网站提供简单易用、手工分类的简体中文网站目录 百度搜索引擎 李彦宏先生及徐勇先生 1999年底,百度成立于美国硅谷 2000年百度公司回国发展 百度的起名 辛弃疾的《青玉案》中 “众里寻她千百度” 象征着百度对中文信息检索技术执著的追求 竞价排名 由用户为自己的网页出资购买关键字排名 按点击计费的一种服务 搜索结果的顺序将根据竞价的多少由高到低排列 当前搜索引擎的不足之处 查准率比较低 搜索引擎找到的结果很多 实际相关的信息却很少 用户需花大量的时间识别有用的信息 语义分析不足 缺少较好的中文分词技术支持 2.2 元数据(Metadata) 定义 关于数据的数据 是对Web信息的一种描述方式 是机器可理解的信息 基本作用 管理数据,从而实现对数据的查询、阅读、交换和共享 组成 一系列元素或属性 例子:图书馆目录 如:作者、书名、出版日期、主题、分类排架号等元数据 1、元数据与资源的关联方式 独立方式 元素可包含在独立于该项资源的记录中 例如:图书馆目录 嵌入方式 数据可嵌在资源本身中 例如:印在书内封上的在版编目(CIP)数据 例如:电子文本的标题 关联方式的确定 不预先规定 由具体情况决定 2、元数据的主要作用 用来组织和管理网络信息,并挖掘信息资源 准确地识别、定位和访问信息 帮助用户查询所需信息 可按照不同的地理区间、指定的语言以及具体的时间段来查找信息资源 用来建立信息的数据目录和数据交换中心 可以共享信息、维护数据 提供数据转换方面的信息 通过元数据,用户可以接受并理解信息 组织和维护一个机构对数据的投资 可方便创建网页 3、如何获取元数据 元数据的实现 XML和RDF是实现元数据的技术手段 XML从数据与文档的底层实现格式化,保证了从里到外、从处理到交换的一致性 元数据的标准化 不同领域会根据需求定义一个或几个标准元数据集 目的为实现领域中的数据信息交换和共享,为研究和生产服务 如MARC(Machine-ReadabIe Cataloging,机器可读编目)和D
文档评论(0)