Metadata学习学习课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中国教育信息化技术标准 2001年开始启动 基于LOM 目标 实现资源共享 支持系统互操作 保障网络教育服务质量 方法 跟踪国际标准研究工作和引进相关国际标准 根据我国教育的实际情况修订与创建各项标准 精品 CELTS 体系 《学习对象元数据》(CELTS-3) 规定了描述学习对象的基本方法与准则 属于CELTS体系中的基础标准 《教育资源建设技术规范》(CELTS-41) 面向资源建设领域 包括基础教育、高等教育、职业教育和培训等领域) 是对《学习对象元数据》与具体应用领域结合的产物 《基础教育教学资源元数据规范》(CELTS-42) 应用领域则更为具体 主要面向基础教育的资源建设 关系 一脉相承的 都是以LOM为核心建立的 精品 机读目录(MARC) 广泛用于图书馆书目记录数据 是目前图书馆描述、存储、交换、处理以及检索信息的基础 特点 可变长字段的记录格式 采用目次方式 每条MARC记录分三个区(头标区,目次区,数据区) 精品 2.5 XML 性质 W3C于1998年2月发布的一种标准 是SGML的一个简化子集 可扩展标记语言 特点 较好地解决了HTML无法表达数据内容等问题 允许各个组织、个人建立适合自己需要的标记集合 精品 XML与HTML比较 文档的3个要素 数据、结构以及显示方式 HTML 显示方式内嵌在数据中 在创建文本时,要时时考虑输出格式 创建文档的重复工作量大 不易抽取语义信息 XML 显示格式从数据内容中独立出来,保存在样式单文件(Style Sheet)中 自我描述性质能够很好地表现许多复杂的数据关系 精品 XML结构 文件头 与HTML类似,是可选的 文件主体 包括一个或多个元素 形式是一棵分级的树 混杂的“结尾部分” 由注释、处理指令和空白组成 注释用!-- --!表示,可在文档中任意位置 精品 元素(Element) 表示方法 由开始标记、结束标识以及标识之间的数据构成 标记之间的数据被认为是元素的值 每个元素都有不同的标记名 director王力/ director 元素名是director 元素值是“王力” actor 王力/ actor 元素名是actor 元素值是“王力” 精品 元素要点 关键的3点 所有元素必须有结束标记 所有元素必须正确嵌套,不允许交迭 所有属性值必须加引号 注意点 XML文档主体有且仅有一个XML根元素 可以嵌套XML元素,形成一棵树形结构 精品 XML文档例子 书类 书 国际标准书号=0345374827 标题数据结构/标题 作者许卓群等/作者 /书 书 国际标准书号=0345374828 标题数据挖掘/标题 作者韩家炸等/作者 /书 /书类 精品 例子的树状结构 精品 XML属性 给元素提供进一步的说明信息 必须出现在起始标记中 以名称/取值对出现,属性名不能重复 名称与取值之间用等号“=”分隔 用引号把取值引起来 例如 工资 货币=人民币元100000/工资 说明了工资的货币单位是人民币元 精品 2.3 Web信息提取 从提取规则角度,网页信息提取方法可分为两大类 基于标识规则的方法 应用网页文档的标识来提取网页信息 基于内容规则的方法 应用自然语言处理技术 从关键词匹配到有层次的句法分析 精品 基于标识规则的方法 Harvest信息提取系统 利用手工编写的wrappers分析一批固定的Web资源 只能处理Web文档而忽略了Internet上提供的服务 依赖于提前定义的文档类型,对新文档结构则无能为力 斯坦福大学提出的对象交换模型(OEM)方法 一个简单的、自描述、嵌套的对象模型 一个带标记的有向图 这个模型依赖于具体问题的分析 DSE(Data-rich section extraction)算法 用树型结构表示HTML网页的布局 实质是针对具体问题建立文档对象模型,提取网页信息 精品 基于内容规则的方法 Artequakt系统 建立在自然语言处理技术和实体论基础上 通过句法和语义分析来确定实体及关系 根据用户要求,产生描述格式,从而描述出艺术家传记 DL(description logics)方法 建立在实体论基础上 用DL方法从词汇关系、概念关系和上下文关系,抽取概念及其依赖关系树 Diffusion webIE系统 依照实例模型(又称IE规则)构出的框架 依据关键词位置和值的特征的定位规则 依据词类型和取值范围的表格提取规则 句法分析规则 精品 两种方法比较 基于标识的方法 不具有自适应能力 准确定位信息段的起止位置 基于内

您可能关注的文档

文档评论(0)

liuxiaoyu98 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档