Metadata精选版.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Metadata精选版.ppt

中国教育信息化技术标准 2001年开始启动 基于LOM 目标 实现资源共享 支持系统互操作 保障网络教育服务质量 方法 跟踪国际标准研究工作和引进相关国际标准 根据我国教育的实际情况修订与创建各项标准 * CELTS 体系 《学习对象元数据》(CELTS-3) 规定了描述学习对象的基本方法与准则 属于CELTS体系中的基础标准 《教育资源建设技术规范》(CELTS-41) 面向资源建设领域 包括基础教育、高等教育、职业教育和培训等领域) 是对《学习对象元数据》与具体应用领域结合的产物 《基础教育教学资源元数据规范》(CELTS-42) 应用领域则更为具体 主要面向基础教育的资源建设 关系 一脉相承的 都是以LOM为核心建立的 * 机读目录(MARC) 广泛用于图书馆书目记录数据 是目前图书馆描述、存储、交换、处理以及检索信息的基础 特点 可变长字段的记录格式 采用目次方式 每条MARC记录分三个区(头标区,目次区,数据区) * 2.5 XML 性质 W3C于1998年2月发布的一种标准 是SGML的一个简化子集 可扩展标记语言 特点 较好地解决了HTML无法表达数据内容等问题 允许各个组织、个人建立适合自己需要的标记集合 * XML与HTML比较 文档的3个要素 数据、结构以及显示方式 HTML 显示方式内嵌在数据中 在创建文本时,要时时考虑输出格式 创建文档的重复工作量大 不易抽取语义信息 XML 显示格式从数据内容中独立出来,保存在样式单文件(Style Sheet)中 自我描述性质能够很好地表现许多复杂的数据关系 * XML结构 文件头 与HTML类似,是可选的 文件主体 包括一个或多个元素 形式是一棵分级的树 混杂的“结尾部分” 由注释、处理指令和空白组成 注释用!-- --!表示,可在文档中任意位置 * 元素(Element) 表示方法 由开始标记、结束标识以及标识之间的数据构成 标记之间的数据被认为是元素的值 每个元素都有不同的标记名 director王力/ director 元素名是director 元素值是“王力” actor 王力/ actor 元素名是actor 元素值是“王力” * 元素要点 关键的3点 所有元素必须有结束标记 所有元素必须正确嵌套,不允许交迭 所有属性值必须加引号 注意点 XML文档主体有且仅有一个XML根元素 可以嵌套XML元素,形成一棵树形结构 * XML文档例子 书类 书 国际标准书号=0345374827 标题数据结构/标题 作者许卓群等/作者 /书 书 国际标准书号=0345374828 标题数据挖掘/标题 作者韩家炸等/作者 /书 /书类 * 例子的树状结构 * XML属性 给元素提供进一步的说明信息 必须出现在起始标记中 以名称/取值对出现,属性名不能重复 名称与取值之间用等号“=”分隔 用引号把取值引起来 例如 工资 货币=人民币元100000/工资 说明了工资的货币单位是人民币元 * 2.3 Web信息提取 从提取规则角度,网页信息提取方法可分为两大类 基于标识规则的方法 应用网页文档的标识来提取网页信息 基于内容规则的方法 应用自然语言处理技术 从关键词匹配到有层次的句法分析 * 基于标识规则的方法 Harvest信息提取系统 利用手工编写的wrappers分析一批固定的Web资源 只能处理Web文档而忽略了Internet上提供的服务 依赖于提前定义的文档类型,对新文档结构则无能为力 斯坦福大学提出的对象交换模型(OEM)方法 一个简单的、自描述、嵌套的对象模型 一个带标记的有向图 这个模型依赖于具体问题的分析 DSE(Data-rich section extraction)算法 用树型结构表示HTML网页的布局 实质是针对具体问题建立文档对象模型,提取网页信息 * 基于内容规则的方法 Artequakt系统 建立在自然语言处理技术和实体论基础上 通过句法和语义分析来确定实体及关系 根据用户要求,产生描述格式,从而描述出艺术家传记 DL(description logics)方法 建立在实体论基础上 用DL方法从词汇关系、概念关系和上下文关系,抽取概念及其依赖关系树 Diffusion webIE系统 依照实例模型(又称IE规则)构出的框架 依据关键词位置和值的特征的定位规则 依据词类型和取值范围的表格提取规则 句法分析规则 * 两种方法比较 基于标识的方法 不具有自适应能力 准确定位信息段的起止位置 基于内容的方法 不易准确定位信息段

文档评论(0)

liuxiaoyu99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档