Metadata精选版.pptVIP

下载本文档

1
0
约1.51万字
约 100页
2018-04-23 发布于湖北
举报
版权申诉

Metadata精选版.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Metadata精选版.ppt

中国教育信息化技术标准 2001年开始启动基于LOM 目标实现资源共享支持系统互操作保障网络教育服务质量方法跟踪国际标准研究工作和引进相关国际标准根据我国教育的实际情况修订与创建各项标准 * CELTS 体系《学习对象元数据》（CELTS-3）规定了描述学习对象的基本方法与准则属于CELTS体系中的基础标准《教育资源建设技术规范》（CELTS-41）面向资源建设领域包括基础教育、高等教育、职业教育和培训等领域）是对《学习对象元数据》与具体应用领域结合的产物《基础教育教学资源元数据规范》（CELTS-42）应用领域则更为具体主要面向基础教育的资源建设关系一脉相承的都是以LOM为核心建立的 * 机读目录（MARC）广泛用于图书馆书目记录数据是目前图书馆描述、存储、交换、处理以及检索信息的基础特点可变长字段的记录格式采用目次方式每条MARC记录分三个区（头标区，目次区，数据区） * 2.5 XML 性质 W3C于1998年2月发布的一种标准是SGML的一个简化子集可扩展标记语言特点较好地解决了HTML无法表达数据内容等问题允许各个组织、个人建立适合自己需要的标记集合 * XML与HTML比较文档的3个要素数据、结构以及显示方式 HTML 显示方式内嵌在数据中在创建文本时，要时时考虑输出格式创建文档的重复工作量大不易抽取语义信息 XML 显示格式从数据内容中独立出来，保存在样式单文件(Style Sheet)中自我描述性质能够很好地表现许多复杂的数据关系 * XML结构文件头与HTML类似，是可选的文件主体包括一个或多个元素形式是一棵分级的树混杂的“结尾部分” 由注释、处理指令和空白组成注释用!-- --!表示，可在文档中任意位置 * 元素(Element) 表示方法由开始标记、结束标识以及标识之间的数据构成标记之间的数据被认为是元素的值每个元素都有不同的标记名 director王力/ director 元素名是director 元素值是“王力” actor 王力/ actor 元素名是actor 元素值是“王力” * 元素要点关键的3点所有元素必须有结束标记所有元素必须正确嵌套，不允许交迭所有属性值必须加引号注意点 XML文档主体有且仅有一个XML根元素可以嵌套XML元素，形成一棵树形结构 * XML文档例子书类书国际标准书号=0345374827 标题数据结构/标题作者许卓群等/作者 /书书国际标准书号=0345374828 标题数据挖掘/标题作者韩家炸等/作者 /书 /书类 * 例子的树状结构 * XML属性给元素提供进一步的说明信息必须出现在起始标记中以名称/取值对出现，属性名不能重复名称与取值之间用等号“=”分隔用引号把取值引起来例如工资货币=人民币元100000/工资说明了工资的货币单位是人民币元 * 2.3 Web信息提取从提取规则角度，网页信息提取方法可分为两大类基于标识规则的方法应用网页文档的标识来提取网页信息基于内容规则的方法应用自然语言处理技术从关键词匹配到有层次的句法分析 * 基于标识规则的方法 Harvest信息提取系统利用手工编写的wrappers分析一批固定的Web资源只能处理Web文档而忽略了Internet上提供的服务依赖于提前定义的文档类型,对新文档结构则无能为力斯坦福大学提出的对象交换模型(OEM)方法一个简单的、自描述、嵌套的对象模型一个带标记的有向图这个模型依赖于具体问题的分析 DSE(Data-rich section extraction)算法用树型结构表示HTML网页的布局实质是针对具体问题建立文档对象模型，提取网页信息 * 基于内容规则的方法 Artequakt系统建立在自然语言处理技术和实体论基础上通过句法和语义分析来确定实体及关系根据用户要求，产生描述格式，从而描述出艺术家传记 DL(description logics)方法建立在实体论基础上用DL方法从词汇关系、概念关系和上下文关系，抽取概念及其依赖关系树 Diffusion webIE系统依照实例模型（又称IE规则）构出的框架依据关键词位置和值的特征的定位规则依据词类型和取值范围的表格提取规则句法分析规则 * 两种方法比较基于标识的方法不具有自适应能力准确定位信息段的起止位置基于内容的方法不易准确定位信息段