- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息组织与检索 第二章 数据及其文档形式
* * 2.3.4 音频 凡是通过声音形式传递信息的媒体,都属于听觉媒体 声音以电信号的形式传播,就是音频 类型 波形音频(听觉特征) 语音(语音-〉识别-〉文本) 音乐(音符事件) 音频是时基媒体 * * 2.4 文档结构化语言 文档结构化的一种有效方法 用语言来定义和说明文档的结构 结构化的基本手段是置标,称为置标语言 置标语言 利用附加的文本语法,描述文档的格式、结构、文本语义和属性等 常用的置标语言 SGML XML、HTML… * * 2.4.1 SGML SGML:标准通用置标语言(Standard Generalized Markup Language) “置标”标记 指在文档中加入某些标签,利用标签语法来标记“数据复合体”中各种信息的组织结构。 “通用性” 用它只标记文档中各个逻辑成份的名字、类型和属性,而不标记具体格式化信息 应用可以根据各个逻辑成份的类型和属性进行具体的处理 * * 2.4.1 SGML SGML的结构 文档结构的描述(即DTD,Document Type Definition) 用描述结构的标签标记过的文本 DTD 文档段落的描述和命名,定义这些段落相互之间的关系 DTD不定义标签的语义(即含义、表现和行为)及其如何使用,但是一些语义信息可以包含在注释中,嵌入DTD * * 2.4.1 SGML 示例 * * 2.4.2 XML 可扩展置标语言XML(eXtensible Markup Language)是一种元语言 提供一种既能被人识别又能被机器识别的标签 是SGML简化的一个子集,或者说是SGML的一种受限形式 XML文档是合乎规范的SGML文档 允许任何用户自己定义标签和更复杂的结构,并且可以对数据有效性进行检查 * * 2.4.2 XML 示例 * * 小结 这一章介绍了各种数据和文档的形式,它们是被检索的原始数据资源 文档是原始数据资源的容器,可以包含文本、图像、图形、视频和音频等各种类型的数据。 文档也可以具有自身的信息,它称为元数据。 一般性元数据 专业性元数据 Web元数据 多媒体元数据 * * 小结 文本 字、词、句、段、节、章 词服从Zipf分布,词汇服从Heaps分布 图形 图元及其关系 图像 图象对象、逻辑属性、视听特征 * * 小结 视频 时间结构、运动对象、过程 音频 时间结构、影片对象、听觉特征 SGML是最基本的元置标语言,从它导出了HyTime和XML,前者用于超媒体文档,后者用于Web 而HTML是SGML的实例。进一步说,RDF、MML和SMIL又是XML的实例。 * MARC: 美国国会图书馆发行的磁带版图书目录。在图书馆学中的机读目录系统,该系统最初由美国国会图书馆建立,其目的是以机读形式组织和传播书刊目录数据,将目录数据并入国家和本地记录中,以便成卷存档。 * Project: RDF概念和实例 * EBCDIC:Extended Binary Coded Decimal Interchange Code扩充二-十进制交换码 Unicode:统一的字符编码标准, 采用双字节对字符进行编码 * * term * * Vocabulary * 头标签和尾标签是必须的(用-表示)还是可选的(用O表示) “,”表示元素的并置关系,“|”表示元素的逻辑或关系;“?”表示使用零个或一个该元素,“*”表示使用零个或多个该元素,“+”表示使用一个或多个该元素。内容标签表示内容的数据类型,如ASCII码(PCDATA)、二进制数据(NDATA)或空(EMPTY)。一个标签的可能属性由一个属性列表(ATTLIST)说明,它包括属性名、类型,并说明它是否是必要的(否则给出缺省值)。 * * 是否使用DTD是可选的,如果没有DTD,则在做语法分析时获得标签的信息。 RMD(Required Markup Declaration)属性说明是否必须使用DTD(此例中不含DTD)。如果RMD取 INTERNAL,表示DTD在文档中;如果取ALL(缺省值),表示允许使用外部资源用作为DTD * HyTime:超媒体/时基结构化语言HyTime(Hypermedia/Time-based structuring Language) RDF:资源描述框架RDF MML:数学置标语言MML(Mathematical Markup Language)。 SMIL:同步多媒体集成语言SMIL(Synchronized Multimedia Integration Language)。 TOC TOC * * 第2章 数据及其文档形式 信息检索的对象和信息资源形式? 信息包含在数据中 数据是以文档的形式存储和组织的
您可能关注的文档
- 人教版物理选修3-2 第6章第二节传感器的应用.ppt
- 人教版八年级物理第五章透镜及其应用第三节凸透镜成像规律1.ppt
- 仪器仪表基础知识-第六章机械量的测量.ppt
- 人教高中物理必修二 7.7 动能和动能定理 课件(共42张).ppt
- 仪表与自动化电子教案-项目四 复杂控制系统集成与调试.ppt
- 仪器分析 2007级gc色谱分析.ppt
- 优化指导2016-2017学年高中物理 第18章 原子结构 1 电子的发现课件 新人教版选修3-5.ppt
- 传感器原理与应用---数据分析第10讲(第7章) 数据采集系统的抗干扰设计.ppt
- 价层电子对互斥理论(优质一堂课).ppt
- 传感器与检测技术课件-2压力的检测.ppt
文档评论(0)