- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《CNKI学术图片知识库
之数据标准
中国学术期刊(光盘版)电子杂志社
清华同方知网(北京)技术有限公司
2011 年8 月23 日
一、术语和定义
图片元数据
CNKI学术图片知识库
抽取字段
对于所有图片元数据项中,由程序从原文献中抽取出来的信息为抽取字段,例如图片标题等。
标引字段
对于所有图片元数据项中,由程序或人工标引,用于进一步描述图片信息的字段,例如图片关键词等。
抽取错误率
某抽取字段,数据项抽取错误的数据项数量与该数据项总数量的比率。
抽取项错误率=(抽取错误的数据项数量/数据项数量)×100%
抽取错误包括文字、范围、数据计算、完整性等方面的错误,只要与原文不相符合的信息即视为抽取错误。数据项内容为单值的,计为一项;数据项内容为多值的,则按值的数量计算项数,例如,一张图片有4张同文图片,则计为4 项。
抽取信息有效率
某抽取字段,信息有效的数据项与该数据项总数量的比率。
抽取信息有效率=(抽取信息有效的数据项数量/数据项数量)×100%
有些抽取出来的数据项,虽然抽取正确,但是未能很好地反映图片内容,或图片内容本身质量不好,对于用户来说价值不大,可以定义为该数据项信息有效性较低,对这种数据项进行统计,可计算该数据项的信息有效率。
标引正确率
某标引字段,数据项标引正确的数据项数量和数据项数量的比率。
标引错误率=(标引错误的数据项数量/数据项数量)×100%
标引数据项项基本反映图片主题,无原则性错误,则计为标引正确。数据项内容为单值的,计为一项;数据项内容为多值的,则按值的数量计算项数,例如,一张图片有4 个关键词,则计为4 项。
标引一致度
某标引字段,数据项标引一致的数据项数量与数据项数量的比率。
标引一致度=(元数据标引一致的数据项数量/数据项数量)×100%
标引一致度反映同类别图片标引一致的程度。同类别的图片,被标引的关键词、类别等数据项应保持一致。
二、数据项及其定义
《CNKI学术图片知识库
图片基本信息字段
图片ID、图片中文标题、图片英文标题、图片说明、图片关键词、图词、一级分类、二级分类、图片页码、图片地址、图片尺寸、图片大小、图片清晰度;
图片关系信息字段
同文图片ID、语义相关图片ID、读者推荐图片ID、参考文献图片ID、引证文献图片ID、视觉相似图片ID;
文献信息关联字段
篇名、作者、中文刊名、拼音刊名、年、期、文件名、页、页数、出版日期、表名、机构、中文关键词、中文摘要、英文篇名、英文作者、英文摘要、英文关键词、专题代码、子栏目代码、专题名称、专题子栏目代码、下载频次、被引频次、文献标识码、期刊标识码、来源标识码、作者代码、机构代码;
图片基本信息字段和图片关系信息字段又可按数据来源划分为抽取字段和标引字段:
抽取字段
图片中文标题、图片英文标题、图片说明、图片尺寸、图片大小、图片页码、同文图片ID、参考文献图片ID、引证文献图片ID
标引字段
图片ID、一级分类、二级分类、图词、图片地址、语义相关图片ID、视觉相似图片ID、图片关键词、图片清晰度
各字段定义如下表所示:
类别 元素名称 字段名称 标签 定义 图片基本信息 图片ID 图片ID ID 人工标引的图片地址。 标题 图片中文标题 图片中文标题 图片特征的中文描述。 图片英文标题 图片英文标题 图片特征的英文描述。 图片说明 图片说明 图片说明 对图片内容的说明性描述。 图片关键词 图片关键词 图片关键词 描述图片内容的一个或多个规范词。 图词 图词 图词 描述图片视觉基本特征的关键词。 分类 一级分类 一级分类 将图片按特征分为若干类, 描述图片最基本特征的类别,即为一级分类。例如:曲线图中的曲线就是图片的最基本特征。 二级分类 二级分类 一级分类的子类别。例如:心电图即为曲线图的二级分类。 图片尺寸 图片尺寸 图片尺寸 图片的横宽像素描述。 图片大小 图片大小 图片大小 图片所占的面积大小。 图片清晰度 图片清晰度 图片清晰度 图片清晰度等级。 图片页码 图片页码 图片页码 图片在文献中所处的位置。 图片地址 图片地址 图片地址 图片的物理存储地址。 图片关系信息 同文图片 同文图片 同文图片ID 在同一篇文献中其他图片的人工标引地址。 语义相关图片 语义相关图片 语义相关图片ID 与图片关键词相关的图片的人工标引地址。 读者推荐图片 读者推荐图片 读者推荐图片ID 由读者推荐的认为和该图片有关联的其他文献或期刊中的图片的人工标引地址。 参考文献图片 参考文献图片 参考文献图片ID 以文后参考书目或脚注的形式列出的文献题录中的图片的人工标引地址。 引证文献图片 引证文献图片 引证文献图片ID 引用该图片所在文献作为参照文献的其他文献中的图
文档评论(0)