CESA-2020-4-004《信息技术 电子文档语义元数据嵌入规范》团体标准(征求意见稿)编制说明.pdfVIP

  • 0
  • 0
  • 约4.33千字
  • 约 6页
  • 2023-08-31 发布于浙江
  • 举报

CESA-2020-4-004《信息技术 电子文档语义元数据嵌入规范》团体标准(征求意见稿)编制说明.pdf

中国电子工业标准化技术协会 一、工作简况 项目来源: 根据国家标准化管理委员会2020年9月下达的团体标准立项计划,北京信息 科技大学、中国电子技术标准化研究院等单位组成的国家电子文件管理与推进联 盟数字出版标准工作组共同承担《信息技术 电子文档语义元数据嵌入规范》(项 目编号:CESA-2020-4-004)团体标准的制定工作。本标准由中国电子技术标准 化研究院、中国电子工业标准化技术协会提出并归口。 本标准起草单位:北京信息科技大学、中国电子技术标准化研究院、永中软 件股份有限公司、北京安信天元科技发展有限公司、百望股份有限公司、北京方 正阿帕比技术有限公司、北京大学、北京数科网维技术有限责任公司、福建福昕 软件开发股份有限公司、北京金山办公软件股份有限公司、福昕鲲鹏(北京)信 息科技有限公司、方正国际软件(北京)有限公司、北京爱知之星科技股份有限 公司、北京新云胜科技有限公司。 本标准主要起草人:李宁、王长胜、田英爱、陈亚军、赵引华、冯辉、黄肖 俊、崔晓瑜、刘丹、张释元、孙洪桥、陈祖家、赵欢、李新冬、张治、李平立、 白雪冬、冯华新。 主要工作过程: 2019年8月,由北京信息科技大学初步形成标准草案的技术路线和总体方案 框架,各成员单位共同讨论其中的问题。 2019年10月,根据前一次工作组会议讨论内容,修改标准草案;并进一步确 定标准草案中的细节问题。 2020年3月,进一步修改标准草案,完成术语定义及缩略语、语义元数据描 述框架、语义元数据、语义元数据嵌入方式以及语义元数据嵌入实现指南等标准 主要部分。 2020年9月,标准编制组就标准的使用场景、编写目的、用户、语义元数据 的范围、语义关联的实现策略,是否应该保留关键字频统计结果等问题进行讨论; 中国电子工业标准化技术协会 根据编制组意见修改草案文本,形成征求意见稿,并由中电标协通过网站发布, 各个成员单位负责收集工作组外单位的标准修改建议,以进一步形成征求意见 稿。 2020年9月,形成 《信息技术 电子文档语义元数据嵌入规范》标准草案,召 开标准立项评审会。 2021年1月,根据专家的建议完善标准草案。 二、标准编制原则和确定主要内容的论据及解决的主要问题 标准编制原则 本标准按照GB/T 1.1—2020 《标准化工作导则 第1部分:标准化文件的结构 和起草规则》的规定起草。 标准主要内容的论据 本标准规定了在基于XML的电子文档中嵌入语义元数据的方法,便于机器识 别在电子文档中记录和标注语义元数据,用于文档的高效检索和信息提取等智能 化处理。本标准适用电子文档系统的开发者与使用者。 标准主要内容包括:术语定义及缩略语、语义元数据描述框架、语义元数据、 语义元数据嵌入方式以及语义元数据嵌入实现指南等方面内容。可以支持记录关 键词词频、编辑时间、摘要以及命名实体标注等。 解决的主要问题 以办公文档代表的流式文档和以电子公文代表的固定版式文档都是重要的 信息资源,富含大量宝贵的语义信息,可以供各类文档用户利用。但是目前尚未 有简单的办法获得这些文档中的语义信息。如果需要获得这些语义信息,需要通 过多种自然语言处理工具对文档数据进行分析、挖掘,最后提取出信息。一方面, 一份文档的所有用户为了这个目的,都要进行复杂的语义提取工作,会浪费大量 的人力和计算资源;另一方面,这些语义信息未必是作者要表达的初衷,通过自 然语言提取的信息很多是不准确的。 本标准拟通过制定元数据规范,能够准确地记录文档生存周期中积累的语义 信息以及作者和文档使用者提供的语义信息,便于文档语义信息的共享和高效利 用,为文档分类、信息检索、文档推荐、信息提取、自动摘要、文档理解、格式 优化、文档评估等任务打好基础。 中国电子工业标准化技术协会 三、主要试验[或验证]情况分析 本标准在北京信息科技大学等单位开展了试验验证工作。经过分析,认为该 标准有较好的可行性,能够满足文档语义元数据标注和交换的一般需要。 今后将开展标准的推广应用工作,并拟在办公软件、文档信息处理行业开展 标准的推广应用工作。 四、知识产权情况说明 本标准尚未发现知识产权方面冲突。 五、产业化情况、推广应用论证和预期达到的经济效果 办公文档代表的流式文档和以电子公文代表的固定版式文档都是重要的信 息资源,富含大量宝贵的语义信息,可以供各类文档用户利用。本标准拟通过制

文档评论(0)

1亿VIP精品文档

相关文档