标准内容抽取方法研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
标准内容抽取方法研究.pdf

标准内容抽取方法研究 实验研究· 刘 静 (长安大学信息工程学院,陕西 西安 710064) 摘 要:标准是为了规范行业秩序,经协商一致制定并由公认机构批准的一种文件。由于标准种类繁多,且以电子文档形式存在,因此标准 编制单位在编制新标准时需要手工查找大量相关内容,费时费力。为了提高标准编制效率,本文通过研究国标规定的标准编写的结构和规 范,提出一种从半结构化标准中抽取信息的方法。 关键词:标准;信息抽取 1引言 录的个数;“Add()”操作是给列表添加项目。 List=null:fulu 在信息化建设中,标准的制定和执行起到举足轻重的作 1)fulu— — Count=O:目次.start=2:index= 用。目前我国已经发布了多项标准,未来计划和新增的标准也 3: 会越来越多。信息化标准具有较高的复杂性和相关性,标准编 2)得到标准中第index~首行的内容str; 写人员需要全面了解现存标准的相关细节才能确保新编写的标 如果str=前言 二字,执行步骤 (3);否则,index++继续执 准与现存标准一致。然而现存标准内容繁多,且大都以文档形 行步骤 (2): 式存在,标准编写人员手工查阅新旧标准是否一致是一个费时 3)前言.start=index;index++; 费力的工作。为了解决这个问题,本文研究了从一系列多样化标 4)得到标准中第index页首行的内容str; 准中粗略抽取信息的方法,并将抽取结果存于数据库中,从而 如果str=引言 二字,执行步骤 (5);如果str=标准名称, 为标准编写人员提供相关内容的查询和检索帮助,以提高标准 执行步骤(7);否则,index++继续执行步骤 (4): 的编制效率。 5)引言.start=index;index++; 2标准抽取的总体方法 6)得到标准中第index页首行的内容str; 如果str=标准名称,执行步骤 (7);否则,index++继续执行 “标准化工作导则 第1部分:标准的结构和编写”(以下简 步骤 (6): 称 “国标”)是中华人民共和国国家质量监督检验检疫总局和 7)正文.start=index:index++; 中国国家标准化管理委员会发布的国家标准。国标规定了全国 8)如果indexMax — Index,算法结束;否则,得到标准中第 各行各业的标准应该具有的结构以及编写规范,是编写新标准 index页首行的内容str; 时应遵守的基础标准。本文研究的标准符合国标的规定。 如果str匹配正则表达式 “附录 [A—z]”,则fuluList. 国标规定了标准的结构:标准必须包含封面、前言和正文, Add(i

文档评论(0)

月光般思恋 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档