适用于报社自动校对中文分词技术方案研究.docVIP

适用于报社自动校对中文分词技术方案研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
适用于报社自动校对中文分词技术方案研究

适用于报社自动校对中文分词技术方案研究   【摘 要】报社校对软件使用效果不尽如人意,其中一个重要原因是分词结果不理想。文章根据报社校对业务特点,在自建文本分词合理结果集的基础上,通过对公开分词工具的评测比较,探索适用于报社自动校对的中文分词技术方案。这对深入研究报社自动校对系统,提升报社新闻出版质量意义重大。   【关键词】自动校对;中文分词   一、引言   目前市场上校对软件有不少,采用的自动校对技术方法都是在中文分词的基础上,进行分析纠错。分词结果不理想,校对效果自然不会好。所以提升自动校对效果的一个研究方向就是中文分词研究。   对报社而言,过去以采编为主,内容为王,缺乏技术沉淀。近几年,随着融合发展,技术得到了更多重视和投入。但是要完全自主研发分词技术,依然面临着很多困难。因此引进第三方技术成果,来帮助实现定制化应用也是报社技术发展的一种方法。只是需要结合校对业务需求选用合适的中文分词工具。   二、报社校对业务需求   由于语言文字现象的复杂性,新闻文本中的差错类型多种多样。根据表现形式,具体分为以下几类:   ⑴文字差错:这类差错是新闻出版差错中最主要的部分,常见的包括错字、别字、多字、漏字、颠倒字、繁体字等。   ⑵词语差错:词语是语言系统中最活跃的组成形式,很多词语在词音、词形、词义上近似,因此容易混淆误用。   ⑶语法差错:主要指违反汉语语法结构规律的句子。   ⑷政治差错:在涉及政治敏感问题方面,出现导向性、政策性和技术性错误。   ⑸标点符号差错:违反国标《标点符号用法》的标点符号使用错误。   ⑹数字差错:违反国标《出版物上数字用法的规定》的数字使用错误。   ⑺计量单位差错:违反国标《量和单位》的计量单位使用错误。   ⑻英文拼写差错:英文内容表述中出现的词语拼写错误。   ⑼知识性差错:内容表述中涉及的有关知识不正确。   校对系统作为一种自动化辅助工具,就是要尽可能识别并纠正以上文字差错,以帮助校对人员减轻工作量。   三、中文分词工具选择   中文分词技术是自然语言处理中一个重要组成部分,在国内外都有几十年的研究历史,也有很多优秀成熟的解决方案。目前公开实用的中文分词主要可分为学术类、市场类和开源类三种。   ⑴学术类:由高校相关院所研发,主要用于科学研究。知名代表有中科院NLPIR、哈工大LTP、斯坦福大学Stanford NLP、复旦大学FudanNLP等。目前各高校采用的分词服务模式不尽相同,有共享版、试用版、付费版等。   ⑵市场类:科技企业基于市场需求和技术导向而研发的开放化服务平台。知名代表有百度AI、腾讯文智、玻森BosonNLP等。目前根据不同开放策略,在线分词授权有免费和收费两种方式。   ⑶开源类:由个人技术研发并公布在代码托管平台上的开源项目。知名代表有paoding、ansj、jieba、Jcseg等。这类分词都提供开源代码,只要遵循开源协议,即可免费使用。   基于报社融合发展的技术成本管控和校对业务需要,选择可免费使用且带有词性标注的分词工具。所以将斯坦福大学Stanford NLP、复旦大学FudanNLP、百度AI、玻森BosonNLP、jieba、ansj、Jcseg这7款中文分词工具作为备选对象开展评测工作。   四、分词工具评测方法   判断分词工具是否适用于报社自动校对,主要看分词效果。采用黄金标准(Golden Standard),编制一份正确合理的分词结果集作为参考开展评测。由于评测目的是衡量适用度而非准确度,因此重点考虑的是词语切分逻辑和词性标注精度。根据新闻出版文本差错和自动校对常见问题,分词需要具备以下六个能力维度。   ⑴歧义识别:能识别并根据语境正确切分歧义内容。   【例句】   “研究生命令本科生”分词标准“研究生/名 命令/动 本科生/名”;   “这块地面积小”分词标准“这块/代词 地/名词 面积/名词 小/形容词”。   ⑵新词发现:能识别未登录词,并准确标注词性。常见新词有人名、地名、机构名等。   【例句】   “王总和小丽结婚”分词标准“王总/人名 和/连词 小丽/人名 结婚/动词”;   “吴江西陵印刷厂”分词标准“吴江西陵印刷厂/机构名”。   ⑶短语组合:能识别常用的短语词组。   【例句】   “这样的人才能经受住考验”分词标准“这样的人/代词 才能/动词 经受住/动词 考验/名词”;   “信息技术应用于教学”分词标准“信息技术/名词 应用于/动词 教学/名词”。   ⑷数字区分:能正确识别出各种数字组合词,例如时间词、数量词等。   【例句】   “一亿人有60%投票”分词标准“一亿/数词 人/名词 有/动词 60%/数词 投票/

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档