- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
适用于报社自动校对中文分词技术方案研究
适用于报社自动校对中文分词技术方案研究
【摘 要】报社校对软件使用效果不尽如人意,其中一个重要原因是分词结果不理想。文章根据报社校对业务特点,在自建文本分词合理结果集的基础上,通过对公开分词工具的评测比较,探索适用于报社自动校对的中文分词技术方案。这对深入研究报社自动校对系统,提升报社新闻出版质量意义重大。
【关键词】自动校对;中文分词
一、引言
目前市场上校对软件有不少,采用的自动校对技术方法都是在中文分词的基础上,进行分析纠错。分词结果不理想,校对效果自然不会好。所以提升自动校对效果的一个研究方向就是中文分词研究。
对报社而言,过去以采编为主,内容为王,缺乏技术沉淀。近几年,随着融合发展,技术得到了更多重视和投入。但是要完全自主研发分词技术,依然面临着很多困难。因此引进第三方技术成果,来帮助实现定制化应用也是报社技术发展的一种方法。只是需要结合校对业务需求选用合适的中文分词工具。
二、报社校对业务需求
由于语言文字现象的复杂性,新闻文本中的差错类型多种多样。根据表现形式,具体分为以下几类:
⑴文字差错:这类差错是新闻出版差错中最主要的部分,常见的包括错字、别字、多字、漏字、颠倒字、繁体字等。
⑵词语差错:词语是语言系统中最活跃的组成形式,很多词语在词音、词形、词义上近似,因此容易混淆误用。
⑶语法差错:主要指违反汉语语法结构规律的句子。
⑷政治差错:在涉及政治敏感问题方面,出现导向性、政策性和技术性错误。
⑸标点符号差错:违反国标《标点符号用法》的标点符号使用错误。
⑹数字差错:违反国标《出版物上数字用法的规定》的数字使用错误。
⑺计量单位差错:违反国标《量和单位》的计量单位使用错误。
⑻英文拼写差错:英文内容表述中出现的词语拼写错误。
⑼知识性差错:内容表述中涉及的有关知识不正确。
校对系统作为一种自动化辅助工具,就是要尽可能识别并纠正以上文字差错,以帮助校对人员减轻工作量。
三、中文分词工具选择
中文分词技术是自然语言处理中一个重要组成部分,在国内外都有几十年的研究历史,也有很多优秀成熟的解决方案。目前公开实用的中文分词主要可分为学术类、市场类和开源类三种。
⑴学术类:由高校相关院所研发,主要用于科学研究。知名代表有中科院NLPIR、哈工大LTP、斯坦福大学Stanford NLP、复旦大学FudanNLP等。目前各高校采用的分词服务模式不尽相同,有共享版、试用版、付费版等。
⑵市场类:科技企业基于市场需求和技术导向而研发的开放化服务平台。知名代表有百度AI、腾讯文智、玻森BosonNLP等。目前根据不同开放策略,在线分词授权有免费和收费两种方式。
⑶开源类:由个人技术研发并公布在代码托管平台上的开源项目。知名代表有paoding、ansj、jieba、Jcseg等。这类分词都提供开源代码,只要遵循开源协议,即可免费使用。
基于报社融合发展的技术成本管控和校对业务需要,选择可免费使用且带有词性标注的分词工具。所以将斯坦福大学Stanford NLP、复旦大学FudanNLP、百度AI、玻森BosonNLP、jieba、ansj、Jcseg这7款中文分词工具作为备选对象开展评测工作。
四、分词工具评测方法
判断分词工具是否适用于报社自动校对,主要看分词效果。采用黄金标准(Golden Standard),编制一份正确合理的分词结果集作为参考开展评测。由于评测目的是衡量适用度而非准确度,因此重点考虑的是词语切分逻辑和词性标注精度。根据新闻出版文本差错和自动校对常见问题,分词需要具备以下六个能力维度。
⑴歧义识别:能识别并根据语境正确切分歧义内容。
【例句】
“研究生命令本科生”分词标准“研究生/名 命令/动 本科生/名”;
“这块地面积小”分词标准“这块/代词 地/名词 面积/名词 小/形容词”。
⑵新词发现:能识别未登录词,并准确标注词性。常见新词有人名、地名、机构名等。
【例句】
“王总和小丽结婚”分词标准“王总/人名 和/连词 小丽/人名 结婚/动词”;
“吴江西陵印刷厂”分词标准“吴江西陵印刷厂/机构名”。
⑶短语组合:能识别常用的短语词组。
【例句】
“这样的人才能经受住考验”分词标准“这样的人/代词 才能/动词 经受住/动词 考验/名词”;
“信息技术应用于教学”分词标准“信息技术/名词 应用于/动词 教学/名词”。
⑷数字区分:能正确识别出各种数字组合词,例如时间词、数量词等。
【例句】
“一亿人有60%投票”分词标准“一亿/数词 人/名词 有/动词 60%/数词 投票/
文档评论(0)