- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
词缀对英文拼写检查工具建议生成排序影响
词缀对英文拼写检查工具建议生成排序影响摘要:词缀是英文词汇构词的重要组成,现实中拼写错误发生在词缀本身的几率也较小。在拼写检查纠错工具中,将词缀提取出来单独处理可以对建议生成和排序产生积极的影响。该文选取了9个常见的英文词缀和61个医学领域的词缀,分别针对公共领域文本和医学领域文本进行实验,实现了准确率1.3%和1%的提升。
关键词:词缀;拼写检查;召回率;准确率
中图分类号:TP18文献标识码:A文章编号:1009-3044(2012)17-4133-03
The Effect of Affixes on the Suggestion Genaration and Ranking Modules of English Spell Checker
ZHENG Hai-feng,ZHANG Ming-duo
(Zhanjiang Normal University, Guangdong, Zhanjiang 524000,China)
Abstract:Affixes is an important component of English words, and spelling mistakes occured in affixes is also rare in practice. Properly utilise affixes in the suggestion generation and ranking module will lead to better results. In experiments, 9 common affixes and 61 medical morphologies were selected for public domain and medical domain misspellings, accordingly, 1.3% and 1% higher precision were achieved. Key words: affix; spell checking; recall; precision
词缀(affix)是英文词汇构成的重要组成部分,一般用以和词干(word stem)组合形成新的单词。词缀又可以分为前缀(prefix)和后缀(suffix),它们可以是通过衍生(derivational)而来的,如,“-ness”表示状态和性质,“pre-”表示在…之前,先于…;也可以是通过变形(inflectional)而来的,如,英语中的复数形态“-s/-es”,或时态形态“-ed”等。另外,在一些专业领域的词汇中,词缀也往往具有重要的作用和意义,如,表示恐龙(蜥蜴)的词缀“-saurus”,“Brontosaurus”雷龙;医学领域用来表示红色的词缀“erythr-”,“erythromy? cin”红霉素,等等。
拼写检查与纠错工具能够自动侦测出目标文本中的错误拼写或错误使用单词,并给出合理拼写建议。其典型结构主要由错误检查,建议生成和建议排序模块组成[1]。一般来说,错误拼写的类型可以概括为拼写错误和正字错误两种,而这两种类型的拼写错误都可以和词缀相关[2]。该文将通过实际的实验结果,寻找英文词缀对单词拼写检查与纠错中建议生成和排序模块的影响。
1实验设计
1.1实验构想
由于英文词缀的长度一般较短,数量集合不大,且在不同词汇中重复率高,我们可以假设拼写错误发生在词缀上的几率很小。
在拼写建议生成模块中,编辑距离(edit distance)一直都是最基础也最广泛使用的算法。其中的距离指的是将字符串A转换成字符串B所需要的操作次数。字符数越多的字符串转化后的字符串集越大,“距离”操作也越多[3]。在生成建议之前,可以将目标字符串中可识别的词缀先提取出来,针对剩下的字符串进行操作,最后再将操作后的字符串集和词缀组合起来。这样可以大大的提高算法操作的效率,缩小建议集合。
另外,在拼写建议排序模块中,我们认为具有相同词缀的拼写建议是正确建议的可能性很大。例如,以副词或形容词形式“-ly”结尾的错误拼写单词,正确形态为相同词性“-ly”的可能性非常高。1.2实验方法
为了测试实验构想,我们选取了9个常见的英文词缀和61个医学领域的词缀(见表1和表2),加入到构建好的拼写检查与纠错工具中,分别对公共领域文本和医学领域文本进行实验。公共领域文本由513个湛江师范学院大学生英语作文中出现的错误拼写单词组成;医学领域文本则由5230个澳大利亚悉尼Concord医院的临床记录中的错误拼写单词组成。
表1常见词缀
表2医学领域词缀
实验主要有3个参数:
实验分成几个阶段:
2实验结果和讨论
通过五个阶段的实验,针对
文档评论(0)