- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
清华大学学报(自然科学版) 52/57
1998年第38卷 JournalofTsinghuaUniversity(Sci&.Tech)第s2期第173~176页
基于规则的语音理解自动纠错系统研究”
李晶皎,刘树民,姚1乏顺
东北大学信息科学与工程学院.沈阳110006
文摘本文根据汉语语音的特点.通过总结连续汉语语音识剐的汉字序列中出现错
误的规律,写出相应的用于查错和校正的河法和句法语义规则.利用“词托语义甜动”
的分析方法,找出汉字序列中的错误并校正,最终得到正确的汉字序列。
关键词汉语语音理解:诃法语义驱动;词法规则:句法语义规则。
计算机汉语连续语音识别是要把把输入的谮音序列转换为正确的文字序列,它通常
需要经过语音识别和语音理解的两级转换.语音识刖将输入的语音波形转换成拼音序列,
语音理解将拼音序列转换成文字序列。由于汉语语音的调值具有辩意作用,考虑汉语拼
音的声调大约有1300个拼音,而汉字有近万个.使得语音理解很困难,语音理解所给出
的汉字序列经常出现错误Il】,我们的自动纠错就是要把语音理解给出的汉字亭列中的错
误查找出来,并校正输出正确的汉字序列。本系统中,词法、句法和浯义等知识是在词
典中描述的,约束是通过规则实现的,所用的分析方法是词}【:语义驱动””.,
1 纠错的种类
~个字或词之所以被认为用错了,是因为它与其所在的上下文环境不相适应.即词
法、句法和语义关系搭配不当造成的。通过对大量错误现象的研究.以及我们现有的基
于词汇语义驱动的语言理解开发平台。本系统主要自动纠正下面三种锚误:
(1)词法错误:分词错误或错字破坏了原文词的结构.出现所谓“非词”现象。例如:
这里(礼)物的确贵。Ⅱ三确的分词应该是;这·礼物·的确贵。而不是:这里·物·的
确贵。 ,
(2)句法错误:某些错误虽然破坏_『原词的结构.但却能与其前后字构成词.或苔该单
字本身就是词,通过句法分析可以发现这种错误。例如:那素(树)被暴风给刮倒了。
该旬为“被”字句,主语是受事,而用介词“被”引进施事.句子中的“索”应为
“树”,词性应该是名词而不应该是形容词。
(3)语义搭配错误:主要进行句型成分之间,以及句型成分短语内部的浯义搭配关系的
分析与检查。如动词的腌事和受事的搭配关系与限制:句型成分短语内部词与词之
间搭配等。例如:他期在哭。哭只能是人在哭。“期”是不对的。
’国家自然科学基金和国家教委博士点基金项目资助
清华大学学报(自然科学版) i998.38(s2)
2 知识库的表示
2 1词典的组成
本系统所用的词媳工收录了70124个词条。为r加速对词典的查找,为词典建立r
两种索引,一种是以拼音码为关键字的一级索引.另一种是以领头字为关键字的一级索
语义特征semfea,语义分类码rest。
2.2规则的表示
本系统所用的规则按语法分析可分成两类:一类是词法规则,用Rw蕤示;另一类
是句法语义规则,用Rg表示:按规则适用范围可分为:共性规则和个性规则;因此
性句法语义规则,P.ge为共性句法语义规则。此外,为了提高规则描述语言的能力,还
设计了规则描述语言函数.以㈤开头.例如:fc(/SEARCH0。
我们通过对浯音理解所得的汉字序列的研究.总结并归纳出汉字序列中错误的规律,
写出一系列词法分析规则和句法语义分析觇则。在进行规则匹配}}寸.首先奁找个性规则.
然后查找共性规则。
比如,有这样一句话:小鸟。直飞了两小时。语音理解绐出的句子卸是:小鸟一直
飞了量小时。为了检测并校正这类错误,我们可以写出这样一条句法语义的共性规则
n1
Rgc:“CCATm+(CCATt)=“改.CCAT
果当前词之后的词性是附阃词.而当
前词的词性不是数词,那么将当前谰
的词性改为数词,并且按拼音索引查
找与当前词拼音相同且词性是数词
的词条.用该词条替换当前词词条。
3 纠错系统的实现
汉语署音理解中的纠锚处理主
要有词
您可能关注的文档
- 基于场所文脉理论的滨海新城城市设计——以黄骅新城城市设计为例.pdf
- 基于城市意象的传统文化街区保护利用和设计--以成都宽窄巷历史街区保护和改造为例.pdf
- 基于尺寸特性的图象边缘提取算法.pdf
- 基于充分性与安全性的电力系统运行状态分析与量化评价.pdf
- 基于传播视角的水文化的研究.pdf
- 基于创意视角的民族文化旅游深度开发的研究--以内蒙古赤峰市为例.pdf
- 基于词汇等级的汉语作文自动评分技术.pdf
- 基于词位置和同现特征的中文自动文摘的研究.pdf
- 基于词性标记文法的文本信息隐藏算法.pdf
- 基于倒排索引的全文检索系统研究.pdf
- 2023咸阳职业技术学院招聘笔试真题参考答案详解.docx
- 2023四川化工职业技术学院招聘笔试真题及参考答案详解.docx
- 2023哈尔滨职业技术学院招聘笔试真题及参考答案详解.docx
- 2023商洛职业技术学院招聘笔试真题及答案详解1套.docx
- 2023呼伦贝尔职业技术学院招聘笔试真题参考答案详解.docx
- 2023南阳农业职业学院招聘笔试真题参考答案详解.docx
- 2023天津公安警官职业学院招聘笔试真题带答案详解.docx
- 2023年上海电机学院招聘笔试真题参考答案详解.docx
- 2023年四川艺术职业学院招聘笔试真题参考答案详解.docx
- 2023安徽体育运动职业技术学院招聘笔试真题及答案详解一套.docx
文档评论(0)