- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于文本分类的语言模型自适应方法’
孙甲松 崔晓东 王作英
(清华大学电子I程系, 北京 100084)
提要 本文介绍了一种基于文本分类的语言模型自适应方法。首先,我们用Kullback
距离算法将语料文本分类为8个领域,并为每一个领域建立三元语言模型。但试验表明
某些领域的语言模型的性能变差。为了解决这个问题,我们试图利用领域语言模型来做
语言模型自适应。通过将领域语言模型和综合语言模型进行线性组合,获得了相对于综
合语言模型字错误率下降5至9%的改进。
关健字:语言模型,自适应。文本分类
ALanguageModelAdaptationApproachBasedonTextClassification
SunJiasong,CuiXiaodong,WangZuoying
(Dept ofElectronicEngineering,TsinghuaUniversity,Beijing100084)
Abstract: Inourpaper,wedividethecorpusinto8domainsthroughtext
classificationusingK-meansalgorithm,andcalculatethetrigramLMsforeach
one.Buttheexperimentshowstheperformanceinsomeonesbecomesworse.Inorder
tosolvethisproblem,wetrytodotheLMadaptationbasedonthedomainLMs
TheadaptationisdonebymixingthedomainLMswiththebackgroundLMbyalinear
interpolation.Relativeworderrorratereductionsofbetween5and9%overthe
prunedbackgroundLMareachieved.
Keywords: Languagemodel,Adaptation,Textclassification
引言
统计语言模型在大词汇量的语音识别中可以为识别算法的快速搜索提供有效的语
言上的指导和约束。以得到最可能的汉字串,尽管统计方法 ((N元文法模型)有其固有
的弱点,例如不能描述词间超过N元的关系,但现在此方法仍是目前最流行的语言模型。
统计语言模型构造相对简单,但为了得到可靠的概率估计,需要大量的语料来训练。而
且统计出来的N元文法模型由于其参数数目庞大,随着N的增大而快速增长,所以决定
了N不能太大,现在一般取N为3,即所谓的trigram模型。随着语料的增加,三元模
型的性能有了显著改进.但语料增加到一定程度后。语言模型的进一步改普变的很有限,
而分类后的领域语言模型由于每个领域中语料的减少,其性能有明显的下降(1]。在大词
汇量的语音识别系统中,特定领域的语言模型的71t淆度比综合的语言模型要低许多。因
本文研究受国家88633计划 (课题编号:863-306-ZDD3-01-2)资助。
-473-
此,利用这些领域知识对于系统应该是非常有益处的。对于一个实际的听写机,将语言
模型自适应到用户希望的特定领域上是非常有效的 2【1。对于我们的情况更是如此,我们
的综合语言模型是统计了2.4亿词的语料得到的,其大小为500MB左右,为了使其能在
实际系统中使用。我们不得不将其裁剪,但这导致了其混淆度增加,性能下降。因此我
们试图要称补并进一步改善语言模型的性能,本文介绍了一种基于文本分类的语言模型
自适应方法。
在第二节中,介绍了在我们的系统中所采用的统计语言模型。我们用
Jelinek-Mercer内插方法来称补数据稀疏的问题。在第三节中,介绍了所用的分类方法,
我们将2.4亿词的语料 (由人民日报、计算机世界以及其它报纸和杂志组成。但主要是
新闻语料)分为8个领域,用Kullback距离进行文本分类。在第四节中,展示了某些
基于分类结果建立的8个领域语言模型,用相应领域的语料的试验结果相对于综合语言
模型反而变差了,原因是分类并不是均匀的,这导致某些领域语言模型的统计严重不足,
性能变差。为解决这个问题,我们在这些领域语言模型上进行语言模型自适应,通过线
性内插将
您可能关注的文档
最近下载
- 2024年甘肃陇南成县招聘司法协理员17人考试备考题库及答案解析.docx VIP
- 2025年正高面审答辩-正高069面审答辩全科医学历年参考题库含答案解析.docx
- 2025消防宣传月消防安全知识培训课件PPT.pptx
- 5.2 主视图、左视图以及俯视图(附答案).docx VIP
- 25秋电大大作业:如何理解“作风建设永远在路上,永远没有休止符”?我们应如何加强作风建设?.doc VIP
- 23S516 混凝土排水管道基础及接口 .docx VIP
- 2025政治高考河北省真题试卷+解析及答案.docx VIP
- (2021-2025)中考语文 古诗文阅读之文言句子翻译 高频考点+易错点.docx VIP
- 2025年中考语文复习知识清单专题30文言文翻译及断句(3份思维导图+文言翻译10法+文言断句知识梳理+文言翻译10大陷阱+文言断句5大陷阱)(原卷版+解析).docx VIP
- 2025至2030中国特性水泥行业发展分析及前景趋势与投资报告.docx
原创力文档


文档评论(0)