N-gram模型在语言预测中应用与分析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

S语言和语音处理。DanielJurafskyJamesH.Martin。c2014。l

r。草稿。

CHAPTER4

N‑gram模型

“Youareuniformlycharming!”criedhe,withasmileofassociating

andnowandthenIbowedandtheyperceivedachaiseandfourtowishfor.从

简·奥斯汀三元模型生成的随机句子

能够预测未来并不总是好事。特洛伊的卡珊德拉拥有预见未来的能力,但被

,不会相信。她对特洛伊的警告被忽视了,

简单地说,后来的事情对她来说并不顺利。

在本章中,讨论一个不太令人担忧的话题——预测单词。例如,什么词可

能跟在

请提交你的作业...

希望大多数人都得出一个非常可能的词是in,或者可能是over,但肯定不

是refrigerator或the。在接下来的部分中,通过引入模型来形式化这种

,这些模型为每个可能的下一个词分配一个概率。同样的模型也将用于

为整个句子分配概率。例如,这样的模型可以预测以下序列在文本中出现的

概率要高得多:

突然我注意到人行道上有三个家伙站着

而这个单词集以不同的顺序排列时,概率则较低:

各位,我注意到人行道上突然出现了三个人。

为什么你要预测即将出现的词,或将概率分配给句子?在任何需要从嘈杂、

模棱两可的输入中识别单词的任务中,概率都是必不可少的,比如语音识别或手

写识别。在《拿钱跑路》中,伍迪·试图用一张潦草的纸条银

行,出纳员错误地读成了“我有一把gub”。正如Russell和Norvig(2002)所

的那样,语言处理系统可以通过使用“我有一把枪”这一序列远比非词“我

有一把gub”或甚至“我有一只海鸥”更可能出现的知识来避免犯这样的错误。

在拼写校正中,我们需要找到并纠正像Theiraretwomidtermsinthisclass这

样的拼写错误,其中There被误输入为Their。以短语Thereare开头的句子比以

Theirare开头的句子要常见得多,这使得拼写检查器能够检测并纠正这些错误。

为词序列分配概率在机器翻译中也至关重要。假设我们正在翻译一个中文源句:

他向介绍了主要内容他向介绍

了主要内容

SpeechandLanguageProcessing.DanielJurafskyJamesH.Martin.Copyrightc2014.All

rights.DraftofJanuary9,2015.

CHAPTER

4N-Grams

“Youareuniformlycharming!”criedhe,withasm

文档评论(0)

zhishifuwu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档