语法正确的语法错误.DOC

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深文字校正器深度文本校正使用训练能够自动纠正会话书面英语中的小语法错误的模型比如短信比如是通过英语文本样本来实现的它们的语法正确并且随机引入少量语法错误将文章移除到每个句子以生成输入输出对输出是原始示例然后用于列出模型有关这里工作的更详细的内容请参见博客动机上下文敏感拼写检查系统能够自动更正大量的输入错误例如当用户很可能是写入我将在店时消息我去商店不会受到典型的自动更正系统的影响在所谓学习英语的过程中这些简单的语法错误是常见的而构建能够检测和纠正这些错误的系统是多个共享任务的一这个项目的目标是训

HYPERLINK \l deep-text-corrector 深文字校正器 深度文本校正使用 HYPERLINK / TensorFlow 训练能够自动纠正会话书面英语中的小语法错误的sequence-to-sequence模型( 比如 ( )。 短信( 比如 ) 是通过英语文本样本来实现的,它们的语法正确并且随机引入少量语法错误。 将文章移除到每个句子,以生成输入输出对(。输出是原始示例),然后用于列出sequence-to-sequence模型。 有关这里工作的更详细的内容,请参见 HYPERLINK /2017/01/03/deep-text-correcter.html 博客。 HYPERLINK \l motivation 动机 上下文敏感拼写检查系统能够自动更正大量的输入错误。 例如当用户很可能是intendend写入我将在店时,消息我去商店不会受到典型的自动更正系统的影响。 在所谓学习英语的过程中,这些简单的语法错误是常见的,而构建能够检测和纠正这些错误的系统是多个 HYPERLINK /anthology/W14-1701.pdf CoNLL共享任务的一。 这个项目的目标是训练能够自动纠正这些错误的sequence-to-sequence模型。 具体来说,模型被训练为提供一个函数映射可能错误的输入序列到所有( 小) 语法错误的序列。 给出这些模型,可以帮助修正这些简单的错误,例如电子邮件。即时通讯等。 HYPERLINK \l correcting-grammatical-errors-with-deep-learning 语法正确的语法错误 本项目的基本思想是,我们可以为语法校正生成大量训练数据集,并通过语法纠正产生小错误,从而产生输入输出对,从而对sequence-to-sequence模型进行培训。 下面描述如何构建这些数据集。使用它们训练模型以及为这个任务生成预测的细节。 HYPERLINK \l datasets 数据集 为了为深文本校正模型创建一个数据集,我们从大量的语法正确的对话样本开始。 这个项目中考虑的主要数据集是 HYPERLINK /%7Ecristian/Cornell_Movie-Dialogs_Corpus.html Cornell电影对话框,它包含超过movie行的电影脚本。 这是我发现的大部分口语口语的集合,在语法上是正确的。 给出这样一个文本样本,下一步是生成输入输出对,以便在培训中使用。 这是通过以下方式完成的: 从数据集中绘制示例语句。 随机应用某些扰动后,将输入序列设置为这个句子。 将输出序列设置为未被改动的语句。 在步骤( 2 ) 中应用的扰动是为了引入小的语法错误,我们希望模型能够学习正确。 到目前为止,这些扰动仅限于: 项目减法( a,a,) 动词收缩的第二部分( 比如 )。 )版本,ll,s,m 用它们的对应项替换几个常用的同音字( 比如。 用那里替换他们的,然后用比替换 在 Grammatical HYPERLINK /anthology/W14-1701.pdf CoNLL 2014共享任务中,这些扰动被引入的速率是基于语法错误纠正( )的共享任务所 loosely。 在这个项目中,每个摄动都应用于 25%个可以能被应用的情况。 HYPERLINK \l training 培训 在训练序列模型时人工增加数据集,我们多次执行上述采样策略,以达到 2 -3x的输入输出对数。 对于这个扩展数据集,培训以非常相似的方式与 HYPERLINK /tutorials/seq2seq/ sequence-to-sequence的进行了比较。 即,我们使用LSTM编码器和解码器训练一个sequence-to-sequence模型,如 HYPERLINK /abs/1409.0473 Bahdanau等中所描述的注意机制。 HYPERLINK \l decoding 解码 这个项目使用的不是最可能的解码,而是利用问题的唯一结构来强制在输入序列中存在所有标记,或者属于一组令牌。 更正令牌集是在培训期间构建的,包含目标中的所有标记,而不是在培训集中的源。 这里的直觉是,训练期间看到的错误涉及一个相对较少的词汇量( 比如 )。 in,a,它们的),且该模型只能在这里域中执行更正。 除了解析 out-of-vocabulary ( 未登录) 令牌的post处理步骤外,还通过对模型循环的seq2seq解码进行了修改: 偏置解码 如果在提取预测之前只从输入序列或者修正令牌集选择标记,则这里项目将在提取预测之前将二进制掩码应用到模型的logits中。 这个面具是这样构造 mask[i] == 1.0 if (i in input or corrective_to

您可能关注的文档

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档