- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深文字校正器深度文本校正使用训练能够自动纠正会话书面英语中的小语法错误的模型比如短信比如是通过英语文本样本来实现的它们的语法正确并且随机引入少量语法错误将文章移除到每个句子以生成输入输出对输出是原始示例然后用于列出模型有关这里工作的更详细的内容请参见博客动机上下文敏感拼写检查系统能够自动更正大量的输入错误例如当用户很可能是写入我将在店时消息我去商店不会受到典型的自动更正系统的影响在所谓学习英语的过程中这些简单的语法错误是常见的而构建能够检测和纠正这些错误的系统是多个共享任务的一这个项目的目标是训
HYPERLINK \l deep-text-corrector 深文字校正器
深度文本校正使用 HYPERLINK / TensorFlow 训练能够自动纠正会话书面英语中的小语法错误的sequence-to-sequence模型( 比如 ( )。 短信( 比如 ) 是通过英语文本样本来实现的,它们的语法正确并且随机引入少量语法错误。 将文章移除到每个句子,以生成输入输出对(。输出是原始示例),然后用于列出sequence-to-sequence模型。
有关这里工作的更详细的内容,请参见 HYPERLINK /2017/01/03/deep-text-correcter.html 博客。
HYPERLINK \l motivation 动机
上下文敏感拼写检查系统能够自动更正大量的输入错误。 例如当用户很可能是intendend写入我将在店时,消息我去商店不会受到典型的自动更正系统的影响。 在所谓学习英语的过程中,这些简单的语法错误是常见的,而构建能够检测和纠正这些错误的系统是多个 HYPERLINK /anthology/W14-1701.pdf CoNLL共享任务的一。
这个项目的目标是训练能够自动纠正这些错误的sequence-to-sequence模型。 具体来说,模型被训练为提供一个函数映射可能错误的输入序列到所有( 小) 语法错误的序列。 给出这些模型,可以帮助修正这些简单的错误,例如电子邮件。即时通讯等。
HYPERLINK \l correcting-grammatical-errors-with-deep-learning 语法正确的语法错误
本项目的基本思想是,我们可以为语法校正生成大量训练数据集,并通过语法纠正产生小错误,从而产生输入输出对,从而对sequence-to-sequence模型进行培训。 下面描述如何构建这些数据集。使用它们训练模型以及为这个任务生成预测的细节。
HYPERLINK \l datasets 数据集
为了为深文本校正模型创建一个数据集,我们从大量的语法正确的对话样本开始。 这个项目中考虑的主要数据集是 HYPERLINK /%7Ecristian/Cornell_Movie-Dialogs_Corpus.html Cornell电影对话框,它包含超过movie行的电影脚本。 这是我发现的大部分口语口语的集合,在语法上是正确的。
给出这样一个文本样本,下一步是生成输入输出对,以便在培训中使用。 这是通过以下方式完成的:
从数据集中绘制示例语句。
随机应用某些扰动后,将输入序列设置为这个句子。
将输出序列设置为未被改动的语句。
在步骤( 2 ) 中应用的扰动是为了引入小的语法错误,我们希望模型能够学习正确。 到目前为止,这些扰动仅限于:
项目减法( a,a,)
动词收缩的第二部分( 比如 )。 )版本,ll,s,m
用它们的对应项替换几个常用的同音字( 比如。 用那里替换他们的,然后用比替换
在 Grammatical HYPERLINK /anthology/W14-1701.pdf CoNLL 2014共享任务中,这些扰动被引入的速率是基于语法错误纠正( )的共享任务所 loosely。 在这个项目中,每个摄动都应用于 25%个可以能被应用的情况。
HYPERLINK \l training 培训
在训练序列模型时人工增加数据集,我们多次执行上述采样策略,以达到 2 -3x的输入输出对数。 对于这个扩展数据集,培训以非常相似的方式与 HYPERLINK /tutorials/seq2seq/ sequence-to-sequence的进行了比较。 即,我们使用LSTM编码器和解码器训练一个sequence-to-sequence模型,如 HYPERLINK /abs/1409.0473 Bahdanau等中所描述的注意机制。
HYPERLINK \l decoding 解码
这个项目使用的不是最可能的解码,而是利用问题的唯一结构来强制在输入序列中存在所有标记,或者属于一组令牌。 更正令牌集是在培训期间构建的,包含目标中的所有标记,而不是在培训集中的源。 这里的直觉是,训练期间看到的错误涉及一个相对较少的词汇量( 比如 )。 in,a,它们的),且该模型只能在这里域中执行更正。
除了解析 out-of-vocabulary ( 未登录) 令牌的post处理步骤外,还通过对模型循环的seq2seq解码进行了修改:
偏置解码
如果在提取预测之前只从输入序列或者修正令牌集选择标记,则这里项目将在提取预测之前将二进制掩码应用到模型的logits中。 这个面具是这样构造 mask[i] == 1.0 if (i in input or corrective_to
您可能关注的文档
- 计费系统常见问题解决方法.DOC
- 订单定向医学生免费教育协议书甲方招生学校地址法定.DOC
- 认可申请书类-秋田県建筑士会.DOC
- 认知发达理论分科会第9回例会02.DOC
- 认知心理学家吉布森和利文认为阅读是从文本中提取意义的过程.DOC
- 认识VisualBasic60的集成开发环境理解对象.PPT
- 认识ZigBee技术学习任务单学习目标1认识ZigBee技术了解.DOC
- 认识和预防流感教案.DOC
- 认识头虱亲爱的老师头虱是皮肤病的一种为了避免感染头虱而影响.DOC
- 认识有机化学-攀枝花第十二中学校.DOC
- 高校教师资格证之《高等教育法规》题库(得分题)打印附参考答案详解(达标题).docx
- 高校教师资格证之《高等教育法规》通关模拟卷带答案详解(培优a卷).docx
- 高校教师资格证之《高等教育法规》附答案详解(夺分金卷).docx
- 高校教师资格证之《高等教育法规》通关检测卷带答案详解(培优a卷).docx
- 高校教师资格证之《高等教育法规》过关检测带答案详解(a卷).docx
- 高校教师资格证之《高等教育法规》题库检测题型带答案详解(a卷).docx
- 高校教师资格证之《高等教育法规》预测复习附答案详解(培优b卷).docx
- 高校教师资格证之《高等教育法规》过关检测附答案详解【名师推荐】.docx
- 高校教师资格证之《高等教育法规》预测复习及答案详解【夺冠系列】.docx
- 高校教师资格证之《高等教育法规》题型+答案(考点题)附答案详解(模拟题).docx
文档评论(0)