- 0
- 0
- 约3.72万字
- 约 30页
- 2026-01-21 发布于北京
- 举报
使用强化学习和神经语言模型生成
MarcellaCindyPrasetio
计算机科学系
斯坦福大学mp21@stanford.edu
MustafaAbdool计算机科学系斯坦
福大学
moose878@stanford.edu
CarsonLam生物医学信息学系
斯坦福大学
carsonl@stanford.edu
神经机器翻译(NMT)在语言翻译方面展示了令人印象深刻的结果。将NMT应用
于生成仍远未达到现实,并且这一是当前研究的一个引人入胜的领域。
学习到的响应要么不连贯,要么过于通用,使得乏味,无法使进行长期
的吸引人的。对长期规划的需求促使NLP研究人员借鉴强化学习的原则。在
这里,我们考察了的将NMT重新配置为接收序列到响应序列
(seq2seq)的方法。为了鼓励产生有趣且吸引人的,我们使
用强化学习的策略梯度方法更新seq2seq。我们研究了函数(如语义连贯
性、信息流动和回答的难易程度)在模拟与(环境)中质
量的效果,并通过语言多样性的定量指标(如n‑gram重复次数)评估我们的模
型。最后,我们展示了在CornellMovie和Reddit数据集上训练的NMT在应
用REINFORCE算法后产生的响应得到了改进。
DialogueGenerationusingReinforcementLearning
andNeuralLanguageModels
MarcellaCindyPrasetio
DepartmentofComputerScience
StanfordUniversity
mp21@stanford.edu
MustafaAbdool
DepartmentofComputerScience
StanfordUniversity
moose878@stanford.edu
CarsonLam
DepartmentsofBiomedicalInformatics
StanfordUniversity
carsonl@stanford.edu
Neuralmachinetranslation(NMT)hasdemonstratedimpressiveresultsinlanguage
translation.TheapplicationofNMTtodialoguegenerationisstillfarfromrealisticand
thistopicisafascinatingareaofactiveresearch.Learnedresponsesareeither
incoherentorgeneric,makingforuninterestingdialoguethatdoesnotsettheagentup
forlongtermengagingconversation.TheneedforlongtermnninghasledNLP
researcherstodrawonprincipofreinforcementlearning.Hereweexaminerecently
publishedmethodsforcombiningNMTrefittedasareceivedsequencetoresponse
sequence(seq2seq)conversationalagent.Toencouragetheagenttoproduce
interestingengagingdialogueweupdateaseq2seqwithgradientmethodsof
reinforcementlearning.Westudytheeffectsofrewardfunctionssuchassema
您可能关注的文档
- 新概念英语第五十八课:听录音并回答时间相关问题.pdf
- 科教版八上第三章声现象检测题.pdf
- 训侧记:追求自由与热爱足球排长.pdf
- 物理章动量守恒定律测试题新人教版选修.pdf
- 信息系统外包开发用户与转让协议.pdf
- 林中乐队教学设计:激发学生自然情怀.pdf
- Check Point 4400系列企业级安全设备快速组网及连接选项.pdf
- 湘少版六年级英语上册Unit 9比较练习题.pdf
- 中小学生农村教育知识文库.pdf
- 无人技术与应用综述.pdf
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测生物试卷+答案.doc
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测语文试卷+答案.doc
- 四川省绵阳南山中学实验学校2025-2026学年高三上学期1月月考数学含答案.doc
- 2026届辽宁省大连市高三上学期双基考试物理试卷+答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测化学含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测生物含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测英语含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测政治含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试化学含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试生物含答案.doc
原创力文档

文档评论(0)