- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
11.5.2实体网格模型
●从实体网格中提取出有效特征来反映连贯文本中实体的分布和转移规律。
●局部实体转移(localentitytransition):序列{S,0,x}n表示一个实体在连续n个句子中的出现和语法角色情况。
●例如,实体microsoft在6个句子中对应的语法角色序列为SOSS-S。
●局部实体转移特征的形式与内容无关。
613
●可以根据篇章内所有实体的转移情况,建立统计模型评估篇章连贯性。
●策略1:将篇章T={S₁,…,SN}的连贯性表示为分布在句子序列中的m个实体的联合概率
coherence(T)=Pcoherence(e₁,…,em;S₁,…,Sn)
●假设实体被独立地引入篇章,则
●其中p(ej;S₁…Sn)可表示为实体列,即实体网格中每一列中对应的转移序列。
p(ej;S1…Sn)=p(r1,j…TN,j)·r;,;表示实体e;在第i个句子中的语法角色;
根据马尔科夫假设,可以考虑有限的转移历史来简化公式中的条件概率,如仅考虑实体在最近h个句子内的转移序列。
·模型的参数集合为{p(ri;jlri-h,j.ri-1.j)}。我们可以利用大规模的连贯文本构建实体网格来估计模型参数。
11.5.2实体网格模型
614
11.5.2实体网格模型
●可以根据篇章内所有实体的转移情况,建立统计模型评估篇章连贯性。
●策略2:以局部实体转移为特征,根据句子排序任务的设置,通过训练辨别式分类模型区分连贯与非连贯文本或者通过训练排序模型比较连贯与非连贯文本来学习模型参数。
●实体网格模型还有许多扩展以融入更丰富的实体信息甚至篇章关系信息。
615
11.5.3基于表示学习的方法
●基于表示学习的方法尝试建立篇章的分布式语义表示与连贯性的关联。
●监督学习,需要大规模的训练数据。
●基本思路是利用连贯文本中句子的次序、邻接性等自身性质,自动构建训练数据,通过优化相应的损失函数学习文本编码器和连贯性评估函数。
616
11.5.3基于表示学习的方法
●举例:基于句子窗口的方法
●构建训练数据:提取窗口大小为2k+1(k1)的连续句子作为一个语段,记为Ui=Si-k,…,Si,…,Si+k。
●以k=3为例,从连贯文本中提取连续3个句子构成语段U;=Si-k,…,Si,…,Si+k作为正例,而后随机替换该语段中间的句子S;,认为替换后语段U[=Si-k,…,S{,…,Si+k是非连贯的,作为
反例。
●用类似策略,可自动构建大规模训练数据Trainset
617
11.5.3基于表示学习的方法
●举例:基于句子窗口的方法
●使用编码器encoder对每个句子进行编码,即
Zi=encoder(Si)
●encoder可使用循环神经网络、递归神经网络或Transformer等架构。
●令coherence(U)表示语段U的连贯性分数,
●语义组合函数corcoherence(U)=f(comp(2i-k,…,i,zi+k))络f(如前向网络)映射到连贯性标签或分数。
618
11.5.3基于表示学习的方法
●举例:基于句子窗口的方法
●采用适当的损失函数,优化编码器、分类网络等网络中的参数,例如:
●概率损失函数:将语段Ui连贯的可能性可表示为
·整个训练集上的损失可定义为Pcoherence(Ui)=sigmoid(coherence(U))
其中,yu=1表示语段U连贯,yn=0表示语段U不连贯.
●对比损失函数:对于一个正例
·间隔8是一个大于零的超参
·整个训练集上的损失可定义为:
L(U+,U-)=max(0,δ-coherence(U)+coherence(U-))
619
11.5.3基于表示学习的方法
●举例:基于句子窗口的方法
·测试:对于待测篇章T,将其划分为一系列语段T={U₁,U2,……3,则篇章连贯性可通过聚合多个语段的篇章连贯性概率或评分来实现,如:
·还有研究采用其他优化目标和相应的数据构造方式来学习文本表示,如设计判别模型判断两个句子是否在原文中连续出现或者设
您可能关注的文档
- 《智能网联汽车运行与维护》中职技工PPT全套完整教学课件_301-400.pptx
- 《智能网联汽车运行与维护》中职技工PPT全套完整教学课件_501-600.pptx
- 《智能网联汽车运行与维护》中职技工PPT全套完整教学课件_601-692.pptx
- 《中国古代牌坊》课件.pptx
- 《中国石油知识》课件.pptx
- 《中国心力衰竭诊断和治疗指南 2024》解读PPT课件.pptx
- 《中华商业文化》第一章 商史文化.pptx
- 《中式面点技艺》全套教案.docx
- 《中学语文教学设计》教学大纲.doc-原创力文档.docx
- 《中学语文教学设计》课程大纲.docx
- 《自然语言处理》全套PPT课件_801-900.pptx
- 《自然语言处理》全套PPT课件_901-991.pptx
- 《综合商务英语(2)》课程教学大纲.docx
- 【《汤臣倍健盈利能力分析与评价案例》10000字】.docx
- 【PPT课件】新《安全生产法》解析及安全生产法律法规培训.pptx
- 【北师大版】三年级《劳动实践指导手册》第10课《小小绳结用处大》-课件.pptx
- 【北师大版】三年级《劳动实践指导手册》第12课《有趣好玩立体书》课件.pptx
- 【比亚迪汽车公司税收筹划方案设计(5000字论文)】.docx
- 【党纪学习教育】2024党纪学习教育PPT.pptx
- 【高二语文】荷花淀 原文(共4页).docx
最近下载
- 时间域激电中梯、测深作业指导书.pdf VIP
- 2025年水利工程监理工作报告.pdf VIP
- 激电中梯、激电测深工作概要.pptx VIP
- 药物分析与常用组学技术在药学服务中的应用题库答案-2025年华医网继续教育.docx VIP
- 2025年杭州临安区公开招聘专职社区工作者和两新专职党务工作者35人笔试参考题库附答案解析.docx VIP
- 蒸馏法海水淡化阻垢剂性能评价方法 动态模拟试验法 编制说明.pdf VIP
- 无障碍设计PPT课件.ppt VIP
- CTD格式申报资料(原料药)新.pdf VIP
- 中小学心理健康教育指导纲要考试试题及答案.docx VIP
- 《无障碍设计原则》课件.ppt VIP
文档评论(0)