- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Dirichlet过程混合模型的自适应话题追踪Adaptive Topic Tracking Based on Dirichlet Process Mixture Model 王婵 王小捷 袁彩霞 北京邮电大学 大纲 引言 基于DPMM的自适应话题追踪 基于DPMM的传统话题追踪 实验及结果分析 结论 大纲 引言 基于DPMM的自适应话题追踪 基于DPMM的传统话题追踪 实验及结果分析 结论 引言 话题识别与追踪(TDT):有效的信息组织和加工手段 话题跟踪:TDT的一个子任务 针对给定待测话题,判断后续报道是否和待测话题相关,从而不断获取待测话题的相关报道流来丰富这些待测话题的信息 一般实现流程: 报道/话题的模型化 相关度计算 相关度比较 引言 传统话题追踪(TTT): 根据已有的种子报道进行话题建模,建成后的话题模型在追踪过程中保持不变 话题漂移现象: 种子报道少量 话题是逐渐进展的:随着时间发展,同一话题的内容逐渐丰富,焦点也会逐渐转移 自适应话题跟踪(ATT) : 根据相关报道更新话题模型,更新后的话题模型作为判断后续报道相关性的基础,从而实现话题跟踪的自学习功能 引言 更新手段 为话题模型嵌入新的相关特征 动态调整话题模型的特征权重 同时进行 优点 一定程度上削弱由种子报道数量有限而造成的话题模型不完整 缺点 跟踪反馈同时包含相关报道和不相关报道,已有自适应方法的学习过程就会将不相关信息也嵌入话题模型。新的话题模型因为包含过多不相关信息,已经偏离了待测话题的内容,从而导致话题偏离现象 基于可信度的自适应话题追踪模型 利用“可信度”的度量参数控制跟踪反馈的影响 引言 本文工作: 一种基于有效结合待测话题信息的DPMM的自适应话题追踪方案 特点: 利用DPMM估计报道和待测话题的相关度,使其适用于话题追踪任务 通过一种新的自适应学习机制,不仅有效地解决了话题漂移问题,并且可以有效地抑制已有自适应算法带来的话题偏离现象 大纲 引言 基于DPMM的自适应话题追踪 基于DPMM的传统话题追踪 实验及结果分析 结论 大纲 引言 基于DPMM的自适应话题追踪 基于DPMM的传统话题追踪 实验及结果分析 结论 大纲 引言 基于DPMM的自适应话题追踪 基于DPMM的传统话题追踪 实验及结果分析 结论 实验及结果分析 评价机制 TDT评测指标:误报率和漏报率加权求和的检测错误开销CDet 实验数据 TDT3语料中的中文语料 实验设置 种子报道个数为1 实验分为两部分: TTT性能评测 ATT性能评测 四种特征选择方式 term_c:实义词组成 term_n+v:名词和动词 term_n:名词 term_v:动词 TTT性能评测 TTT性能评测 TTT性能评测 TTT性能评测 ATT性能评测 ATT性能评测 ATT性能评测 大纲 引言 基于DPMM的自适应话题追踪 基于DPMM的传统话题追踪 实验及结果分析 结论 结论 工作: 提出了一种基于有效结合待测话题信息的Dirichlet过程混合模型(DPMM)的自适应话题追踪方案 方案特点 利用DPMM估计报道和待测话题的相关度,实现话题追踪任务 实验验证DPMM适用于话题追踪,可以显著提高话题追踪性能。 提出一种新的基于可信度的自适应话题追踪算法 初始话题模型没有被嵌入不相关信息,通过设置可信度的大小,始终以比较大的影响因子影响最终话题追踪的结果,因此能够降低不相关报道反馈带来的误差 实验验证不仅可以在一定程度上解决了话题追踪任务中的话题漂移问题,并且可以有效地抑制已有自适应算法带来的话题偏离现象 谢谢! 对比基于一元语法模型的TTT模型(B_TTT)和基于DPMM的TTT模型(D_TTT)的话题追踪效果 2 在四种特征选择条件下,D_TTT系统追踪效果都优于B_TTT系统。 最佳性能: D_TTT:0.3095;B_TTT:0.3989 将DPMM应用到话题追踪任务中来可以提高话题追踪的效果 考察基于DPMM自适应话题追踪模型(D_ATT)在不同可信度前提下的效果。选取名词为特征。 红点:D_TTT系统的最佳追踪性能(0.3095) 1 M_reli0.5,D_ATT系统追踪性能都优于D_TTT系统 M_reli=0.2,最佳性能(0.1599) 验证了本文提出的ATT算法可以在一定程度上解决话题漂移问题 考察基于DPMM自适应话题追踪模型(D_ATT)在不同可信度前提下的效果。选取名词为特征。 红点:D_TTT系统的最佳追踪性能(0.3095) 2 M_reli0.5,D_ATT追踪代价明显增大,甚至远大于D_TTT的追踪代价。 原因:参考公式(10),初始话题模型以(1-M_reli)的程度,跟踪反馈以M_reli的程度影响追踪结果。初始话题模型是依赖先
您可能关注的文档
最近下载
- 2025年呼和浩特铁路局集团招聘(406人)笔试备考题库及答案解析.docx VIP
- 05X101-2地下通信线缆敷设标准图集.pdf VIP
- 倍福模块配置方式教程文件.pdf VIP
- 过程能力CPK分析表.xls VIP
- 2025年呼和浩特铁路局集团招聘(406人)笔试备考试题及答案解析.docx VIP
- 202507基孔肯雅热&登革热培训试题.docx VIP
- 夏直播花生高产栽培技术解析:理论与实际应用.docx VIP
- 压水堆核电厂核岛厂房用孔洞封堵材料和嵌缝材料技术要求,NB_T20341-2015.pdf VIP
- 肉牛生产系列讲座肉牛生产系列讲座.doc VIP
- 高层建筑竖井大型风管安装施工技术.docx VIP
文档评论(0)