- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于贝叶斯网络的故事线挖掘算法-计算机工程
第 卷 第 期 计 算 机 工 程 年 月
先进计算与数据处理 文章编号 文献标志码 中图分类号
基于贝叶斯网络的故事线挖掘算法
佘玉轩熊
复旦大学 计算机科学技术学院 上海市数据科学重点实验室上海
摘 要 目前的多数故事线挖掘研究侧重新闻文献和事件的相似性分析忽略了故事线的结构化表述及新闻具有
的延时性无法直观地从模型结果看出不同新闻话题的发展过程 为此提出一种基于贝叶斯网络的无监督故事
线挖掘算法 将故事线看成日期时间机构人物地点主题和关键词的联合概率分布并考虑新闻时效性 在
多个新闻数据集上进行的实验和评估结果表明与 等算法相比该算法模型具有较高的故事线挖掘
能力
关键词 故事线挖掘事件贝叶斯网络时效性新闻主题
中文引用格式佘玉轩熊 基于贝叶斯网络的故事线挖掘算法计算机工程
英文引用格式
就是将明显不相关的事件能够区分出来比如美国
概述
总统竞选和火灾但是对于相似的故事线比如地震
随着新闻媒体网站的迅速发展每天都会产生大 和火灾模型识别效果很差 文献 利用文本摘要
量的新闻 新闻之间具有很强的关联性很多新闻都 算法计算不同时间段的文本相似性对大量的文献
是针对同一个话题只是时间不同事件发展的阶段 进行故事线抽取 文献 提出一种 话题关注度
不同 虽然有百度谷歌等搜索引擎但是它们返回 的量化表示方法构建了热点话题发现模型 文
的结果仍然是繁杂的很难从如此庞大的搜索结果中 献 基于主题模型为故事线中的事件建模 文
看出新闻事件的发展脉络 因此能够自动地从新闻 献 基于主题模型提出一种时间情境依赖的时序
文献中挖掘事件和故事线使用户清晰快速地获取新 微博话题检测方法 文献 利用隐主题分析技术
闻事件的结构化信息和发展过程很有必要 来挖掘故事线 文献 利用最小权重支配集和有
然而故事线挖掘面临很多挑战 目前的很多 向斯坦纳树在微博数据集上生成故事线 文献
工作将不同的故事线看作不同的簇将故事线挖掘
文档评论(0)