- 3
- 0
- 约9.66千字
- 约 9页
- 2023-12-20 发布于广东
- 举报
基于laendiricslealocamer模型的话题演化方法综述
1讨论的研究背景
互联网已成为人们获取信息的主要渠道。新闻事件或新闻事件可以在互联网上立即传播。如何跟踪新闻事件和新闻事件的后续发展是必须尽快解决的问题。随着时间的发展,新闻话题的内容会发生变化,新闻话题的强度也会经历一个从高潮到低潮的过程。如何有效地组织这些大规模文档,并且按时间顺序来获取文本集合中话题的演化,从而帮助用户追踪感兴趣的话题,具有实际意义。更重要的是,在新闻专题报道和一些安全机构针对犯罪探测和预防的任务中,更需要从文本集合中快速准确地追踪话题的演化并且根据演化做出相应的预测。因此,话题演化研究具有现实的应用背景。
早在话题检测与跟踪(TopicDetectionandTracking,简称TDT)研究中,人们就已经认识到对新话题的自动识别和已知话题的持续跟踪的重要性。在TDT中,话题被定义为一个种子事件或活动以及与之相关的所有事件或活动。话题跟踪(TopicTracking)主要就是跟踪已知话题的后续报道,采用相似度计算公式来判断新话题是否属于已知话题,主要方法基于统计知识,对文本进行信息过滤,然后利用分类策略来跟踪相关话题,但是TDT早期的研究并没有有效利用语料的时间信息,在时间轴上分析话题的分布。
随着话题模型的兴起,如何借助话题模型,引入文本语料的时间信息,研究话题随时间的演化,成为在机器学习领域、文本挖掘领域研究的热点。不同于TDT中话题的表示,话题模型假设:每篇文本是话题的混合分布,而每一个话题是一组词语的混合分布。话题模型借助话题可以很好地模拟文本的生成过程,对文本的预测也有很好的效果,因此在话题演化领域有着一定的优势,目前关于这方面的研究已经有很多方法和成果。
本文将主要关注基于LatentDirichletAllocation(简称LDA)话题模型的话题演化方法。首先简要的介绍LDA技术以及相关概念,第3部分着重介绍各种基于LDA的话题演化方法,第4部分对所有方法进行总结比较,第5部分介绍话题演化的评测方法,最后,对全文进行总结,并对该研究方向进行展望。
2基本总结
2.1基于模型的确定
在话题演化研究中,一个重要的任务就是获取文本集合的话题。话题实际就是文本的一种降维表示。最早的文本降维技术是词频—反文档频率(TermFrequency-InverseDocumentFrequency,简称tf-idf),但tf-idf无法在语义层面表示文本。随后Deerwester等人利用矩阵的奇异值分解技术对文本降维,即隐性语义索引(LatentSemanticIndexing,简称LSI)模型。Hofmann在LSI基础上提出了概率隐性语义索引模型(probabilisticLatentSemanticIndexing,简称pLSI),它假设每篇文档是由多项式随机变量(话题)混合而成,而文档中每个词,由一个话题产生,文档中不同的词可有不同的话题生成。但是pLSI模型参数数量随着文集增长而线性增长,并且会产生过拟合的问题。
Blei等人在2003年提出了LatentDirichletAllocation(简称LDA)模型。LDA模型是一个概率生成模型,同时也是一个话题模型,它的参数不会随着文集增长而线性增长,有很好的泛化能力,是机器学习、信息检索等领域很流行的一个模型。目前,为满足不同的需求,出现了很多基于LDA的扩展模型和应用模型,例如文献。
下面先介绍LDA模型中使用的符号,见表1。
LDA是三层的变参数层次贝叶斯模型,假设一篇文档是由一些潜在的话题的多项式分布表示,而话题由一组词的多项式分布组成。所以又叫话题模型。模型描述了文档的生成过程,步骤如下:
1)对于每个文档d∈D,根据θd~Dir(α),得到多项式分布参数θd;
2)对于每个话题z∈K,根据φz~Dir(β),得到多项式分布参数φz;
3)对文档d中的第i个词wd,i
a)根据多项式分布zd,i~Mult(θd),得到话题zd,i。
b)根据多项式分布wd,i~Mult(φz),得到词wd,i。
在LDA中,话题(Topic)由一组语义上相关的词语以及词语在该话题上出现的概率表示。即:话题z={(w1,p(w1|z)),…,(wV,p(wV|z))},其中p(wv|z)表示已观测到话题z的情况下词语wv出现的概率。
2.2基于lda的讨论内容是分
话题演化衡量的是同一话题随时间推移表现出的动态性、发展性和差异性。话题的演化定义为话题随时
您可能关注的文档
最近下载
- 污染物自动监测监控系统数据传输技术要求HJ212-2025解读.pptx VIP
- 美能达 测光表 MINOLTA AUTO METER IVF Manual 中文说明书.pdf
- 2026年交管12123学法减分复习考试题库含答案【考试直接用】.docx VIP
- 安徽省16种重点工业产品质量安全风险管控清单 .docx VIP
- 山东名校考试联盟2025年4月高考模拟考试语文试卷(含答案详解)原卷.pdf
- 2017年国考图形推理专项题库.doc VIP
- 方剂学保和丸练习题.docx VIP
- 2026年交管12123学法减分复习考试题库含答案【考试直接用】.docx VIP
- 2026年江苏建筑职业技术学院单招职业技能考试题库及答案详解参考.docx VIP
- (高清版)B-T 19363.1-2022 翻译服务 第1部分:笔译服务要求.pdf VIP
原创力文档

文档评论(0)