基于隐含狄列克雷分配分类特征扩展微博广告过滤方法.docVIP

  • 10
  • 0
  • 约1.04万字
  • 约 19页
  • 2018-08-31 发布于福建
  • 举报

基于隐含狄列克雷分配分类特征扩展微博广告过滤方法.doc

基于隐含狄列克雷分配分类特征扩展微博广告过滤方法

基于隐含狄列克雷分配分类特征扩展微博广告过滤方法   摘要:传统的微博广告过滤方法忽略了微博广告文本的数据稀疏性、语义信息和广告背景领域特征等因素的影响。针对这些问题,提出一种基于隐含狄列克雷分配(LDA)分类特征扩展的广告过滤方法。首先,将微博分为正常微博和广告型微博,并分别构建LDA主题模型预测短文本对应的主题分布,将主题中的词作为特征扩展的基础;其次,在特征扩展时结合文本类别信息提取背景领域特征,以降低其对文本分类的影响;最后,将扩展后的特征向量作为分类器的输入,根据支持向量机(SVM)的分类结果过滤广告。实验结果表明,与现有的仅基于短文本分类的过滤方法相比,其准确率平均提升4个百分点。因此,该方法能有效扩展文本特征,并降低背景领域特征的影响,更适用于数据量较大的微博广告过滤。   关键词:广告过滤;隐含狄列克雷分配;短文本分类;支持向量机;特征扩展   中图分类号:TP181   文献标志码:A   0引言   当前,微博作为一种新的传播载体,允许任何人用电脑、手机等方式在任何时间发布任何言论,且这些言论能迅速传播给互联网所能触及的任何人[1]。微博这种实时且传播迅速的特点,使其蕴含了巨大的商业价值,越来越多的微博用户通过自己的账户发布商品等广告信息。逐渐增多的微博广告不仅影响用户体验,还对微博平台上的舆情分析等研究产生不利影响。该现象依靠现有的微博平台提供的

文档评论(0)

1亿VIP精品文档

相关文档