关键词发现报告.pptVIP

  • 2
  • 0
  • 约1.28千字
  • 约 9页
  • 2017-05-21 发布于北京
  • 举报
关键词发现方法 ——初步方案 欢迎交流 QQ:2091395524 分析总结 初步方案设计 背景与目标 算法基本原理 背景与目标 在舆情分析中,关键词发现是一个基础性的文本技术,为文本分类、聚类、主题发现、情感分析提供有益的帮助。 结合益普索的项目,以用户对搜狐汽车的评价数据(评价的标题数据)为数据集,用来进行关键词发现方法。具体为用户对汽车外观、动力、空间等的三类(满意、一般和不满意)评价数据。 这样,具体任务变为如下:从用户的评价中抽取出有价值的关键词,主要包括两个方面:一是命名实体,比如“奥迪A4L”,“小4”,“发动机”等;二是评价词(指反应用户情感倾向的词),比如“省油”,“漂亮”,“异响”等。 算法基本原理 算法原理简单来说:就是结合文本的上下文,统计经常出现(设置一定的阈值)的字符串,而这样的字符串往往是词。 奥迪A4L,1500KM了。不错! 奥迪A4L外形靓丽回头率 奥迪A4L自动挡的车很大气 奥迪A6L2.0自动挡的驾驶室比较大气 假设将共同出现的频次阈值设置为2,则“奥迪A4L”、“自动挡”和“大气”应共同出现,并且满足阈值要求,就会被发现出来。 举例: 算法基本原理 关键词发现算法的过程类似于寻找最大频繁项集的过程。 算法基本原理 首先拆分成单个字符: A B C A B C D A B # 满足阈值,相

文档评论(0)

1亿VIP精品文档

相关文档