- 4
- 0
- 约1.28万字
- 约 7页
- 2019-11-13 发布于天津
- 举报
面向汽车领域的软文识别研究
1 2 2 1 1
唐都钰 ,王大亮 ,赵凯 ,秦兵 ,刘挺
1 哈尔滨工业大学 计算机科学与技术学院 社会计算与信息检索研究中心,哈尔滨,150001
2NEC 中国研究院,北京,100084
liuting@
摘 要:本文面向汽车领域进行软文识别,将软文识别分为顶贴识别、无关帖识别、广告帖识别和伪造帖
识别四个子任务,并分别使用基于规则的方法和基于机器学习的方法对四类软文进行识别。基于规则的方
法综合考虑汽车领域专业信息、极性词信息、作者级别信息等因素;基于机器学习的方法结合网帖内容特
征和作者信息特征,使用最大熵分类器进行模型训练。实验结果表明,面向汽车领域基于规则的方法优于
机器学习的方法,可以有效地解决软文识别问题。
关键词:软文识别;广告帖识别;规则;机器学习
Automobile Domain Oriented Spam Dete
原创力文档

文档评论(0)