垃圾的观点文档识别.pdfVIP

  • 14
  • 0
  • 约5.85万字
  • 约 29页
  • 2018-02-18 发布于浙江
  • 举报
垃圾的观点文档识别

第五届MathorCup 全球大学生数学建模挑战赛暨CAA 2015 世界 大学生数学建模竞赛 承 诺 书 我们仔细阅读了 《MathorCup 全球大学生数学建模挑战赛暨CAA 2015 世界 大学生数学建模竞赛章程》和《MathorCup 全球大学生数学建模挑战赛暨 CAA 2015 世界大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”, 可从官方竞赛网站下载)。 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮 件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问 题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的 成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表 述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。 如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权MathorCup 全球大学生数学建模挑战赛暨CAA 2015 世界大学生数 学建模竞赛,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在 书籍、期刊和其他媒体进行正式或非正式发表等)。 我们参赛选择的题号是(从A/B/C/D 中选择一项填写): C 我们的报名参赛队号为(4 位数字组成的编号): 1292 所属学校(请填写完整的全名): 东南大学 参赛队员: 1. 杨补园 2. 刘英杰 3. 黄华林 指导教师或指导教师组负责人: 陈恩水 (以上内容请仔细核对,提交后将不再允许做任何修改。如填写错误,论文 可能被取消评奖资格。) 日期: 2015 年 5 月 19 垃圾观点文档识别 摘 要 随着网络信息化时代的发展,垃圾观点文档的识别对企业准确地研究市场需求状况具有 重要的意义。本文依据不同的产品评论规模和主题范围,基于布尔逻辑、支持向量机(SVM ) 算法和电离群因子三种方法分别建立数学模型,实现对垃圾观点文档的识别。 针对问题一,首先对四种主要情形进行分析,提取出产品名称、产品内容、广告语句、 疑问语句四个特征元素,并分别对这四个特征元素建立语料库作为标准训练集。在对每一个 具体评论样本进行检测时,把评论的长句划分为完备的短句的集合,并利用ICTCLAS 系统 对短句进行分词。其次,建立的基于布尔逻辑的短句分类模型,把主要情形中各类特征元素 的搭配作为的评判标准,对每一个短句进行分类。最终,通过建立的长句分类模型,综合考 量该评论的所有短句的类别,实现对该条评论的综合评判。通过 MATLAB 软件编程实现, 对给定的33 条评论进行检测,正确识别率为96.97% 。 针对问题二,采用支持向量机的原理建立分类模型。首先提取各评论中的多个特征元素 组成特征向量,构建初始样本训练集,并采用改进后的 TF-IDF 算法求取各特征元素的权。 其次通过建立非线性的支持向量机分类模型,利用核函数将评论样本集合投射到高维空间坐 标系中进行研究。最后利用优化模型和拉格朗日乘子法,得到最优的分类超平面函数,从而 实现了对垃圾文档和有用文档的分类。通过收集京东商城某联想电脑的1000 条评论,利用 MATLAB 编程实现了对评论文档的识别。投射关系为多项式核函数时,正确识别率为89.1% , 投射关系为Gauss 径向

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档