- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
垃圾的观点文档识别
第五届MathorCup 全球大学生数学建模挑战赛暨CAA 2015 世界
大学生数学建模竞赛
承 诺 书
我们仔细阅读了 《MathorCup 全球大学生数学建模挑战赛暨CAA 2015 世界
大学生数学建模竞赛章程》和《MathorCup 全球大学生数学建模挑战赛暨 CAA
2015 世界大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,
可从官方竞赛网站下载)。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮
件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问
题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的
成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表
述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。
如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。
我们授权MathorCup 全球大学生数学建模挑战赛暨CAA 2015 世界大学生数
学建模竞赛,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在
书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D 中选择一项填写): C
我们的报名参赛队号为(4 位数字组成的编号): 1292
所属学校(请填写完整的全名): 东南大学
参赛队员: 1. 杨补园
2. 刘英杰
3. 黄华林
指导教师或指导教师组负责人: 陈恩水
(以上内容请仔细核对,提交后将不再允许做任何修改。如填写错误,论文
可能被取消评奖资格。)
日期: 2015 年 5 月 19
垃圾观点文档识别
摘 要
随着网络信息化时代的发展,垃圾观点文档的识别对企业准确地研究市场需求状况具有
重要的意义。本文依据不同的产品评论规模和主题范围,基于布尔逻辑、支持向量机(SVM )
算法和电离群因子三种方法分别建立数学模型,实现对垃圾观点文档的识别。
针对问题一,首先对四种主要情形进行分析,提取出产品名称、产品内容、广告语句、
疑问语句四个特征元素,并分别对这四个特征元素建立语料库作为标准训练集。在对每一个
具体评论样本进行检测时,把评论的长句划分为完备的短句的集合,并利用ICTCLAS 系统
对短句进行分词。其次,建立的基于布尔逻辑的短句分类模型,把主要情形中各类特征元素
的搭配作为的评判标准,对每一个短句进行分类。最终,通过建立的长句分类模型,综合考
量该评论的所有短句的类别,实现对该条评论的综合评判。通过 MATLAB 软件编程实现,
对给定的33 条评论进行检测,正确识别率为96.97% 。
针对问题二,采用支持向量机的原理建立分类模型。首先提取各评论中的多个特征元素
组成特征向量,构建初始样本训练集,并采用改进后的 TF-IDF 算法求取各特征元素的权。
其次通过建立非线性的支持向量机分类模型,利用核函数将评论样本集合投射到高维空间坐
标系中进行研究。最后利用优化模型和拉格朗日乘子法,得到最优的分类超平面函数,从而
实现了对垃圾文档和有用文档的分类。通过收集京东商城某联想电脑的1000 条评论,利用
MATLAB 编程实现了对评论文档的识别。投射关系为多项式核函数时,正确识别率为89.1% ,
投射关系为Gauss 径向
文档评论(0)