垃圾的观点文档识别.pdfVIP

下载本文档

14
0
约5.85万字
约 29页
2018-02-18 发布于浙江
举报

垃圾的观点文档识别.pdf

垃圾的观点文档识别

第五届MathorCup 全球大学生数学建模挑战赛暨CAA 2015 世界大学生数学建模竞赛承诺书我们仔细阅读了《MathorCup 全球大学生数学建模挑战赛暨CAA 2015 世界大学生数学建模竞赛章程》和《MathorCup 全球大学生数学建模挑战赛暨 CAA 2015 世界大学生数学建模竞赛参赛规则》（以下简称为“竞赛章程和参赛规则”，可从官方竞赛网站下载）。我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛章程和参赛规则的，如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺，严格遵守竞赛章程和参赛规则，以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为，我们将受到严肃处理。我们授权MathorCup 全球大学生数学建模挑战赛暨CAA 2015 世界大学生数学建模竞赛，可将我们的论文以任何形式进行公开展示（包括进行网上公示，在书籍、期刊和其他媒体进行正式或非正式发表等）。我们参赛选择的题号是（从A/B/C/D 中选择一项填写）： C 我们的报名参赛队号为（4 位数字组成的编号）： 1292 所属学校（请填写完整的全名）：东南大学参赛队员： 1. 杨补园 2. 刘英杰 3. 黄华林指导教师或指导教师组负责人：陈恩水（以上内容请仔细核对，提交后将不再允许做任何修改。如填写错误，论文可能被取消评奖资格。）日期： 2015 年 5 月 19 垃圾观点文档识别摘要随着网络信息化时代的发展，垃圾观点文档的识别对企业准确地研究市场需求状况具有重要的意义。本文依据不同的产品评论规模和主题范围，基于布尔逻辑、支持向量机（SVM ）算法和电离群因子三种方法分别建立数学模型，实现对垃圾观点文档的识别。针对问题一，首先对四种主要情形进行分析，提取出产品名称、产品内容、广告语句、疑问语句四个特征元素，并分别对这四个特征元素建立语料库作为标准训练集。在对每一个具体评论样本进行检测时，把评论的长句划分为完备的短句的集合，并利用ICTCLAS 系统对短句进行分词。其次，建立的基于布尔逻辑的短句分类模型，把主要情形中各类特征元素的搭配作为的评判标准，对每一个短句进行分类。最终，通过建立的长句分类模型，综合考量该评论的所有短句的类别，实现对该条评论的综合评判。通过 MATLAB 软件编程实现，对给定的33 条评论进行检测，正确识别率为96.97% 。针对问题二，采用支持向量机的原理建立分类模型。首先提取各评论中的多个特征元素组成特征向量，构建初始样本训练集，并采用改进后的 TF-IDF 算法求取各特征元素的权。其次通过建立非线性的支持向量机分类模型，利用核函数将评论样本集合投射到高维空间坐标系中进行研究。最后利用优化模型和拉格朗日乘子法，得到最优的分类超平面函数，从而实现了对垃圾文档和有用文档的分类。通过收集京东商城某联想电脑的1000 条评论，利用 MATLAB 编程实现了对评论文档的识别。投射关系为多项式核函数时，正确识别率为89.1% ，投射关系为Gauss 径向

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

垃圾的观点文档识别.pdfVIP