垃圾的观点文档识别.pdf

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
垃圾的观点文档识别

第五届MathorCup 全球大学生数学建模挑战赛暨CAA 2015 世界 大学生数学建模竞赛 承 诺 书 我们仔细阅读了 《MathorCup 全球大学生数学建模挑战赛暨CAA 2015 世界 大学生数学建模竞赛章程》和《MathorCup 全球大学生数学建模挑战赛暨 CAA 2015 世界大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”, 可从官方竞赛网站下载)。 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮 件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问 题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的 成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表 述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。 如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权MathorCup 全球大学生数学建模挑战赛暨CAA 2015 世界大学生数 学建模竞赛,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在 书籍、期刊和其他媒体进行正式或非正式发表等)。 我们参赛选择的题号是(从A/B/C/D 中选择一项填写): C 我们的报名参赛队号为(4 位数字组成的编号): 1292 所属学校(请填写完整的全名): 东南大学 参赛队员: 1. 杨补园 2. 刘英杰 3. 黄华林 指导教师或指导教师组负责人: 陈恩水 (以上内容请仔细核对,提交后将不再允许做任何修改。如填写错误,论文 可能被取消评奖资格。) 日期: 2015 年 5 月 19 垃圾观点文档识别 摘 要 随着网络信息化时代的发展,垃圾观点文档的识别对企业准确地研究市场需求状况具有 重要的意义。本文依据不同的产品评论规模和主题范围,基于布尔逻辑、支持向量机(SVM ) 算法和电离群因子三种方法分别建立数学模型,实现对垃圾观点文档的识别。 针对问题一,首先对四种主要情形进行分析,提取出产品名称、产品内容、广告语句、 疑问语句四个特征元素,并分别对这四个特征元素建立语料库作为标准训练集。在对每一个 具体评论样本进行检测时,把评论的长句划分为完备的短句的集合,并利用ICTCLAS 系统 对短句进行分词。其次,建立的基于布尔逻辑的短句分类模型,把主要情形中各类特征元素 的搭配作为的评判标准,对每一个短句进行分类。最终,通过建立的长句分类模型,综合考 量该评论的所有短句的类别,实现对该条评论的综合评判。通过 MATLAB 软件编程实现, 对给定的33 条评论进行检测,正确识别率为96.97% 。 针对问题二,采用支持向量机的原理建立分类模型。首先提取各评论中的多个特征元素 组成特征向量,构建初始样本训练集,并采用改进后的 TF-IDF 算法求取各特征元素的权。 其次通过建立非线性的支持向量机分类模型,利用核函数将评论样本集合投射到高维空间坐 标系中进行研究。最后利用优化模型和拉格朗日乘子法,得到最优的分类超平面函数,从而 实现了对垃圾文档和有用文档的分类。通过收集京东商城某联想电脑的1000 条评论,利用 MATLAB 编程实现了对评论文档的识别。投射关系为多项式核函数时,正确识别率为89.1% , 投射关系为Gauss 径向

文档评论(0)

liwenhua00 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档