- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汕头大学硕士学位论文基于数据挖掘技
汕头大学硕士学位论文
基于数据挖掘技术的垃圾文本识别研究
I
I
摘 要
随着 Web 2.0 应用的深入发展,互联网已经进入了一个全民创造信息的时代,但同时 也是一个信息泛滥的时代。文本、视讯等技术的日新月异极大扩展了我们创造内容的能力; 论坛、微博等用户原创型应用又提供了众多信息分享的平台。这些极大地丰富了网络中原 创文本内容,但在吸引众多用户浏览和分享的同时,也吸引了垃圾信息的发布。不论出于 商业利益或者政治目的,这些行为导致很多论坛、热点博客的回复区、个人空间的留言板、 微博的私信中等几乎所有支持文本发布功能并能吸引公众注意力的地方都充斥着垃圾信 息。此类信息多以文本内容的形式出现,如何挖掘出其中潜藏的,没有价值的信息,保持 数据的有效性和可用性,为用户提供一个干净的网络环境,是当前迫切需要解决的重要问 题。
本文提出了垃圾文本定义和垃圾文本识别概念,分析了垃圾文本形式、危害、防范方 法及通用识别方法。在 Hadoop 集群构建的实验平台上,基于某公司的真实数据集,展开 了将文本挖掘和用户行为挖掘应用于垃圾文本识别的一系列研究。通过对相关算法的改进 提出了:顾盼算法,解决了热词问题,有效降低属性间依赖关系,提升了朴素贝叶斯算法 的整体性能;往返折半逼近算法,可快速将属性子集大小逼近理想状况;择优算法,解决 了掩饰性垃圾文本较难识别的问题,有效提升了模型的召回率;首尾哈希算法,有效解决 大规模长文本匹配中计算、存储代价过高问题。
最后,从实验结果数据分析,上述算法在模型性能提升上均有较明显效果。论文还对 文本挖掘与用户行为挖掘性能差异研究分析,论述了二者结合使用的可能性。论文还实现 了部分挖掘算法的分布式并行化处理,解决了大数据挖掘中计算和存储资源的限制。
关键字:垃圾文本识别;文本挖掘;用户行为挖掘;Hadoop
II
II
Abstract
With the development of Web 2.0 Application, the Internet has entered an era of universal creating content, also an age of information overload. Due to the improvement of text and media communications techniques, our ability to create content has greatly expanded. At the same time, applications of user created content such as forums and micro-blog provide us more platforms for sharing information. All of these greatly enriched the original text content on the internet, which not only capture the normal user’s attention but also the spam information. Perhaps because of interests or political purposes, these behaviors have many websites become sea of spam, which include forums, response area of the hot blogs, message boards of personal spaces, private letter medium of micro-blog and almost all places that support text publishing and able to draw the public’s attention. The great majority of this information is in the form of text. It is a problem pressing for solution how to find out the hidden and valueless information, maintain the effectiveness and availability of data, and provide a clean network environment for network users.
In this article, we propose the definition of
您可能关注的文档
- 基于人才供应链理论的人力资源管理系统设计以A公司为例-工商管理专业论文.docx
- 基于搜索引擎索引分析的互联网舆情监控研究-计算机应用技术专业论文.docx
- 基于前景理论的城市公共交通方式选择模型研究-交通运输规划与管理专业论文.docx
- 基于偏最小二乘特征的鸽子运动转向 解码研究-模式识别与智能系统专业论文.docx
- 基于稀疏表示的不完全投影重建算法研究-应用数学专业论文.docx
- 基于文件过滤驱动的透明加密系统的设计与实现-信息安全专业论文.docx
- 基于内容的个人音乐情感分析模型-软件工程专业论文.docx
- 基于系统调用依赖图的恶意代码检测-计算机科学与技术专业论文.docx
- 基于长尾理论的中国茶企业微博营销应用研究-茶学专业论文.docx
- 基于人工神经网络测量含谐波无功功率的快速算法设计与实现-计算机技术专业论文.docx
- 基于生态观的产业集群网络运行机制研究-企业管理专业论文.docx
- 基于时频特征的说话人识别研究-模式识别与智能系统专业论文.docx
- 基于网络编码交换系统仿真平台的设计与实现-计算机软件与理论专业论文.docx
- 基于数据仓库的客户关系管理系统的研究与构建-软件工程专业论文.docx
- 基于均匀化理论的材料微结构拓扑优化研究材料加工工程专业论文.docx
- 基于遗传算法的施工企业物资设备供应链成本模型研究-会计学专业论文.docx
- 基于内容的Flash数据库检索算法研究-教育技术学专业论文.docx
- 基于文献的中医药治疗高血压临床证治规律的研究-中医内科学专业论文.docx
- 基于可靠性理论的单病种临床路径医疗风险成本估计-社会医学与卫生事业管理专业论文.docx
- 基于数据驱动和规则约束的人机界面的研究与实现-计算机系统结构专业论文.docx
最近下载
- 二级圆柱齿轮减速器机械设计课程设计.docx VIP
- 小学养成教育校本课程教材(低年级用).pdf VIP
- 2025年新教科版三年级上册科学全册知识点(含实验梳理).pdf VIP
- 2025年会计专业论文选题(精选200个).pdf VIP
- 《赵氏雷火灸的临床应用》课件.ppt VIP
- 目录化工和危险化学品生产经营单位重大生产安全事故隐患判定标准(试行)化工和危险化学品生产经营单位重大生产安全事故隐患判定标准解读.docx VIP
- (阶段检测提升卷)+五年级数学上册第(1-3)单元+考点突破+检测试卷+++北师大版.docx VIP
- 压铸外观标准(附件).doc VIP
- 贵州省遵义市2024-2025学年七年级上学期11月期中数学试题(含答案).pdf VIP
- 《最后的常春藤叶》教学实录.doc VIP
原创力文档


文档评论(0)