基于正负关联规则的Web文档分类研究-计算机应用技术专业论文.docxVIP

下载本文档

1
0
约5.07万字
约 59页
2019-03-23 发布于上海
举报
版权申诉

基于正负关联规则的Web文档分类研究-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

§ - 4 学位论文独创性声明本人声明，所呈交的学位论文系在导师指导下本人独立完成的研究成果。文学位论文独创性声明本人声明，所呈交的学位论文系在导师指导下本人独立完成的研究成果。文中引用他人的成果，均已做出明确标注或得到许可。论文内容未包含法律意义上已属于他人的任何形式的研究成果，也不包含本人已用于其他学位申请的论文或成果，与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的}兑明并表示谢意。论文作者签名：盈筵苤学位论文知识产权权属声明本人在导师指导下所完成的论文及相关的职务作品，知识产权归属山东轻工业学院。山东轻工业学院享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权利，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时，署名单位仍然为山东轻工业学院。论文作者签名： H期：2止年￡月篮R 导师签名： Ft,苴71：≯坦年』月鲨同 L J 山东轻T业学院颂lj学位论文目山东轻T业学院颂lj学位论文目录摘要．I ABSTRACT．．．．．．．．．．．．I 第1章绪论．．1 1．1数据挖掘概述 1 ◆ 1．2 Web文档分类概述．6 1．3本文的研究背景及意义 7 第2章Web文档分类的相关技术．9 2．1 Web挖掘．9 2．1．1 Web挖掘的概念 9 2．1．2 Web挖掘的分类 9 2．2 Web文本挖掘 12 2．3 Web文档分类 l 4 2．3．1 Web文档分类的步骤．14 2．3．2 Web文档分类的关键技术．15 2．3．3 Web文档分类的算法．1 8 2．3．4 Web文档分类的方法的评价．20 第3章基于正关联规则的Web文档分类技术．．21 3．1关联规则挖掘 2 1 3．1．1关联规则的概念 2 l 3．1．2关联规贝0挖掘算法 22 3．2正关联规则Web文档分类技术．27 3．2．1正关联规则Web文档分类的现状 27 3．2．1正关联规则W曲文档分类技术 29 第4章负关联规则的相关技术．．3 l 4．1负关联规则挖掘产生．．3l 4．2负关联舰则的定义．．32 4．3负关联规则的算法．．32 第5章基于正负关联规则Web文档分类．37 5·1Web文档预处理 5·1 Web文档预处理．．37 5．2基于萨负关联规则Web文档分类 38 5．3实验及结果分析．．39 第6章结论与下一步的工作 41 参考文献．．43 致谢：：■ ： 47 攻读硕士学位期间取得的科研成果．49 ， ● ．0’ 2 山东轻T业学院硕Ij学位论义摘山东轻T业学院硕Ij学位论义摘要关联规则挖掘是数据挖掘中重要内容之～，旨在发现大龟数据中项集之问的关联或相关关系。将关联规则挖掘技术应用于Web文档分类，可以更有效地组织和管理海量的web信息，更快地查找网络上的信息。然而，目前-火多研究者在 Web文档分类中仅仅涉及到了正关联规则挖掘，而较少涉及负关联规则。负关联规则可以发现项集之间的负关联火系，是对证关联规则挖掘技术的补充，将负关 ■ 联规则挖掘技术应用于Web文档分类，就可以发现那些负相火的Web文档，从而提高Web文档分类的J下确度。然而，如何把负关联规则应用j二web文档分类还是一个新问题，为此，本文对这一问题进行了讨论，并提f{{了一种基于正负关联规则的Web文档分类方法。本文介绍了目前Web文档分类所涉及的分类方法，并对闺内外正负关联舰则的研究现状进行了总结，提出了一种基于正负关联规则的Web文档分类方法。该方法巾首先对web文档进行预处理，将非结构化的数据变成结构化数据，从而建立起新的事务集合；然后利用Apriori算法求出频繁2．项集后，用修改后的PNARC 模型进行规则选择，删除矛盾的关联规则，得到iF确的正负关联规则，从而区分出文档之问的相关性，以此来确定文档是否真正属于问一类别，并通过实验对这个方法进行验证，证明该算法可以对Web文档进行iF确的分类。关键词：数据挖掘；负关联规则；Web文档分类飞;? ? @ Association Association rule is an important part of data mining，is in order to find the links between items．The mining association rule technique is used in Web Document Classification，could more effectively organize and mana