- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
优秀硕士毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!
中文摘要
序列模式挖掘针对序列数据库,致力于发现序列事件之间的关系,找到事件
发生存在的特定顺序。序列模式挖掘是关联规则挖掘的推广,有着广泛的应用价
值,例如顾客购买行为分析、w|eb访问模式分析、科学实验分析、疾病治疗早期
诊断、自然灾害预测、DNA序列模式分析等。近年来,序列模式挖掘有了长足
的发展,仍然存在许多问题,比如:算法复杂度过高,对大数据集效率低,适应
性较差等。本文应用数据挖掘、遗传算法的理论和方法,重点研究了序列模式挖
掘方法及在w曲使用挖掘领域的应用。主要的研究内容和创新性工作包括:
首先,介绍了数据挖掘的概念和发展情况,评述了数据挖掘的各种技术,面
向不同数据类型的挖掘方法。分析了数据挖掘中的聚类技术,聚类的基本理论和
方法、算法,以及聚类的详细过程。
其次,针对如means聚类算法对噪音数据敏感、易收敛到局部极值点、需要
人为确定聚类的数目等不足,提出了结合舡medoids方法的遗传算法聚类方法一
Gl;MD算法。GKMD算法将聚类个数引入到适应值函数中,设计了包含聚类个
数和类中心位置的统一编码及相应的交叉与变异算子,使遗传算法在进化的过程
中自动确定最优的聚类个数。同时,在算法中嵌入了一种有效的启发式搜索方法,
使得整个GKMD算法兼备了较好的全局搜索能力和局部搜索能力。实验表明,
GKMD算法显著地改进了对包含噪音和异常点的数据进行聚类的鲁棒性,并能
够在保证较高聚类准确率的基础上准确地确定聚类数目,为后面章节中确定聚类
的数目奠定了基础。
第三,提出了一种新的结合聚类的两阶段序列模式挖掘方法。第一阶段用
如medoids算法将序列数据聚类到不同的群组,设计了一种疗元组结构的序列模
表示方法,可以减少序列的维数,并提出了一种新的序列模式相似度计算方法
蝴,能够捕捉序列模式更多的信息,更加准确的计算相似度。第二阶段用层
云表展示每一个聚类,提供了更多的普通序列模式挖掘方法不能提供的信息,如
转换的频率等,用于辅助显著模式发现和快速抽取。
第四,将提出的序列模式挖掘方法进行了扩展并运用到W曲使用挖掘中。
分析了与W曲用户兴趣行为密切相关的各种因素,给出了W曲会话的语义本体
表示,提出了一种更为准确的计算语义会话之间的相似度的方法翩卿。分别
link方法,进行序列模式挖掘过程中
采用分割式如medoids方法和层次式Single
的W曲会话的聚类,并应用层云表展示web使用挖掘的聚类结果。通过不同的
聚类算法以及性能评价指标,在特定的数据集与其它相似度计算指标进行了比
较,验证了踟卿的性能。在验证的过程中,我们使用第三章提出的GKMD
算法确定聚类个数,结合性能评价指标,再次验证了GKMD算法的有效性。
关键词:序列模式挖掘,遗传算法聚类,web使用挖掘,会话聚类,层云表
ABSTRACT
thedata on
Sequemialpatternsminil培is millmgtechnologyappliedsequence也也Ibases.
Itaimsat events趾d
relationshipsbet、Ⅳe%seque以al specific among也em.
fiIlding orde血g
ijsmeextensionofassociationmle andis in
Sequ钮_tialpattemmining minillgwiddy印plied
customer
behaVior趾alysis,web
of ofn加l and∞0n.
diagnosisdiseas鼯,f.orecastdisast粥,DNAsequence姐alysis
e砌y
adVances
TherehaVebeen in也eresearc
文档评论(0)