- 1、本文档共98页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘新术研究
中文摘要
随着Intemet的发展,网上购物、电子政务、网上信息检索等活动日益频繁,
人们对网络服务的需求成为网络发展的巨大动力。但面对网上巨大的数据量和众
多的网站,人们在选择网络服务二检索信息时往往感到无从下手,如何使网络服
务适应不同用户的个性化需求已成为网络服务提供者急切关心的问题。要满足用
户的个性化需求,关键的问题是如何发现用户的访问模式,对Web进行数据挖
掘的目标之一就是要发现用户的访问模式。
Web数据挖掘可分为三种类型,即:Web使用挖掘、Web结构挖掘和Web
内容挖掘,而挖掘用户的频繁访问序列是发现用户的访问模式的主要方法,也是
Web使用挖掘的一项重要任务。Web使用挖掘可以从Web日志或访问者的行为
中发现知识,并且可以从不同用户的访问中发现不同用户的行为之间的内在关
系。挖掘的结果可以用于改进Web站点的设计和向用户提供服务的方式,以尽
可能地满足不同用户的需求。本文在深入研究了OLTP、OLAP数据库的设计特
点和Web日志挖掘的已有算法及其相关知识的基础上,对原AprioriAll算法进行
了改进。在Web日志挖掘过程中,通过对Web日志数据按“用户维’’进行切片,
不仅可以将所有用户看作一个整体进行挖掘,而且还实现了对不同的用户个体的
行为进行独立地挖掘,从而使挖掘出的结果能够满足对用户个性化使用的需求。
这一改进同时实现了对Web日志的增量挖掘,使对Web日志的动态挖掘成为可
能。实验表明,改进后的算法较原算法减少了挖掘过程中候选集的大小和对数据
库的扫描次数,使时空效率得以提高。
针对表示和存储Web事务要占用大量内存,以及Apriori类算法在挖掘过程
中要产生大量候选集和对数据库进行频繁扫描的缺点,本文提出了Web事务编
码技术和逆一Apriori算法。Web事务编码技术使用一个数字表示一个Web事务,
可以对Web事务数据库进行压缩,减少内存的占用;而逆一Apriori算法可以反
向获取用户的最大频繁访问序列,并在此基础上发现关联规则,避免了Apriori
类算法逐次产生候选频繁项集的烦琐过程。
通过分析用户浏览网页的行为和网站对用户请求的反应,本文还提出了利用
用户访问网页的驻留时间进行Web日志挖掘的方法。驻留时间反映了用户浏览
网页的行为,通过在挖掘前设定用户访问网页的驻留时间的区间值,使挖掘者可
以选择和缩减挖掘的范围,提高了挖掘算法与使用者之间的交互能力。基于这一
思想的新算法,首先通过对Web日志的预处理,产生带有驻留时间的Web访问
记录集,然后以驻留时间为限制条件,构建驻留时间频繁访问序列树,用以存储
ⅡI
和压缩带有驻留时间的数据库,并记录网页的支持数量。最后以驻留时间频繁访
问序列树为挖掘对象,在最小支持度的限制下,通过采用深度优先的方法对驻留
时间频繁访问序列树进行遍历,发现用户访问网站的驻留时间最大频繁访问序
列,对比实验表明该算法对Web日志挖掘有较高的效率。
模糊神经网络是数据挖掘研究领域的又一大热点问题。本文依据最大似然原
则,推导出用于模糊神经网络分类算法的交叉熵函数准则,同时构建了新的激活
函数。基于交叉熵准则和新的激活函数的模糊神经网络分类算法与基于误差平方
和准则的BP算法相比,有更快的学习速率而又不致使学习过程失稳,不易陷入
局部极小点。新的激活函数的优点在于不仅可以取到0、l值,而且还具有根据
总误差调节函数曲线斜率的能力,加快了算法的收敛速度,提高了算法的效率,
改善了算法的动态性能。
最后,本文提出了引入生物信息技术解决Web挖掘中的用户识别问题的设
想,并提出了基于隐马尔科夫模型构建虹膜识别系统的方法,该方法仅需要虹膜
的方向域作为输入参数,与需要许多虹膜细节的常规方法相比,它对虹膜图像的
噪声与扭曲并不敏感,从而使该方法具有鲁棒性的特点;另一方面该匹配方法简
化了预处理过程,具有较高的效率。通过准确识别用户,克服了现有Web体系
无状态的缺陷,可以实现对Web日志数据按“用户维’’进行切片,因此不仅可
以将所有用户看作一个整体进行挖掘,而且还可以对不同用户的个体行为进行独
立地挖掘,从而使挖掘出的结果能够满足对用户个性化使用的需求。这一设想实
施后,还能够实现对Web的增量挖掘,从而使对Web日志的动态挖掘成为可能。
●
关键词:用户维,Web日志编码,逆.AprioriAll算法,网页驻留时间,交
您可能关注的文档
- 教育子方法.doc
- 教材管理系统分析设计.doc
- 教育教学理过程中师生交往艺术_00002.ppt
- 教育游戏在提高小学生数学认知能中应用研究.pdf
- 教育科研几个技术问题.ppt
- 数列求通项公式常见题型与解方法.pdf
- 教育游戏在小学英语教中应用.pdf
- 数列通项式求法(论文).pdf
- 数列项公式求法集锦.pdf
- 数图形等文表达.ppt
- 抢分秘籍10 带电粒子电场中的直线运动、偏转和交变电电场中的应用(三大题型)(原卷版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍11 带电粒子在组合场、叠加场中的运动(五大题型)(解析版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍11 带电粒子在组合场、叠加场中的运动(五大题型)(原卷版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍12 电磁感应中的电路与图像问题(二大题型)(解析版) -2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍12 电磁感应中的电路与图像问题(二大题型)(原卷版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍14 热力学定律与气体实验定律综合应用(五大题型)(解析版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍13 电磁感应中的动力学、能量和动量问题(三大题型)(原卷版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍14 热力学定律与气体实验定律综合应用(五大题型)(原卷版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍16 振动图像与波动图像的综合应用(三大题型)(解析版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍15 光的折射、全反射的综合应用(二大题型)(解析版)-2025年高考物理冲刺抢押秘籍.pdf
文档评论(0)