- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息工程学院课程结课论文
数据挖掘技术的应用研究及发展现状
课程名称:信息检索与科技论文写作
专 业:计算机应用技术
班 级:计算机民专12
学 号:5032108123
姓 名:艾克白尔·阿力甫
任课教师:曹洪武
数据挖掘技术的应用研究及发展现状
一、课题分析
数据挖掘是近年来随着数据库和人工智能技术的发展而出现的一种全新信息技术,也是计算机科学与技术,尤其是计算机网络的发展和普遍使用所提出的而且迫切需要解决的重要课题。数据挖掘是指从数据中提取模式的过程,数据挖掘的提出,让人们最终有能力认识数据的真正价值,即蕴藏在数据中的信息和知识。数据挖掘技术的产生,使得用户可以从大量的数据中发现隐含的规律,从而为决策提供更可靠的依据。 数据挖掘必须建立在结构化良好的数据基础之上,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据,同时可以很好的定义和解释相关的查询语言。由于web上存在许多半结构化数据,即便在web上得到一些相关数据,将其用于挖掘和分析也是相当困难的,因此,面向web的数据挖掘要比面向单个数据仓库中的数据挖掘要复杂的多。由于Internet和WWW的广泛应用,出现了基于异构数据源的数据挖掘,如文档数据挖掘、时间序列数据挖掘、电子商务系统中的数据挖掘。伴随数据库技术的发展,多媒体数据库的数据挖掘、空间数据库的数据挖掘等也引起了许多人的关注。Internet的迅猛发展,尤其是Web的全球普及,使得Web上信息量无比丰富。通过对Web的挖掘,可从Web页面中提取所需的知识:对总的用户访问行为、频度、内容的分析,可得到关于群体用户访问行为和方式的普遍知识,用以改进Web服务设计。
更重用的是,通过对这些用户特征的理解和分析,有助于开展有对性的电子商务活动。随着数据挖掘和万维网技术的结合,使得从收集到的访问Internet网页的网站日志记录中进行数据挖掘成为可能。将数据挖掘技术应用于Web日志记录,来发现用户访问Web页面的模式,便形成了Web访问模式挖掘。它对于优化站点结构、为不同类别的用户提供个性化服务,有效地实现信息获取和信息推送是非常必要的。Web访问模式挖掘是目前数据挖掘领域的热点课题之一,也是Web日志挖掘的主要目标之一,本文的研究目的是发现更多有意义的序列模式。本文系统地阐述了从数据挖掘、Web数据挖掘到Web日志挖掘整个过程。
通基于Web志的数据挖掘的讨论,说明如何进行Web日志挖掘以及在Web日志挖掘中应采取的数据挖掘技术。在数据预处理方面,本文设计了基于最大参引模型和时间窗口模型的访问事务划分方法;在模式挖掘方面,本文在Apriori算法和有向图存储结构的基础上,提出了会话矩阵和遍历矩阵的概念,设计了Web用户频繁路径快速挖掘算法。
二、检索策略:
中图分类号: TP311
关键词:数据挖掘,Web日志挖掘,频繁路径
检索式:题名=(数据挖掘技术) 关键词=(数据挖掘技术应用)及研究、发展现状
三检索步骤和结果:
1、运用搜狗搜索解释其主题:
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门综合交叉学科,它综合了机器学习、统计分析和数据库技术,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。需要说明的是,这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好就能用自然语言表达发现结果,因此DMKD(数据挖掘和知识发现)的研究成果是要讲求实际的。
2、根据所选课题,运用直接浏览法检出其相关文献:
期刊论文:
[1] 陈春颖, 熊拥军. 基于序列模式挖掘的读者借阅行为分析[J]. 图书情报知识, 2011.
[2] 林颖. 闭合序列模式的一种增量挖
文档评论(0)