- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据挖掘软件应用分析
基于数据挖掘软件应用分析
摘 要: 数据挖掘技术适用于许多领域,能够利用其数据处理和分析能力,为各领域及相应的平台软件数据提取具有向导性的价值信息,引导行业的发展,其在软件应用方面具有广阔的前景。
关键词: 数据挖掘;软件;应用
中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2013)0120181-01
1 数据挖掘技术
数据挖掘技术,从广义上来说,为一个提取潜在信息的过程。从海量原始信息中挖掘或者提取有用信息,它能够自动的分析和处理原有数据,提炼出具有规律性的模式,从而分析出对象的行为。数据挖掘的数据对象一般特征为数据量大,信息补不完全,存在噪音,并且模糊,随机性强。
数据挖掘是多个领域的交叉学科,剥壳数据库,机器学习,可视化和信息科学等。在使用数据挖掘技术的同时,需要配合其他技术剥壳神经网络技术,模糊及粗糙理论,知识表示,归纳逻辑程序,或者高性能计算。数据挖掘系统可以继承空间数据分析,信息提取,模式识别,图像分析,信号处理,计算机图形学,Web技术,经济,或者心理学等技术。数据挖掘需要对原始的数据进行预处理,主要处理方式包括数据清理。数据集成、数据变换、数据归纳等。从分析数据角度,数据挖掘主要分为两类,分别为描述式的数据挖掘和与预测式的数据挖掘。其中描述式的通常以简洁的语言方式描述数据,并且同时提供数据的一般性质。而预测性的类别,主要分析数据,建立一个或者一组数据模型,并且推算出新数据集的行为。
2 数据挖掘在软件中应用
数据挖掘技术根据其本身挖掘类型分为多种技术,譬如关联规则挖掘技术,通过发现存在海量数据中数据集的关联性及相关性,所采取的算法为Apriori算法。Apriori算法是一种逐层搜索迭代的算法,利用频繁项目集中任何子集一定为频繁集的Apriori性质,最后迭代推出最后的频繁子集,达到挖掘的目的。关联规则挖掘技术一般应用于具有客户关系领域,包括金融,通信或者培训,餐饮业等。
Apriori算法形式描述为:设定相关规则的频繁集I={i1,i2,……,im},设定事务数据稽核D,假定事务T是I中一组项的集合,即为T被包含I,T的唯一标记为TID。若集合项X完全被包含I且X完全被包含T,则事务项T包含集合项X。关联规则是X推出Y。若关联规则X推出Y成立,则还需具备两个标志参数:支持度S,既事务数据库D中至少存在S%的事务,同时包含X和Y中所有项。置信度C,既在事务数据库D中包含X的事务至少有C%,同时也包含Y。在X推出Y中,X被称为规则前件,被称为规则后件,其中的X和Y均可以由合区表达式构成。
数据挖掘技术还包括决策数据挖掘,通过采集过去经验的数据,包括所有经验行为,形成状态集,通过决策算法推到出最后决策。此应用一般应用在体育运动或者金融交易、或者公司管理决策等方面。决策数据挖掘,所采取的算法基于马尔科夫过程的算法。其主要思想为,把所需要挖掘的海量数据视为一个有多个状态组成的系统,而状态之间的转化过程为马尔科夫过程转化,通过统计整个状态矩阵,计算出系统可靠性,得出差分,设置微小增量,最后得出最后决策状态行为。
数据挖掘技术在生物医学和DNA数据分析的应用。目前生物医学的大量研究都集中在对DNA数据分析上,正符合数据挖掘的基本条件。DNA数据分析重点关注DNA序列研究。通过异构、分布基因数据库的语义集成,以此方便对DNA数据库进行系统而系统的分析,促使集成式数据仓库和分布式的联邦数据库开发,以此来存储和管理原始DNA数据。通过数据挖掘的数据清洗和数据集成方便基因数据集成和用于基因数据分析的数据的构造。通过关联分析,同时出现的基因序列识别,帮助确定在目标样本的出现的基因种类,以此发现基因组和对基因间的交叉研究。通过路径分析发现疾病不同阶段的致因基因,找到疾病的发展的不同阶段的遗传因素序列,可以开发出针对疾病的不同阶段的治疗药物。通过可视化的工具和遗传数据分析,方便结构和模式的了解,和知识的发现,以及数据的交互。
数据挖掘在金融数据分析,银行和金融机构中有大量比较完整、可靠和高质量的数据,通过多维的数据分析和数据挖掘设计,构造数据仓库。通过信息中的贷款偿还预测和客户信用政策分析,通过客户的数据特征选择和属性相关性的计算,分析客户的偿还历史信息,可以得出可以发现偿还的收入比不是主导因素,而是所受的教育水平和负债率为是主导因素这样的客户习性的结果,银行可以根据此调整贷款的发放政策。通过数据挖掘可以对目标市场客户分类和聚类。通过数据挖掘的多维聚类分析,可以将具有相同储蓄的和贷款偿还行为的客户分为一组,有效的聚类和协同过滤方法可以识别客户组,将新的客户关联到适合的客户组,推动市场发展。利用数据挖掘技术有助于将洗黑钱和其他金融犯罪侦破。通
您可能关注的文档
最近下载
- 侠客风云传养成模式触发剧情一览.pdf VIP
- YST 582-2013 电池级碳酸锂.pdf
- 淘股吧高手语录.docx VIP
- 2024~2025学年上学期七年级第一次月考数学试题(含答案).pdf VIP
- GB-T6284-1986化工产品中水分含量测定的通用方法重量法.pdf
- MSC:人工智能赋能可持续发展和投资白皮书.pdf VIP
- 24J306 窗井、设备吊装口、排水沟、集水坑图集.docx VIP
- 2014年深圳市坪山新区主要病媒生物监测及白纹伊蚊抗药性研究.pdf VIP
- T∕CBDA 69-2023 建筑装饰装修碳排放计算标准.pdf
- 国际私法(暨南大学)中国大学MOOC 慕课 章节测验 期末考试答案.docx VIP
文档评论(0)