- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘在非营利组织中的应用.doc
数据挖掘在非营利组织中的应用
摘 要 本文在对数据挖掘的概念及任务概述的基础上,着重介绍了数据挖掘在生物与医学、天文与气象领域、地理与环保等领域中的应用。
关键词 数据挖掘 生物与医学 天文与气象 地理与环保
一、引言
目前,数据挖掘是国际上数据库和信息决策领域的最前沿研究方向之一。越来越多的企业开始利用数据挖掘技术来分析公司的数据,以辅助决策。数据挖掘正逐渐成为他们在市场竞争中立于不败之地的法宝。数据挖掘是从大量的数据中抽取出有效的、新颖的和潜在有用的知识的过程。其目的是提高市场决策能力、检测异常模式、在过去的经验基础上预言未来趋势等。在传统的决策支持系统中,知识库中的知识和规则是由专家或程序人员建立的,是由外部输入的,而数据挖掘的任务是从大量数据中发现尚未被发现的知识,是从系统内部自动获取知识的过程。对于那些决策者明确了解的信息.可以用查询,联机分析处理或其他工具直接获取。而另外一些隐藏在大量数据中的关系、趋势等信息,就需要数据挖掘技术来完成。
二、数据挖掘的过程
数据挖掘过程一般由三个主要的阶段组成数据准备、挖掘操作、结果表达和解释。知识的发现可以描述为这三个阶段的反复过程。
1 数据准备
这个阶段又可进一步分成三个子步骤:数据集成、数据选择、数据预处理。数据集成将文件或多数据库运行环境中的数据进行合并,分析的数据集合,缩小处理范围,提高数据挖掘的质量。预处理是为了克服目前数据挖掘工具的局限性。
2 数据挖掘
这个阶段进行实际的挖掘操作。主要包括(1)决定如何产生假设,是让数据挖掘系统为用户产生假设,还是用户自己对于数据库中可能包含的知识提出假设。前一种称为发现型的数据挖掘,后一种称为验证型的数据挖掘。(2)选择合适的工具。(3)挖掘知识的操作。(4)证实发现的知识。
3 结果表述和解释
根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具提交给决策者。因此,这一步骤的任务不仅是把结果表达出来,还要对信息进行过滤处理,如果不能令决策者满意,需要重复以上数据挖掘的过程。
三 数据挖掘功能
数据挖掘分为描述性数据挖掘和预测性数据挖掘。描述性数据挖掘用来刻画数据库的一般特征,如特征化;而预测性数据挖掘用来对数据进行预测,如回归。
1 类/概念描述
类/概念描述就是用汇总的、简洁的、精确的方式描述类或概念。其中,数据特征化能够一般地汇总所研究类的数据;数据区分将目标类和一个或多个比较类进行比较。
2 关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之问存在某种规律性就称为关联。关联分析的目的是找出数据库中隐藏的关联网,关联规则挖掘的一个典型例子就是购物篮分析该过程通过发现顾客放入购物篮中不同商品之间的联系,分析顾客的购买习惯从而为零售商制定营销策略提供支持。
3 分类和预测
分类用于找出描述并区分数据类概念的模型或函数,以便能够使用模型预测类标记未知的对象类。当被预测的值是数值数据时,通常称之为预测。
4 聚类分析
与分类和预测不同,聚类是在没有明确知道类对象分类的情况下进行的,即训练数据中不提供类标记。利用聚类可以产生不同的簇(聚类),使得在一个簇中的埘象具有很高的相似性,而与其他簇中的对象很不相似。
5 孤立点分析
数据库中可能包含一些数据对象,它们与数据的~般行为或模型不一致,这些对象就称为孤立点。在一些应用中,如欺骗检测,罕见的事件比正常的事件更值得研究。
四、数据挖掘技术在非营利组织中的应用
数据挖掘由于其与统计学之间的内在联系,从诞生之日起就被应用到生物、医学等广泛应用统计技术的领域。随着数据挖掘技术的不断成熟,近年来数据挖掘在许多非营利性组织中开辟了新的应用领域。
1 数据挖掘技术在生物与医学领域中的应用
作为数据挖掘前辈之一的统计学,早就有着非常出色的应用于生物医学领域的传统,因此数据挖掘诞生后在生物医学领域同样有着广泛的应用。NeumMedical系统公司采用神经网络技术进行油性流质食物辅助诊断;Vysis采用神经网络技术为药品开发进行蛋白质分析;Rochester大学癌症中心和牛津移植中心采用基于决策树技术的KnowledgeSEEKER辅助他们的研究工作:南加州大学脊椎病医院利用Information Discovery进行数据挖掘。目前数据挖掘技术已经应用到肿瘤学、肝脏病理学、肝炎的生存几率预测、泌尿学、甲状腺病例诊断、风湿病学、craniostenosis综合病症诊断、皮肤病诊断、心脏病学、神经心理学、妇科医学、产科医学等众多医学领域。Jiawei Han和Micheline Kamher从异构和分布式基因数据库的语义集成、DNA序列间相似的搜索和比较、同时出现的基因序列的识别、发现在疾病不同阶段
您可能关注的文档
最近下载
- 2024—2025学年广东省佛山市顺德区九年级上学期期中考试化学试卷.doc VIP
- 阿托品化与阿托品中毒的主要区别.docx VIP
- 麦克维尔多联机安装说明书.pdf VIP
- Unit 2 Section B(1a-Project)课件人教版2024新教材七年级上册英语.pptx VIP
- 南京大学《算法设计与分析》ppt课件 L12 - DAG.pdf VIP
- 南京大学《算法设计与分析》ppt课件 L11 - GraphTraversal.pdf VIP
- CH_T 7002-2018CN 无人船水下地形测量技术规程.docx
- 生产现场质量问题分析与解决培训.ppt VIP
- SMP-03-005-00 委托生产文件管理规程.pdf VIP
- 南京大学《算法设计与分析》ppt课件 L10 - Union-Find.pdf VIP
原创力文档


文档评论(0)