药学文献检索讲稿药学信息数据挖掘.docxVIP

药学文献检索讲稿药学信息数据挖掘.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

药学信息数据挖掘

第一节数据挖掘概述

一、数据挖掘的产生

数据挖掘(DataMining)是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。它是在现实生活中的各种数据量呈指数级不断增长及以数据库(Database)技术为核心的信息技术逐渐成熟的条件下产生的。数据挖掘可以帮助用户发现隐藏在大量数据库中的规律和模式,它融合了人工智能(ArtificialIntelligence,AI)、统计(Statistics)、机器学习(MachineLearning,ML)、模式识别(PatternRecognition,PR)和数据库等多种学科的理论、方法与技术,已经广泛地应用于商业、企业、政府、科研及体育等各类组织机构和领域中。即使在日常生活中,数据挖掘技术也已经潜移默化地参与到人们的生活中,极大地改善了人们的生活质量。

首先,看一个数据挖掘最有名的例子,即“尿布与啤酒”的故事,并以此说明数据挖掘的几个特征。实际上,数据挖掘最初的应用领域就是在商业上,“尿布与啤酒”的故事只是一个广为人知的有趣范例而已。为了分析哪些商品顾客最有可能一起购买,全球最大的零售商沃尔玛利用数据挖掘方法,对数据库中的大量数据进行分析后意外发现,跟尿布一起购买最多的商品竟然包括啤酒。为什么两件风马牛不相及的商品会被人一起购买?经过分析发现,原来太太们常叮嘱她们的丈夫,下班后为小孩买尿布,而丈夫们在买尿布后又随手带回几瓶啤酒。既然尿布与啤酒一起购买的机会最多,商店就将它们摆放在一起,结果,尿布与啤酒的销售量双双都得到较大的增长。

数据挖掘的兴起还有着它的应用背景。当全球向信息化社会迈进之际,人类利用信息技术收集、加工、组织、生产信息的能力也大大提高,致使数以万计的各种类型的数据库诞生,它们在科学研究、技术开发、生产管理、市场扩张、商业运营、政府办公等方面发挥着巨大作用。然而,随着信息量的不断增多,特别是网络信息资源的迅猛扩张,人类面临着新的挑战。如何不被堆积如山的信息所淹没?如何能够迅速地从海量信息中获取有用数据?如何能够充分提高信息的利用率?数据挖掘技术就应运而生。从目前的发展趋势来看,数据挖掘技术的研究与应用越来越显示出其强大的生命力,已成为信息技术领域研究热点。

数据的挖掘起源于20世纪80年代末,最早是从数据库中知识发现(KnowledgeDiscoveryinDatabase,KDD)研究起步。KDD一词先出现在1989年人工智能国际会议上,之后这一研究逐渐成为热点。随着这项研究对象的不断扩展,人们更多的称之为数据挖掘。1995年,召开了第一届知识发现和数据挖掘国际会议,以后每年召开一届。我国从事数据挖掘的研究起步较晚,大约是在20世纪90年代中期,近年来许多高校、科研院所在这一领域内开展研究,并取得了许多成绩。数据挖掘研究的发展不仅源于对“堆积如山”的信息量的处理需求,更是社会发展各方面的迫切需要。如企业为了提高自己的竞争力、开展良好的商业运作,信息供应商对网络信息资源的组织等都需要研究数据挖掘技术。

数据库系统经过数十年的发展,已经保存了大量的日常业务数据。随着数据库和各类信息系统应用的不断深入,每年都要积累大量的数据,并呈增量发展趋势。信息量大是当今信息社会的特征,是我们的宝贵财富。然而面对海量数据,我们往往无所适从,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,导致了“我们淹没在数据的海洋中,但却缺少知识”的现象。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识,提高信息利用率?”我们希望运用数据挖掘技术从这些数据当中挖掘出知识来。大量数据的背后隐藏了很多具有决策意义的信息,通过对海量数据的分析,发现数据之间的潜在联系,就能为人们提供自动决策支持。

数据挖掘技术是人类长期对数据库技术进行研究和开发的结果。数据库技术最初用于联机事务处理,即实现对大量数据的统一存储,并提供对数据的查询、插入、删除等事务性操作。随着大量历史数据的积累,人们不再满足于只是简单地查询和修改数据,而是希望能够发现数据之间的潜在关联。因此,人们对数据库技术提出了新的要求,随着一些相关学科和研究领域的日渐成熟,以及现实世界中商业竞争的日渐残酷,企业急切地希望通过快速处理这些数据来获得有利于企业进一步发展的决策依据,而是否能够最大限度地使用信息资源来管理和影响企业决策流程,将决定企业是否能拥有最大限度的竞争优势,数据挖掘技术就此出现了,并得到快速的应用。

数据挖掘可以应用在各个不同的领域。数据挖掘能够对将来的趋势和行为进行预测,从而很好地支持人们的决策,如银行可以使用数据挖掘发现有价值的客户,保险公司和证券公司可以使用数据挖掘来检测欺诈行为。通过数据挖掘能自动在大量数据中寻找预测性信息,因此,以往需

文档评论(0)

卢老师2000 + 关注
实名认证
服务提供商

中西医结合高级讲师、教师资格证持证人

文档需要修改请直接站内联系。专业医学课件制作,医学教案,教学设计制作,医学相关写作与发表。

领域认证该用户于2023年10月13日上传了中西医结合高级讲师、教师资格证

1亿VIP精品文档

相关文档