Data Mining - Concepts and Techniques CH01.ppt

下载文档

34
0
约 50页
2017-10-14 发布于江苏
举报
版权申诉
保障服务

Data Mining - Concepts and Techniques CH01.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* * * * * * * * * 。 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * Data Mining: Concepts and Techniques * 流数据与传统的数据库技术中的静态数据不同，流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。主要应用场合网络监控网页点击流股票市场流媒体…等等与传统数据库技术相比，流数据在存储、查询、访问、实时性的要求等方面都有很大区别。 * Data Mining: Concepts and Techniques * 多媒体数据库多媒体数据库实现用计算机管理庞大复杂的多媒体数据，主要包括包括图形(graphics),图象(image)、声音(audio)、视频(video)等等，现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。对于多媒体数据库的数据挖掘，需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。 * Data Mining: Concepts and Techniques * 面向对象数据库和对象一关系数据库而向对象数据库是而向对象技术和数据库技术结合的产物，该技术对数据以对象的形式进行存储，并在这个基础上实现了传统数据库的功能，包括持久性、并发控制、可恢复性、一致性和查询数据库的能力等。对象一关系数据库基于对象一关系模型构造，该模型通过处理复杂对象的丰富数据类型和对象定位等功能，扩充关系模型。而向对象数据库和对象一关系数据库中的数据挖掘会涉及一些新的技术，比如处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。 * Data Mining: Concepts and Techniques * 异构数据库和历史（Legacy）数据库历史数据库是一系列的异构数据库系统的集合，包括各同种类的数据库系统，像关系数据库、网络数据库、文件系统等等。有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。对于异构数据库系统，实现数据共享应当达到两点: 一是实现数据库转换;二是实现数据的透明访问。 WEB SERVICE技术的出现有利一于历史数据库数据的重新利用。 * Data Mining: Concepts and Techniques * 文本数据库和万维网文本数据库存储的是对对象的文字性描述。文本数据库的分类无结构类型(大部分的文本资料和网页) 半结构类型(XML数据) 结构类型(图书馆数据) 万维网(www)可以被看成最大的文本数据库数据挖掘内容内容检索 WEB访问模式检索 * Data Mining: Concepts and Techniques * Data Mining Functionalities数据挖掘的主要方法 Concept description: Characterization and discrimination（概念/类描述:特性化和区分） Generalize, summarize, and contrast data characteristics, e.g., dry vs. wet regions（归纳，总结和对比数据的特性。比如:对每个月来网站购物超过 5000元的顾客的描述:40一50岁，有正常职业，信用程度良好。） Association (correlation and causality)（关联分析）发现数据之间的关联规则，这些规则展示属性 - 值频繁的在给定的数据中所一起出现的条件。广泛的用于购物篮或事务数据分析。 Diaper à Beer [0.5%, 75%] Classification and Prediction（分类和预测） Construct models (functions) that describe and distinguish classes or concepts for future prediction（通过构造模型(或函数)用来描述和区别类或概念，用来预测类型标志未知的对象类。） E.g., classify countries based on climate, or classify cars based on gas mileage（比如:按气候将国家分类，按汽油消耗定额将汽车分类） Presentation: decision-tree, classification rule, neural network（导出模型的表示:判定树、分类规则、神经网络） Pr