- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Data Mining - Concepts and Techniques CH01.ppt
* * * * * * * * * 。 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * Data Mining: Concepts and Techniques * 流数据 与传统的数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。 主要应用场合 网络监控 网页点击流 股票市场 流媒体…等等 与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。 * Data Mining: Concepts and Techniques * 多媒体数据库 多媒体数据库实现用计算机管理庞大复杂的多媒体数据,主要包括包括图形(graphics),图象(image)、声音(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。 对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。 * Data Mining: Concepts and Techniques * 面向对象数据库和对象一关系数据库 而向对象数据库是而向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现了传统数据库的功能,包括持久性、并发控制、可恢复性、一致性和查询数据库的能力等。 对象一关系数据库基于对象一关系模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。 而向对象数据库和对象一关系数据库中的数据挖掘会涉及一些新的技术,比如处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。 * Data Mining: Concepts and Techniques * 异构数据库和历史(Legacy)数据库 历史数据库是一系列的异构数据库系统的集合,包括各同种类的数据库系统,像关系数据库、网络数据库、文件系统等等。 有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。 对于异构数据库系统,实现数据共享应当达到两点: 一是实现数据库转换;二是实现数据的透明访问。 WEB SERVICE技术的出现有利一于历史数据库数据的重新利用。 * Data Mining: Concepts and Techniques * 文本数据库和万维网 文本数据库存储的是对对象的文字性描述。 文本数据库的分类 无结构类型(大部分的文本资料和网页) 半结构类型(XML数据) 结构类型(图书馆数据) 万维网(www)可以被看成最大的文本数据库 数据挖掘内容 内容检索 WEB访问模式检索 * Data Mining: Concepts and Techniques * Data Mining Functionalities数据挖掘的主要方法 Concept description: Characterization and discrimination(概念/类描述:特性化和区分) Generalize, summarize, and contrast data characteristics, e.g., dry vs. wet regions(归纳,总结和对比数据的特性。比如:对每个月来网站购物超过 5000元的顾客的描述:40一50岁,有正常职业,信用程度良好。) Association (correlation and causality)(关联分析) 发现数据之间的关联规则,这些规则展示属性 - 值频繁的在给定的数据中所一起出现的条件。广泛的用于购物篮或事务数据分析。 Diaper à Beer [0.5%, 75%] Classification and Prediction(分类和预测) Construct models (functions) that describe and distinguish classes or concepts for future prediction(通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。) E.g., classify countries based on climate, or classify cars based on gas mileage(比如:按气候将国家分类,按汽油消耗定额将汽车分类) Presentation: decision-tree, classification rule, neural network(导出模型的表示:判定树、分类规则、神经网络) Pr
您可能关注的文档
- 寂寞高手——中国股市内在规律研究和实战操作
- 秘密规则--股市职业炒盘手自述_(完全篇)
- 投资王道 证券分析实践 txtUMD TXT BRM 格式手机书下
- 一个美国资本家的成长:世界首富沃伦·巴菲特传
- Visual C++ 程序员指南(一).pdf
- 1-semantic deep web-automatic attribute extraction from the
- 2-Automatic Generation of Ontology from the Deep Web.pdf
- A Framework of Deep Web Crawler.pdf
- A Holistic Approach on Deep Web Schema Matching .pdf
- A Machine Learning Approach Classification of Deep Web Sourc
文档评论(0)