- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[计算机软件及应用]数据挖掘chap1_绪论
数据挖掘原理与实践 授课教师: 李霞 课件地址:网络课堂进入(请于1周内注册) email: dataming@126.com 办公室:院系办公楼216 课程安排 30%大作业分 10%平时分 60%期末考试分 实验安排 每一个关键知识点配有实验 实验环境: Clementine Weka 课程开设背景 2006级开始开设《数据挖掘》课程 数据挖掘兴趣小组 现有三个年级同学60余人。目前主要研究方向:web挖掘、音乐数据分析(包含歌词和音频)、社会网络分析、作文自动评分等。自2006年10月份开始组建以来,数据挖掘兴趣小组成员取得了系列成绩:获2008年“安利杯”泛珠三角大学生计算机毕业设计作品大赛银奖、广东赛区一等奖,2009年、2010年“安利杯”泛珠三角大学生计算机毕业设计作品大赛广东赛区二等奖、一等奖,2009年、2011年挑战杯广东赛区二等奖、三等奖各一项 ;在核心期刊发表、录用论文10余篇;科研训练项目立项20余项(其中广东省大学生创新实验项目省级3项、校级3项)。完成元搜索引擎、跨语言学术搜索引擎、基于文本聚类的垃圾邮件识别系统、增量式爬虫等应用系统。有4位同学免试攻读本校的硕士研究生,有6位同学分别去了香港、澳大利亚和英国攻读硕士学位。 1.3.2 数据挖掘对象 关系数据库 在关系数据库模型基础上的数据库 。 数据仓库 数据仓库是一个从多个数据源收集的信息储存库,存放在一个一致的模式下。数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support);数据仓库适合于联机分析处理OLAP(On-Line Analysis Processing)。在银行、电信等行业中数据集中后通常需要保存在数据仓库中。 1.3.2 数据挖掘对象 事务数据库 在事务数据库中,每个记录代表一个事务。通常,一个事务包含唯一的事务标识号和组成该事务的项的列表(如,在超市中购买的商品)。超市的销售数据是典型的事务型数据。 事务数据库可能有一些与之关联的附加表,如包含关于销售的其它信息:事务的日期、顾客的ID号、销售者的ID号、连锁分店的ID号等。 1.3.2 数据挖掘对象 空间数据库(Spatial Database) 空间数据库是指在关系型数据库内部对地理信息进行物理存储。 空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。 常见的空间数据库数据类型包括:地理信息系统,遥感图像数据,医学图像数据。 空间数据库具有一些共同的特点:数据量庞大,空间数据模型复杂,属性数据和空间数据联合管理,应用范围广泛。 1.3.2 数据挖掘对象 时态数据库和时间序列数据库 时态数据库和时间序列数据库都存放与时间有关的数据 时态数据库通常存放与时间相关的属性值,如与时间相关的职务、工资等个人信息数据及个人简历信息数据等均属于时态数据库数据。 时间序列数据库存放随时间变化的值序列,如零售行业的产品销售数据、股票数据、气象观测数据等均为时间序列数据。 对时态数据库和时间序列数据库的数据挖掘,通过研究事物发生发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。 1.3.2 数据挖掘对象 流数据 与传统数据库中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的输入数据。 主要应用场合包括:网络监控、网页点击流、股票市场、流媒体等。 与传统数据库相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。 流数据具有以下特点:数据实时到达;数据到达次序独立,不受应用系统所控制;数据规模宏大且不能预知其最大值;数据一经处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价昂贵。 1.3.2 数据挖掘对象 多媒体数据库 主要包括图形(graphics)、图象(image)、音频(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制对象的形式进行存储。对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法包括: 构造多媒体数据立方体 多媒体数据库的多特征提取 基于相似性的模式匹配 1.3.2 数据挖掘对象 文本数据(Text Database ) 文本数据库存储的是对对象的文字性描述。文本数据类型包括: 无结构类型(大部分的文本资料和网页) 半结构类型(XML数据) 结构类型(图书馆数据) 1.3.2 数据挖掘对象 万维网数据(Word Wide Web Data) 万维网(WWW
您可能关注的文档
最近下载
- 《爆炸和火灾危险场所防雷装置检测技术规范GB/T 32937-2016》知识培训.pptx VIP
- 3.1 波的形成 课件-高二上学期物理人教版(2019)选择性必修第一册.pptx VIP
- 《应用密码学》配套教学课件.ppt VIP
- 演讲台风训练.ppt VIP
- 演讲比赛培训方案.pptx VIP
- 演讲台风适用于演讲训练培训.ppt VIP
- 运输企业安全教育培训制度.docx VIP
- JC-T 2027-2010 高纯石英中杂质含量的测定方法—电感耦合等离子体原子发射光谱法.pdf VIP
- 注册安全工程师考试《管理笔记》.docx VIP
- 宁夏平罗县几种典型土壤修正系数的确定.pdf VIP
文档评论(0)