- 1、本文档共80页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
web数据挖掘__1课程简介讲解
监督学习 – 分类(Classification) * 分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。 引例 Age Salary Class 30 high c1 25 high c2 21 low c2 43 high c1 18 low c2 33 low c1 … … … 描述属性 类别属性 分类问题使用的数据集格式: Classification—A Two-Step Process 模型构造阶段: describing a set of predetermined classes 假定每个元组/样本都属于某个预定义的类,这些类由分类标号属性所定义 用来构造模型的元组/样本集被称为训练集(training set) 模型一般表示为:分类规则, 决策树或者数学公式 * 模型使用阶段: for classifying future or unknown objects 估计模型的准确性 用一些已知分类标号的测试集和由模型进行分类的结果进行比较 两个结果相同所占的比率称为准确率 测试集和训练集必须不相关 如果准确性可以接受的话, 使用模型来对那些不知道分类标号的数据进行分类。 Classification—A Two-Step Process * Classification Process (1): Model Construction Training Data Classification Algorithms Classifier (Model) * Classification Process (2): Use the Model in Prediction Classifier Testing Data Unseen Data (Jeff, Professor, 4) Tenured? * 无监督学习 -- 聚类(Clustering) 聚类(Clustering)是将物理或抽象的对象集合分成多个组的过程,聚类生成的组称为簇(Cluster),即簇是数据对象的集合。聚类就是要让生成的簇内部的任意两个对象之间具有较高的相似度,而属于不同簇的两个对象间具有较高的相异度。 * 聚类分析 * 数据挖掘关心聚类算法的特性 处理不同类型属性的能力 对大型数据集的可扩展性 处理高维数据的能力 发现任意形状簇的能力 处理孤立点或“噪声”数据的能力 对数据顺序的不敏感性 对先验知识和用户自定义参数的依赖性 聚类结果的可解释性和实用性 基于约束的聚类等 * 主要的数据挖掘聚类方法 划分的方法 层次的方法 基于密度的方法 基于网格的方法 基于模型的方法等 * 时序数据及序列模式挖掘 时序数据库 由随时间变化的序列值或事件组成的数据库 数据在等时间间隔内记录 时间序列的特征组成 趋势,循环,季节性,非规则 应用 财政方面:股票价格,通货膨胀 生物医学方面:血压 气象:降水 * 时序数据和序列数据的挖掘 * 时序数据和序列数据挖掘:趋势分析 时序序列可以用时序序列图来表示,它描述了一点随时间变化的情况 时序数据变化的分类 长期或趋势变化(趋势曲线) 循环变动或循环变化,如,商业循环 季节性变动或季节性变化 换句话说,它是指近似同一的模式,在连续几年的有关月份期间重复出现 非规则或随机变化 * 第一章 概述 * 什么是WWW 网络数据的特点 Web数据挖掘 什么是数据挖掘 什么是Web数据挖掘 数据挖掘与Web挖掘 * 传统的数据挖掘在结构化数据上进行 关系型表格 电子表格 以表格形式存储的纯文本 随着WWW和文本文件规模的不断增大,Web挖掘和文本挖掘变得越来越重要 Web数据挖掘的目标 * 从Web上寻找有价值的信息 Hypertext 网页内容 使用日志 Web挖掘的分类 * Web结构挖掘 Web内容挖掘 Web使用挖掘 Web结构挖掘 * 从WWW 上的组织结构和链接关系中推导知识 超文本文档间的关联关系使得WWW 不仅仅可以揭示文档中所包含的信息, 同时也可以揭示文档间的关联关系所代表的信息 利用这些信息可以对页面进行排序, 发现重要的页面 挖掘Web 结构的目的是发现页面的结构和Web结构, 在此基础上对页面进行分类和聚类, 从而找到权威页面 Web内容挖掘 * 直接挖掘文档内容 对搜索引擎查询结果的进一步处理 Web 查询语言 WebOQL 是一个用于Web 页重构的查询语言, 利用Web 文档的图树表示形式, 可从在线的文档站点或导游指南中获取信息 Ahoy 利用像搜索引擎一类的互联网服务来获取与个人有关的服务, 利用试探法识别文档中显示该文档作为个人主页的句法特征 Web使用挖掘 * 主要目标是从Web的访问记录中抽取感兴趣
您可能关注的文档
最近下载
- 【精心整理】16第十六讲:作文审题立意(12页).docx VIP
- 最新2024医疗器械经营质量管理规范试题与答案 .pdf VIP
- 2025考研英语一真题及答案.pdf
- 2025年江苏对口单招语文模拟试卷答案1 .pdf VIP
- 2024重庆市公安局辅警岗位招聘笔试参考题库含答案解析.pdf VIP
- 2024年湖南省湘潭市小升初数学模拟试卷及答案解析.docx
- 基于核心素养的小学第三学段语文校本作业设计策略研究--以厦门市S小学为例.pdf
- 律师诉讼方案.docx
- 河南省洛阳市洛龙区2023-2024学年部编版七年级下学期期中考试历史试卷.docx VIP
- 《GPIR复合板外墙防火保温系统建筑构造》.pdf VIP
文档评论(0)