web数据挖掘__1课程简介讲解.ppt

下载文档 降价啦

2
0
约1.16万字
约 80页
2017-02-07 发布于湖北
举报
版权申诉
保障服务

web数据挖掘__1课程简介讲解.ppt

1、本文档共80页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

web数据挖掘__1课程简介讲解

监督学习 – 分类（Classification） * 分类是指把数据样本映射到一个事先定义的类中的学习过程，即给定一组输入的属性向量及其对应的类，用基于归纳的学习算法得出分类。引例 Age Salary Class 30 high c1 25 high c2 21 low c2 43 high c1 18 low c2 33 low c1 … … … 描述属性类别属性分类问题使用的数据集格式： Classification—A Two-Step Process 模型构造阶段: describing a set of predetermined classes 假定每个元组/样本都属于某个预定义的类，这些类由分类标号属性所定义用来构造模型的元组/样本集被称为训练集（training set）模型一般表示为：分类规则, 决策树或者数学公式 * 模型使用阶段: for classifying future or unknown objects 估计模型的准确性用一些已知分类标号的测试集和由模型进行分类的结果进行比较两个结果相同所占的比率称为准确率测试集和训练集必须不相关如果准确性可以接受的话, 使用模型来对那些不知道分类标号的数据进行分类。 Classification—A Two-Step Process * Classification Process (1): Model Construction Training Data Classification Algorithms Classifier (Model) * Classification Process (2): Use the Model in Prediction Classifier Testing Data Unseen Data (Jeff, Professor, 4) Tenured? * 无监督学习 -- 聚类（Clustering）聚类（Clustering）是将物理或抽象的对象集合分成多个组的过程，聚类生成的组称为簇（Cluster），即簇是数据对象的集合。聚类就是要让生成的簇内部的任意两个对象之间具有较高的相似度，而属于不同簇的两个对象间具有较高的相异度。 * 聚类分析 * 数据挖掘关心聚类算法的特性处理不同类型属性的能力对大型数据集的可扩展性处理高维数据的能力发现任意形状簇的能力处理孤立点或“噪声”数据的能力对数据顺序的不敏感性对先验知识和用户自定义参数的依赖性聚类结果的可解释性和实用性基于约束的聚类等 * 主要的数据挖掘聚类方法划分的方法层次的方法基于密度的方法基于网格的方法基于模型的方法等 * 时序数据及序列模式挖掘时序数据库由随时间变化的序列值或事件组成的数据库数据在等时间间隔内记录时间序列的特征组成趋势,循环,季节性,非规则应用财政方面:股票价格,通货膨胀生物医学方面:血压气象:降水 * 时序数据和序列数据的挖掘 * 时序数据和序列数据挖掘:趋势分析时序序列可以用时序序列图来表示，它描述了一点随时间变化的情况时序数据变化的分类长期或趋势变化(趋势曲线) 循环变动或循环变化，如，商业循环季节性变动或季节性变化换句话说，它是指近似同一的模式，在连续几年的有关月份期间重复出现非规则或随机变化 * 第一章概述 * 什么是WWW 网络数据的特点 Web数据挖掘什么是数据挖掘什么是Web数据挖掘数据挖掘与Web挖掘 * 传统的数据挖掘在结构化数据上进行关系型表格电子表格以表格形式存储的纯文本随着WWW和文本文件规模的不断增大，Web挖掘和文本挖掘变得越来越重要 Web数据挖掘的目标 * 从Web上寻找有价值的信息 Hypertext 网页内容使用日志 Web挖掘的分类 * Web结构挖掘 Web内容挖掘 Web使用挖掘 Web结构挖掘 * 从WWW 上的组织结构和链接关系中推导知识超文本文档间的关联关系使得WWW 不仅仅可以揭示文档中所包含的信息, 同时也可以揭示文档间的关联关系所代表的信息利用这些信息可以对页面进行排序, 发现重要的页面挖掘Web 结构的目的是发现页面的结构和Web结构, 在此基础上对页面进行分类和聚类, 从而找到权威页面 Web内容挖掘 * 直接挖掘文档内容对搜索引擎查询结果的进一步处理 Web 查询语言 WebOQL 是一个用于Web 页重构的查询语言, 利用Web 文档的图树表示形式, 可从在线的文档站点或导游指南中获取信息 Ahoy 利用像搜索引擎一类的互联网服务来获取与个人有关的服务, 利用试探法识别文档中显示该文档作为个人主页的句法特征 Web使用挖掘 * 主要目标是从Web的访问记录中抽取感兴趣