教材配套教学时间序列和基于Web的数据挖掘.ppt

下载文档 降价啦

1
0
约4.97千字
约 40页
2018-03-14 发布于天津
举报
版权申诉
保障服务

教材配套教学时间序列和基于Web的数据挖掘.ppt

1、本文档共40页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

教材配套教学时间序列和基于Web的数据挖掘

第二次迭代的计算结果计算两簇之间相似度值的方法——计算两个簇中所有实例平均相似度。 * 第*页，共40页表8.5 凝聚聚类的第二次迭代的相似性值计算结果相似性值 ( ， ) ( ， ) 1 0.609 0.727 0.64 0.609 1 0.27 0.27 0.727 0.27 1 0.36 0.64 0.27 0.36 1 产生两个单实例簇（），（）和一个三实例簇（、、）。继续簇的合并过程直到所有实例合并到一个簇中。 8.2.3 Web使用挖掘 2、Web站点评估使用Web日志数据挖掘的目标（1）网站评估。（2）个性化服务。序列挖掘器（Sequence Miner）关注页面的浏览顺序，从而发现最好的链接顺序。此时的基于Web日志的数据挖掘问题成为了序列识别问题，这类问题使用序列挖掘器算法来解决。 * 第*页，共40页 8.2.3 Web使用挖掘 3、个性化服务基于Web日志的数据挖掘的另一方面目标—— 提供个性化服务（Personalization Service）。 * 第*页，共40页图8.12 基于Web日志的个性化服务模型建立过程 8.2.3 Web使用挖掘使用关联分析和聚类技术产生关联规则或簇，建立用户访问Web站点的使用特征文件（Usage Profiles，UP），使用UP为不同的用户自动提供个性化服务。创建UP的两种Web特征化技术—— 1）使用关联分析生成关联规则，直接创建UP（【例8.3】）。 2）使用聚类技术建立簇，通过对各个簇的解释，发现各个簇中的概念来创建UP。 * 第*页，共40页使用聚类技术创建UP 方法—— ① 计算每个页面浏览对于簇的代表性度量值（式8.3）。 ② 设定一个阈值，只有满足阈值的那些簇才能使用UP。满足阈值的页面作为该簇的代表性浏览页面。 ③ 为每个浏览页面指定一个权值来反映其出现在所有会话实例中的频度，该权值用来计算每个用户的页面浏览推荐值，对于每个用户，只有那些具有推荐值高于阈值的浏览页面才可能作为推荐页面推荐给用户。 * 第*页，共40页式8.3 8.2.3 Web使用挖掘 4、Web 站点自适应使用两种方式调整Web网站结构，增删页面链接。依靠人工完成。使用数据挖掘自动化处理过程。自适应Web站点（Adaptive Web Sites）能够通过数据挖掘学习模型半自动地改进内部结构以及表示方法的Web站点。 * 第*页，共40页 8.3 多模型分类技术 8.3.1 装袋技术（Bagging）使用相同数据集的不同实例子集作为训练实例，建立多个模型用于决策支持。 Leo Breiman 1996年提出; 有指导学习方法。基本思想使用多个模型分类新实例，这多个模型在新实例的分类中拥有相同的权重。用于分类的多个模型都使用了相同的数据挖掘技术来创建，模型之间的区别在于从相同的数据集中选取不同的训练实例。 * 第*页，共40页装袋工作过程（1）从数据集中随机选取若干大小相同的训练数据集。实例用置换方式来取样，使得每个实例可能出现在多个训练集中。（2）应用数据挖掘算法建立每个训练实例的分类模型，N个训练数据集产生N个分类模型。（3）分类未知实例I。将I提交给每个分类器，每个分类器允许投票一次，实例被放在获得最多投票的类中。 * 第*页，共40页 8.3.2 推进技术（Boosting）使用多个模型投票选出新实例的分类技术。 Freund 和 Schapire 1996年提出。比装袋技术更为复杂，不同之处—— （1）每个新模型的建立是基于前面模型的结果，新模型关注于分类前面模型未能正确分类的实例；（2）每个模型被赋予的权重是基于其训练数据上的性能，在未知实例的分类中执行效果较好的模型被赋予了更多的权力。 * 第*页，共40页本章小结 * 第*页，共40页图8.13 第8章内容导图清华大学出版社第8章时间序列和基于Web的数据挖掘时间序列分析基于Web的数据挖掘本章目标 * 第*页，共40页时间序列分析掌握使用神经网络技术和线性回归方法建立预测模型，解决时间序列预测问题。基于Web的数据挖掘了解如何使用数据挖掘技术对Web站点进行自动化评估和提供个性化服务，了解Web站点如何自适应调整。了解多模型应用中两种著名的方法——装袋和推进 8.1 时间序列分析 8.1.1 概述 1、时间序列用时间排序的一组随机变量。（1）根据时间序列值的个数分为一元时间序列和多元时间序列。（2）根据时间的类型分为离散型时间序列和连续型时间序列。（3）根据时间序列中序列的统计特性分为平稳型季节型循环型直线趋势型曲线趋势型 * 第*页