网络数据挖掘(二).pptVIP

  • 0
  • 0
  • 约小于1千字
  • 约 12页
  • 2019-10-24 发布于湖北
  • 举报
网络数据挖掘(二) 网络数据挖掘的分类 网络信息内容挖掘 网络内容挖掘即从网络的内容、数据、文档中发现有用信息的过程,这是搜索引擎在网络搜索时的访问对象,WEB内容挖掘是指对WEB页面内容进行挖掘,针对的对象分别是WEB文本信息和WEB多媒体信息 WEB内容挖掘的重点是页面分类和聚类 1、WEB文本挖掘 文本挖掘是从非结构化的文本中发现潜在的知识。文本挖掘处理的对象主要是大量的、无结构的文本信息。文本挖掘的目的是从不同格式的文本中发现有用的知识。 网络上文本数据挖掘的对象是HTML或XML的文档集。 文本挖掘于数据挖掘具有一定的区别 文本挖掘相关技术: 文本分类:就是将自由文本文献自动归入一个或多个事先定义好的类目中。 文本聚类 它事先没有定义好的类,完全依据文献间的相似度,把文献分入到一个或多个类中。 自动摘要 它是一门多学科高度交叉的应用,涉及自然语言处理、信息检索、统计学、认知心理学和人工智能等领域。 文本可视化 就是用二维或三维的图形显示文献集的语义模式,使用户可以迅速的发掘出大型文献中语义关系。 多媒体数据的挖掘 多媒体数据挖掘的特点 1、挖掘对象的复杂性 2、多媒体信息 内容丰富 3、时空相关性 4、知识的表示和解释机制比较困难 5、数据的查询和特征提取通常采用基于内容检索法 多媒体数据特征的提取 1、元数据 2、文字注释特征 3、内容特征 4、纹理特征 5、颜色特征 6、形状和空间特征 多媒体数据知识挖掘过程 1、数据准备 2、媒体数据知识挖掘 3、知识表示与解释 4、挖掘结果表示方法 挖掘的知识必须以可理解的方式呈现给用户,不同的知识用不同的表示方式,如:柱状图形、网格为底的立柱群、分类树、表格或坐标图 网络信息结构的数据挖掘 有向连接图,典型的web结构挖掘算法 网络数据挖掘案例分析 案例1: 我国电子商务网站访问量与链接量相关系的实证研究 分析与结论 1、从数据分析来看。我国电子商务网站规模与访问量正相关 2、我国电子商务网站网页和链接更新量与访问量正相关 3、我国电子商务网站年龄与访问量正相关 4、我国电子商务网站的网络影响因子与访问量负相关 * * * *

文档评论(0)

1亿VIP精品文档

相关文档