网络数据挖掘(二).ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络数据挖掘(二)

网络数据挖掘(二) 网络数据挖掘的分类 网络信息内容挖掘 网络内容挖掘即从网络的内容、数据、文档中发现有用信息的过程,这是搜索引擎在网络搜索时的访问对象,WEB内容挖掘是指对WEB页面内容进行挖掘,针对的对象分别是WEB文本信息和WEB多媒体信息 WEB内容挖掘的重点是页面分类和聚类 1、WEB文本挖掘 文本挖掘是从非结构化的文本中发现潜在的知识。文本挖掘处理的对象主要是大量的、无结构的文本信息。文本挖掘的目的是从不同格式的文本中发现有用的知识。 网络上文本数据挖掘的对象是HTML或XML的文档集。 文本挖掘于数据挖掘具有一定的区别 文本挖掘相关技术: 文本分类:就是将自由文本文献自动归入一个或多个事先定义好的类目中。 文本聚类 它事先没有定义好的类,完全依据文献间的相似度,把文献分入到一个或多个类中。 自动摘要 它是一门多学科高度交叉的应用,涉及自然语言处理、信息检索、统计学、认知心理学和人工智能等领域。 文本可视化 就是用二维或三维的图形显示文献集的语义模式,使用户可以迅速的发掘出大型文献中语义关系。 多媒体数据的挖掘 多媒体数据挖掘的特点 1、挖掘对象的复杂性 2、多媒体信息 内容丰富 3、时空相关性 4、知识的表示和解释机制比较困难 5、数据的查询和特征提取通常采用基于内容检索法 多媒体数据特征的提取 1、元数据 2、文字注释特征 3、内容特征 4、纹理特征 5、颜色特征 6、形状和空间特征 多媒体数据知识挖掘过程 1、数据准备 2、媒体数据知识挖掘 3、知识表示与解释 4、挖掘结果表示方法 挖掘的知识必须以可理解的方式呈现给用户,不同的知识用不同的表示方式,如:柱状图形、网格为底的立柱群、分类树、表格或坐标图 网络信息结构的数据挖掘 有向连接图,典型的web结构挖掘算法 网络数据挖掘案例分析 案例1: 我国电子商务网站访问量与链接量相关系的实证研究 分析与结论 1、从数据分析来看。我国电子商务网站规模与访问量正相关 2、我国电子商务网站网页和链接更新量与访问量正相关 3、我国电子商务网站年龄与访问量正相关 4、我国电子商务网站的网络影响因子与访问量负相关 * * * *

文档评论(0)

2232文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档