信息科学技术学院.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web Mining Wang Jimin Dec. 2, 2005 Outline 1. Web 挖掘 2. Web 数据预处理 3. Web挖掘方法与应用 关联规则 4. 用Markov预取Web页面 5.SE日志挖掘与应用 格式:清理、预处理 挖掘内容: 挖掘结果:包括一般的统计特征特征 应用1:改进结果排序 应用2:得到相近查询 Pku’s Tianwang Pku’s Tianwang A time-series plot of Web requests 用户对Web页面的访问情况和特点 F. Douglis 等研究发现 (1997) 用户对Web资源的再次访问具有集簇性 最显著的是一分钟和一天 用户访问的平均时间间隔为25.4个小时,而中间值为1.9小时,标准方差为49.6小时 Web 挖掘 Web 挖掘就是从Web 文档和W eb 活动中抽取感兴趣的潜在的有用模式和隐藏的信息. Jaideep Srivastava: “the process of applying data mining techniques to the discovery of usage patterns from Web data ”. ?万维网是一个巨大、分布广泛、全球性的信息服务中心, 它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务. Web还包含了丰富和动态的超链接信息, 以及Web 页面的访问和使用信息, 这为数据挖掘提供了丰富的资源. 同时,对Web进行有效的资源和知识发现具有极大的挑战性. Web 挖掘是一个具有挑战性的课题 Web的数据量太庞大.如: Web Informall 15T ? 而且仍然在迅速地增长. ?Web 页面的复杂性高于任何传统的文本文档. 如: 文本分类-? Web页面分类需要很多预处理的步骤. Web 是一个动态性极强的信息源. Web 不仅以极快的速度增长, 而且其信息还在不断地发生着更新. 新闻、股票市场、公司广告和Web 服务中心都在不断地更新着各自的页面. 链接信息和访问记录也在频繁地更新之中. ?Web 面对的是一个广泛的用户群体.各个用户可以有不同的背景、兴趣和使用目的. 智能IR ? Web 上的信息只有很小的一部分是相关的或有用的. 据说99% 的Web信息相对99% 的用户是无用的. 个性化? Web内容挖掘分类 Web内容挖掘(Web content mining) Web结构挖掘(Web structure mining) Web使用记录的挖掘(Web usage mining) Web 内容挖掘 一种基于网页内容或其描述中抽取知识的过程。 这些数据既有文本数据,也有图像、声频、音频等多媒体数据,既有来自于数据库的结构化数据,也有用Html标记的半结构化数据和无结构的自由文本。 对无结构的自由文本的挖掘称之为文本的知识发现;对多媒体文档的挖掘称之为多媒体数据挖掘。 包括对搜索引擎的查询结果进行聚类等. Web 结构挖掘 从WWW 的组织结构和链接关系中推导知识。 由于文档之间的互连,WWW 能够提供除文档内容之外的有用信息. 利用这些信息, 可以对页面进行排序,发现重要的页面(如使用PageRank和CLEVER的Hits算法)。 Web 使用记录挖掘 主要目标则是从Web 的访问记录中抽取感兴趣的模式。 WWW 中的每个服务器都保留了访问日志(Web access log) , 它记录了关于用户访问和交互的信息. 分析这些数据可以帮助理解用户的行为, 从而改进站点的结构, 或为用户提供个性化的服务. Web数据 尽管Web是一个复杂、异质、动态、庞大的信息源,然而每个服务器都保留了访问日志且有较好的结构,它记录了关于用户访问和交互的信息。 ?这些数据包括: Server Level Collection Client Level Collection Proxy Level Collection Web挖掘的一般过程 : A KDD Process Data mining—core of knowledge discovery process Web挖掘与IR 两种观点: 观点一: Web上的IR是Web挖掘的一个方面,仅是对信息有序化。 观点二:Web挖掘是智能化的IR,IR出现早,技术成熟。 挖掘分析的作用 通过对不同的Web站点的访问日志文件数据的挖掘分析,有如下的作用: ?获取用户访问模式信息,帮助理解用户的意图和行为。通过分析用户的存取模式,对搜索引擎的信息分类与索引方式进行重新组织,为用户提供个性化的服务 还可确定电子商务的潜在客户群,合理制订网络广告策略

文档评论(0)

kaku + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8124126005000000

1亿VIP精品文档

相关文档