信息科学技术学院.pptVIP

下载本文档

3
0
约 66页
2017-09-30 发布于北京
举报
版权申诉

信息科学技术学院.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web Mining Wang Jimin Dec. 2, 2005 Outline 1. Web 挖掘 2. Web 数据预处理 3. Web挖掘方法与应用关联规则 4. 用Markov预取Web页面 5．SE日志挖掘与应用格式：清理、预处理挖掘内容：挖掘结果：包括一般的统计特征特征应用1：改进结果排序应用2：得到相近查询 Pku’s Tianwang Pku’s Tianwang A time-series plot of Web requests 用户对Web页面的访问情况和特点 F. Douglis 等研究发现（1997）用户对Web资源的再次访问具有集簇性最显著的是一分钟和一天用户访问的平均时间间隔为25.4个小时，而中间值为1.9小时，标准方差为49.6小时 Web 挖掘 Web 挖掘就是从Web 文档和W eb 活动中抽取感兴趣的潜在的有用模式和隐藏的信息. Jaideep Srivastava: “the process of applying data mining techniques to the discovery of usage patterns from Web data ”. ?万维网是一个巨大、分布广泛、全球性的信息服务中心, 它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务. Web还包含了丰富和动态的超链接信息, 以及Web 页面的访问和使用信息, 这为数据挖掘提供了丰富的资源. 同时,对Web进行有效的资源和知识发现具有极大的挑战性. Web 挖掘是一个具有挑战性的课题 Web的数据量太庞大.如: Web Informall 15T ? 而且仍然在迅速地增长. ?Web 页面的复杂性高于任何传统的文本文档. 如: 文本分类-? Web页面分类需要很多预处理的步骤. Web 是一个动态性极强的信息源. Web 不仅以极快的速度增长, 而且其信息还在不断地发生着更新. 新闻、股票市场、公司广告和Web 服务中心都在不断地更新着各自的页面. 链接信息和访问记录也在频繁地更新之中. ?Web 面对的是一个广泛的用户群体.各个用户可以有不同的背景、兴趣和使用目的. 智能IR ? Web 上的信息只有很小的一部分是相关的或有用的. 据说99% 的Web信息相对99% 的用户是无用的. 个性化？ Web内容挖掘分类 Web内容挖掘（Web content mining） Web结构挖掘（Web structure mining） Web使用记录的挖掘（Web usage mining） Web 内容挖掘一种基于网页内容或其描述中抽取知识的过程。这些数据既有文本数据，也有图像、声频、音频等多媒体数据，既有来自于数据库的结构化数据，也有用Html标记的半结构化数据和无结构的自由文本。对无结构的自由文本的挖掘称之为文本的知识发现；对多媒体文档的挖掘称之为多媒体数据挖掘。包括对搜索引擎的查询结果进行聚类等. Web 结构挖掘从WWW 的组织结构和链接关系中推导知识。由于文档之间的互连,WWW 能够提供除文档内容之外的有用信息. 利用这些信息, 可以对页面进行排序,发现重要的页面（如使用PageRank和CLEVER的Hits算法）。 Web 使用记录挖掘主要目标则是从Web 的访问记录中抽取感兴趣的模式。 WWW 中的每个服务器都保留了访问日志(Web access log) , 它记录了关于用户访问和交互的信息. 分析这些数据可以帮助理解用户的行为, 从而改进站点的结构, 或为用户提供个性化的服务. Web数据尽管Web是一个复杂、异质、动态、庞大的信息源，然而每个服务器都保留了访问日志且有较好的结构，它记录了关于用户访问和交互的信息。 ?这些数据包括： Server Level Collection Client Level Collection Proxy Level Collection Web挖掘的一般过程 : A KDD Process Data mining—core of knowledge discovery process Web挖掘与IR 两种观点：观点一： Web上的IR是Web挖掘的一个方面，仅是对信息有序化。观点二：Web挖掘是智能化的IR，IR出现早，技术成熟。挖掘分析的作用通过对不同的Web站点的访问日志文件数据的挖掘分析，有如下的作用: ?获取用户访问模式信息，帮助理解用户的意图和行为。通过分析用户的存取模式，对搜索引擎的信息分类与索引方式进行重新组织，为用户提供个性化的服务还可确定电子商务的潜在客户群，合理制订网络广告策略