- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
教学课件讲义PPT教学教案培训资料医学中小学上课资料
第7章 Web 挖 掘 ;7.1 Web挖掘的分类及其数据来源 ;图7-1 Web挖掘的分类; 1. Web内容挖掘
Web内容挖掘是指对Web页面内容进行挖掘,从Web文档的内容信息中抽取知识。Web内容挖掘的对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。 Web内容挖掘的重点是文本的特征、 分类和聚类。 Web挖掘的一个研究热点是针对无结构化文本进行的文本挖掘; Web多媒体数据挖掘正成为另一个研究热点。; Web内容挖掘一般从两个不同的观点来进行研究。 从资源查找(IR)的观点来看, Web内容挖掘的任务是从用户的角度出发, 提高信息质量和帮助用户过滤信息。 这里的非结构化文档主要指Web上的自由文本, 包括小说、 新闻等。 而从数据库(DB)的观点来看, Web内容挖掘的任务主要是试图对Web上的数据进行集成、 建模, 以支持对Web数据的复杂查询。 数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。 这些问题可以分为三类: Web信息的建模和查询、 信息抽取与集成、 Web站点建构和重构。
; 2. Web结构挖掘
Web结构挖掘主要是通过对Web站点的超链接结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。Web结构挖掘可用于发现Web的结构和页面的结构及其蕴含在这些结构中的有用模式;对页面及其链接进行分类和聚类,找出权威页面;发现Web文档自身的结构,这种结构挖掘能更有助于用户的浏览,也利于对网页进行比较和系统化。Web结构挖掘可细分为超链接挖掘、 URL挖掘和内部结构挖掘三种。 ; Web结构挖掘在一定程度上得益于社会网络和引用分析的研究。 把网页之间的关系分为incoming连接和outgoing连接, 运用引用分析方法找到同一网站内部以及不同网站之间的连接关系。 在Web结构挖掘领域最著名的算法是HITS算法和PageRank算法。 它们的共同点是使用一定方法计算Web页面之间超链接的质量, 从而得到页面的权重。 著名的Clever和Google搜索引擎就采用了该类算法。 ; 此外, Web结构挖掘的另一个尝试是在Web数据仓库环境下的挖掘, 包括通过检查同一台服务器上的本地连接衡量Web结构挖掘Web站点的完全性,在不同的Web数据仓库中检查副本以帮助定位镜像站点,通过发现针对某一特定领域超链接的层次属性去探索信息流动如何影响Web站点的设计。 ; 根据数据来源、 数据类型、 用户数量、 数据集合中的服务器数量等将Web使用挖掘分为五类:
(1) 个性挖掘:针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习惯、个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化服务。
(2) 站点修改:通过挖掘用户的行为记录和反馈情况为站点设计者提供改进的依据,比如页面连接情况应如何组织、哪些页面应能够直接访问等。
(3) 系统改进: 通过用户的记录发现站点的性能缺点,以提示站点管理者改进Web缓存策略、网络传输策略、 流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点安全性, 这在电子商务环境下尤为重要。; (4) Web特征描述: 通过用户对站点的访问情况统计各个用户在页面上的交互情况, 对用户访问情况进行特征描述。
(5) 智能商务:电子商务销售商关心的重点是用户怎样使用Web站点的信息,用户一次访问的周期可分为被吸引、驻留、购买和离开四个步骤,Web使用挖掘可以通过分析用??点击流等Web日志信息挖掘用户行为的动机,以帮助销售商安排销售策略。
;7.1.2 Web数据来源
Web使用挖掘所涉及的数据源包括:服务器端的数据记录、客户端的数据记录和代理端的数据使用记录。 Web使用挖掘通过挖掘Web日志记录进行,这些记录包括:网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户
提问式等。直接对Web Server的日志文件或日志行为进行统计分析处理, 包括几乎所有的LOG属性项, 如client host、 remote user、 request time、 server name/server ip、 timelength、 byte received、 bytes ended、 status、 request、 URL, 这些属性项之间可以单独进行统计分析, 也可以适当地以一定的逻辑关系组合起来进行统计分析。 ;7.2 Web日志挖掘 ; Web日志挖掘是一种很重要的信息获取方式, 它挖掘的数据一般是在用户和网络交互的过程中抽取出来的第二手的数据。 这些数据包括: W
文档评论(0)