- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第9章Web数据挖掘文本挖掘和图像挖掘整理ppt
Web 数据挖掘 Outline Web挖掘概述 web数据挖掘分类 Web数据挖掘中的关键技术 Web数据挖掘的应用 Why Web Mining ? 随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,由于Internet/WWW在全球互连互通,可以从中取得的数据量难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,如何在WWW这个全球最大的数据集合中发现有用信息无疑将成为数据挖掘研究的热点。 随着Internet的发展,Web数据挖掘有着越来越广泛的应用,Web数据挖掘是数据挖掘技术在Web信息集合上的应用。 Web挖掘概述 Web上有少量的数据信息,相对于传统的数据库的完全结构化的数据,Web上的数据最大特点就是半结构化。 由于Web的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息也成为Web挖掘所要解决的一个难点,也使得用于Web的挖掘技术不能照搬用于数据库的挖掘技术。 因此,开发新的Web挖掘技术以及对Web文档进行预处理以得到关于文档的特征表示,便成为Web挖掘的重点。 典型的Web挖掘的处理流程 1.查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。 2.信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。 3.模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。 4.模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。 Web挖掘的IR和IE过程 Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(Information Retrieval)和信息抽取IE(Information Extraction)相当重要。 信息获得(IR)的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合,而信息抽取(IE)的目的在于从文档中找到需要的数据项目,它对文档的结构合表达的含义感兴趣,它得一个重要任务就是对数据进行组织整理并适当建立索引。 由于Web 数据量非常大,而且可能动态变化,用原来手工方式进行信息收集早已经力不从心,目前的研究方向是用自动化、半自动化的方法在Web上进行IR和IE。 2 web数据挖掘分类 Web 数据有三种类型,:HTML 标记的Web 文档数据、Web文档内的链接的结构数据和用户访问数据。 相应地Web 数据挖掘可分为三类: 内容挖掘(Web content mining)、 结构挖掘(Web structure mining) 和用户访问模式挖掘(Web usage mining)。 2.1 Web内容挖掘 Web内容挖掘是从文档内容或其描述中抽取有用信息的过程。 Web内容挖掘的对象包括文本、图象、音频、视频等多媒体和其他各种类型的数据。 其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现领域,也称文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域,也引起了许多研究者的关注。 在Web多媒体数据挖掘方面的研究成为另一个热点,即多模态数据挖掘。 2.1.2 实现方法和策略 Web内容挖掘按实现方法分为两大类:信息检索(IR)方法和数据库方法。且有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。1. 从资源查找(Information Retrival)的观点挖掘非结构化文档: 非结构化文档主要指Web上的自由文本,包括小说、新闻等。 大部分研究都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上,这种方法将单个的词汇看成文档集合中的属性,只从统计的角度将词汇孤立地看待,而忽略该词汇出现的位置和上下文环境。 属性可以是布尔型,根据词汇是否在文档中出现而定,也可以有频度,即该词汇在文档中的出现频率。 这种方法可以扩展为选择终结符、标点符号、不常用词汇的属性作为考察集合。 词汇袋方法的一个弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们做了相应的研究,采取了不同技术,如信息增益,交叉熵、差异比等,其目的都是为了减少属性。 一个比较有意义的方法是潜在语义索引(Latent Semantic Indexing),它通过分
文档评论(0)