Web数据挖掘的现状分析及技术的研究.docVIP

下载本文档

49
0
约3.35千字
约 7页
2018-10-11 发布于福建
举报
版权申诉

Web数据挖掘的现状分析及技术的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web数据挖掘的现状分析及技术的研究

Web数据挖掘的现状分析及技术的研究　　[摘要]Web数据挖掘是建立在数据挖掘理论的基础之上的，在庞大的Internet信息源上快速获取有用信息。目前在世界范围内对Web数据挖掘的研究尚处于初级阶段，与国外相比，我国对Web挖掘的研究相对较晚。试图对国内关于Web数据挖掘的研究与应用现状进行综述性地介绍，在把握当前研究现状的基础上，明确今后主要的研究方向与重点问题。　　[关键词]Web数据挖掘云计算搜索引擎门户网站　　中图分类号：G655 文献标识码：A 文章编号：1009-914X（2015）07-0289-01 　　数据挖掘（Data Mining，DM）是指从大量数据中提取或“挖掘”知识，即从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。　　1.Web挖掘概述　　近年来，随着Internet/Web技术的快速普及和迅猛发展，使各种信息能以非常低的成本在网络上获得，而从中取得的数据量便难以计算，而且Internet/WWW的发展趋势继续看好，特别是电子商务的蓬勃发展为网络应用提供了强大支持，因此，如何在WWW这个全球最大的数据集合中发现有用信息，无疑将成为数据挖掘研究的热点。而Web挖掘便是指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。它建立在对大量的网络数据进行分析的基础上，采用相应的数据挖掘算法，在具体的应用模型上进行数据的提取、筛选、转换、挖掘和模式分析，最后作出归纳性的推理。Web挖掘研究覆盖了多个研究领域，包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。　　2.Web挖掘流程　　与传统数据和数据仓库相比，Web上的信息是非结构化或半结构化的、动态的，并且是容易造成混淆的，所以很难直接以Web网页上的数据进行数据挖掘，而必须经过必要的数据处理。典型Web挖掘的处理流程如下：　　（1）查找资源。从目标Web文档中得到数据。这些信息资源不仅限于在线Web文档，还包括电子邮件、电子文档、新闻组或者网站的日志数据甚至是通过Web形成的交易数据库中的数据等。（2）信息选择和预处理。从取得的Web资源中剔除无用信息，将信息进行必要的整理。例如，从Web文档中自动去除广告连接和多余格式标记、自动识别段落或者字段，并将数据组织成规整的逻辑形式甚至是关系表。（3）模式发现：自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。（4）模式分析：验证、解释上一步骤产生的模式。可以是机器自动完成，也可以是与分析人员进行交互来完成。　　3.Web数据挖掘的分类　　Web数据挖掘是一项具有挑战性的课题，它实现对Web存取模式、结构和规则以及动态的Web内容的查找。一般来说，Web数据挖掘可分为4类：Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘。其中，Web内容挖掘、Web结构挖掘和Web使用记录挖掘是Web1.0时代就已经有了的，而Web用户性质挖掘则是伴随着Web2.0而出现的。　　3.1 Web内容挖掘　　Web内容挖掘指从Web内容、数据、文档中发现有用信息，主要包括文本挖掘和多媒体挖掘两类，其对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。　　目前，Web内容挖掘一般从两个不同的观点来进行研究：一种是从资源（IR）查找的方面来看，即从用户的角度出发，研究怎样提高信息质量和帮助用户过滤信息。这方面的研究大部分都是建立在词汇袋（bag of words）或称向量表示法（vector representation）的基础上，它将单个的词汇看成文档集合的属性，只从统计的角度将词汇孤立地看待，而忽略该词汇出现的位置和上下文环境。这种方法的弊端是自由文本中的数据丰富，词汇量非常大，处理起来很困难，为解决这个问题人们作了相应的研究，采取了不同技术，如信息增益、差异比等。　　另外一种是从数据库（DB）的观点进行Web内容挖掘，主要是试图建立Web站点的数据模型并加以集成，以支持复杂查询，而不只是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web知识库来实现。数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。　　3.2 Web结构挖掘　　Web结构挖掘的对象是Web本身的超链接，即对Web文档的结构进行挖掘。由于有用的知识不仅包含在Web页面的内容中，而且也包含在页面的结构中，所以Web结构挖掘是从站点的组织结构和页面结构中推导出知识，找出数据链的结构进行分类、聚类，从而发现页面间的关系，进而改进搜索引擎的性能。对于给定的Web文档集合，应该能够通过算法发现它们之间链接情况的有用信息，文档之间的超链接反映了文档之间的包含、引用或者从属关系，