Web数据挖掘现状分析及技术研究.pdfVIP

下载本文档

1
0
约4.58千字
约 1页
2015-08-16 发布于湖北
举报
版权申诉

Web数据挖掘现状分析及技术研究.pdf

1、本文档共1页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web数据挖掘现状分析及技术研究.pdf

科学论坛 ●l Web数据挖掘现状分析及技术研究吴顺义 (河北联合大学信息工程学院河北唐山 063000) [摘要]web数据挖掘是建立在数据挖掘理论的基础之上的，在庞大的Intemet信息源上快速获取有用信息。目前在世界范围内对web数据挖掘的研究尚处于初级阶段，与国外相比，我国对web挖掘的研究相对较晚。试图对国内关于web数据挖掘的研究与应用现状进行综述l生地介绍，在把握当前研究现状的基础上，明确今后主要的研究方向与重点问题。 [关键词]weh数据挖掘云计算搜索引擎门户网站中图分类号：G655 文献标识码：A 文章编号：1009—914X(2015)07—0289一O1 数据挖掘(DataMining，DM)是指从大量数据中提取或挖“掘”知识，即从中，所以Web结构挖掘是从站点的组织结构和页面结构中推导出知识，找出数存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。据链的结构进行分类、聚类，从而发现页面间的关系，进而改进搜索引擎的性 1。Web挖掘概述能。对于给定的Web文档集合，应该能够通过算法发现它们之间链接情况的有近年来，随着Intemet／Web技术盼陕速普及和迅猛发展，使各种信息能以用信息，文档之间的超链接反映了文档之间的包含、引用或者从属关系，引用文非常低的成本在网络上获得，而从中取得的数据量便难以计算，而且Intemet／档对被引用文档的说明往往更客观、更概括、更准确。 www的发展趋势继续看好，特别是电子商务的蓬勃发展为网络应用提供了强 web结构挖掘在一定程度上得益于社会网络和引用分析的研究。web结构大支持，因此，如何在www这个全球最大的数据集合中发现有用信息，无疑将挖掘的基本思想是将WebN作一个有向图，它的顶点是web页面，页面间的超成为数据挖掘研究的热点。而web挖掘便是指使用数据挖掘技术在www数据链接就是图的边，然后利用图对Web的拓扑结构进行分析。、Veb结构挖掘算法中发现潜在的、有用的模式或信息。它建立在对大量的网络数据进行分析的基一般可分为查询相关算法和查询独立算法两类。查询相关算法需要为每一个查础上，采用相应的数据挖掘算法，在具体的应用模型上进行数据的提取、筛选、询进行一次超链分析从而进行一次值的指派；而查询独立算法则为每个文档仅转换、挖掘和模式分析，最后作出归纳性的推理。Web挖掘研究覆盖了多个研究进行一次值的指派，对所有的查询都使用此值。HITS和PageRank分别是查领域，包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经询相关算法和查询独立算法的代表。他们的共同点是使用一定方法计算Web页网络等。面之间超链接的质量，从而得到页面的权重。著名的Clever$1Google搜索引擎 2．Web挖掘流程就采用了该类算法。与传统数据和数据仓库相比，Web上的信息是非结构化或半结构化的、动 3．3Web使用记录挖掘态的，并且是容易造成混淆的，所以很难直接以web网页上的数据进行数据挖 Web使用记录挖掘也nqWeb日志挖掘或Web$~问信息挖掘，在新兴的电子掘，而必须经过必要的数据处理。典型Web挖掘的处理流程如下：商务领域有重要意义，它通过挖掘相关的Web日志记录，来发现用户访问Web