数据挖掘技术在Web中应用问题探讨.docVIP

下载本文档

2
0
约3.26千字
约 8页
2018-09-10 发布于福建
举报
版权申诉

数据挖掘技术在Web中应用问题探讨.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘技术在Web中应用问题探讨

数据挖掘技术在Web中应用问题探讨　　摘要：随着数据库技术及万维网(WWW)技术的迅速发展，大量形式各异的复杂类型数据不断涌现。因此数据挖掘面临重要课题是针对复杂类型数据的挖掘，其中Web数据尤为重要。本文通过分析Web数据挖掘的特点及分类，针对常用技术和主要应用方向进行探讨，以其充分发挥web数据挖掘的作用，服务信息化社会。　　关键词：web；数据挖掘；信息服务；常用技术　　　　1 Web数据挖掘的特点　　　　万维网目前是一个巨大的、分布广泛的和全球性的信息服务中心，它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web还包含了丰富和动态的超链接信息，以及Web页面的访问和使用信息，这为数据挖掘提供了丰富的资源。然而，Web挖掘不仅仅是数据挖掘算法在Web数据上的应用，同传统的数据库数据相比，Web数据具有其特殊性，其特点就是数据没有严格的结构模式，含有不同格式的数据(文本、声音、图像等)，面向显示的Html文本无法区分数据类型，并且存在大量的冗余和噪声，同时Web是一个动态性极强的信息源，所以面向Web的数据挖掘研究极具挑战性。　　　　2 Web数据挖掘的分类　　　　2.1 web结构挖掘　　Web结构包括不同网页之间的超链接结构和一个页面内部的树形结构，以及文档URL中的目录路径结构等。Web结构可以用有向图表示，页面对应图中的点，超级链接对应图中的边。通过把Web表示成有向图，可以得到从一个站点的主页到它任意一个定点的最短路径，Robot沿最短路径浏览Web站点，就可以以较小的代价发现较多的文档。HITS、PageRank，以及在链接结构中增加了Web内容信息的HITS改进算法等，主要用于模拟Web站点的拓扑结构，计算Web页面的等级和Web页面之间的关联度，典型的例子是CleverSystem和Google等。　　2.2 Web内容挖掘　　Web内容挖掘是指从Web上的文件内容及其描述信息中获取潜在的、有价值的知识或模式的过程，它分为Web文本挖掘和Web多媒体挖掘。Web文本挖掘可以对Web上大量的文档集合的内容进行总结、分类、聚类、关联分析以及利用Web文档进行趋势分析等。Web多媒体挖掘主要是指通过对Web上的音频、视频数据和图像进行预处理，应用挖掘技术对其中潜在的、有意义的信息和模式进行挖掘的过程。　　2.3 Web访问挖掘　　对于一个网站而言，网页浏览量、点击数、独立IP访问数等参数是反映这个网站用户访问情况的重要指标，通过对网站LOG文件的分析，可以获得网站访问情况的详细统计数据。针对这些统计数据进行的数据挖掘，属于静态的Web访问记录的数据挖掘，可以有效地提高网站的服务。例如：通过分析访问者的来源，可以使一个网站有针对性地提供内容；通过分析每天各个时段访问者人数的变化，网站可以调整每天内容更新的时间。　　　　3 Web数据挖掘的常用技术　　　　Web数据挖掘中常用的技术有数据挖掘领域常用的分类聚类技术、关联规则技术序列模式技术和Web特有的路径分析技术等。　　3.1 分类聚类技术　　数据分类技术可以通过挖掘数据中的某些共同特性从而对数据项进行分类。在Web数据挖掘中，分类技术可以根据捕获的Web访问用户的个人信息或共同的访问模式得出访问某一服务器文件的用户特征。常用的数据分类技术有：判定树归纳、贝叶斯分类和贝叶斯网络、神经网络、基于案例的推理、遗传算法、粗糙集方法和模糊集方法。　　聚类是一个将物理或者抽象对象的集合分组成由类似的对象组成的多个类或簇的过程。聚类分析技术能用于对Web上的文档进行分类，已发现信息。聚类分析能作为一个独立的工具来获得数据分布的情况，观察每个簇的特点，集中对某些簇做进一步的分析。常用的聚类算法大体上可以划分为几类：划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。　　3.2 关联规则挖掘技术　　关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则。在Web挖掘中，关联规则挖掘就是要挖掘出用户在一个访问会话期间从服务器上访问的页面或文件之间的联系，这些页面之间可能并不存在直接的引用关系。最常用的算法是Aprior算法，它从事务数据库中挖掘出最大频繁访问项集，这个项集就是关联规则挖掘出来的用户访问模式。　　3.3 时间序列模式挖掘技术　　时间序列模式数据挖掘就是要挖掘出交易集之间的有时间序列的模式。在网站服务器日志里，用户的访问是以一段时间为单位记载的。经过数据净化和事件交易确认得到一个间断的时间序列，这些序列所反映的用户行为有助于帮助商家印证其产品所处的生命周期阶段。　　3.4 路径分析技术　　用路径