Trawling算法在Web结构挖掘中应用.docVIP

下载本文档

7
0
约3.85千字
约 8页
2018-08-11 发布于福建
举报
版权申诉

Trawling算法在Web结构挖掘中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Trawling算法在Web结构挖掘中应用

Trawling算法在Web结构挖掘中应用　　摘要：在Web信息检索中，如何能够提取出与某个主题信息相关的网页变得异常重要，web结构挖掘作为web数据挖掘的一个重要方面，主要挖掘web潜在的链接结构模式，通过分析一个网页链接和被链接数量以及对象来建立web自身的链接结构模式，可以用于网页归类，本文探讨了Trawling算法在Web结构挖掘中的应用。　　关键词：Trawling算法 web 数据挖掘结构挖掘　　　　0 引言　　随着互联网的飞速发展，人们越来越多地在互联网上发布和获取信息。web已经成为信息制造、发布、加工和处理的主要平台，其涵盖的信息面之广阔、信息量之丰富、都使得它毫无疑问地成为当前最大的信息资源库。随着海量信息涌入万维网，互联网中特有的许多问题，诸如超大规模的非结构化文档数量、良荞不齐的网页质量，包含在文档中的大量多媒体信息，甚至相当含糊或不规范的用户查询表示等，必然给检索数据带来很大的困难。因此，在Web信息检索中，如何能够提取出与某个主题信息相关的网页变得异常重要。将传统的数据挖掘技术跟web结合起来，进行web挖掘活动将更有效的从web中抽取感兴趣的、潜在的、有用的信息。web挖掘是一项综合技术，涉及了统计学、人工智能、模式识别、并行计算、机器学习、数据库等多个领域。web结构挖掘作为web数据挖掘的一个重要方面，主要挖掘web潜在的链接结构模式，通过分析一个网页链接和被链接数量以及对象来建立web自身的链接结构模式，可以用于网页归类，并且可以由此获得有关不同网页间相似度及关联度的信息，有助于用户找到相关主题的权威站点。　　　　　　1 Web数据结构挖掘　　1.1 web数据挖掘 web数据挖掘起源于数据挖掘，数据挖掘(Data Mining)是指从大型数据库的数据中提取人们感兴趣的知识，而这些知识是隐含的、事先未知的、潜在的有用信息。数据挖掘的提出最初是针对大型数据库的，但是从更广泛的角度来讲，数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。因而，数据挖掘的对象不仅仅可以是数据库，还可以是任何组织在一起的数据集合，如www信息资源等。WWW以超文本的形式给用户提供了包含从技术资料、商业信息到新闻报道、娱乐信息等多种类别和形式的信息，可以说是web当今世界上最大的电子信息仓库，蕴含着巨大潜在价值的知识。然而，Internet是一个具有开放性、动态性、异构性的全球分布式网络，资源分布分散，没有统一的管理和结构，这就导致了信息、知识获取的困难，即所谓的Rich Data poor Information的问题。因此，运用现有数据挖掘技术对分布的、异构的web信息资源进行挖掘，就成为了数据挖掘技术的挑战和未来的发展方向，由此产生了基于web的数据挖掘。web数据挖掘(web Data Mining)，简称Web挖掘，是一项综合技术，涉及web、数据挖掘、计算机语言学、信息学、数据库技术等多个领域。web数据挖掘是针对包括web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种web数据源，在一定基础上应用数据挖掘的方法以发现有用的隐含的知识的过程。　　1.2 Web数据结构挖掘在逻辑上可以把Web看作是位于物理网络之上的一个有向图G=(V，E)，其中节点集V对应于Web上的所有文档，而有向边集E则对应于节点之间的超链接(Hyperlink)。对节点集作进一步的划分，V={Vi，Vj}所有的非叶节点Vij是HTML文档，其中除了包括文本以外，还包含了标记以指定文档的属性和内部结构，或者嵌入了超链接以表示文档间的结构关系。叶节点Vi可以是HTML文档，也可以是其他格式的文档。Web上信息的多样性决定了Web知识发现的多样性，当前Web上的信息主要分为三类:①Web页面中的内容，包括文本信息和各种多媒体信息；②Web页面中超链接之间相互引用的数据；③Web服务器上的用户登录网站的访问日志数据。　　由此Web数据挖掘可以分为Web内容挖掘(web Content Mining)、web结构挖掘(Web Strueture Mining)、Web使用挖掘(Web usage Mining)三大类（图1）。　　Web结构挖掘即挖掘Web潜在的超链接结构模式，通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类，并且由此可以获得有关不同网页间相似度及关联度的信息，帮助用户找到相关主题的权威站点。Web结构挖掘的主要内容在于超链接分析，即通过分析页面的链接关系来研究网页的引用关系。超链接分析最早被用于搜索引擎，它的基本原理就是通过统计分析互联网上哪些页面被链接的次数多，那么该网页就被认为是比较重要