Web数据挖掘及常用技术浅谈.docVIP

下载本文档

2
0
约2.56千字
约 5页
2017-08-15 发布于福建
举报
版权申诉

Web数据挖掘及常用技术浅谈.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web数据挖掘及常用技术浅谈

Web数据挖掘及常用技术浅谈摘要：Web挖掘是通过挖掘Web日志记录来发现客户访问Web页面的模式。用户在面对大量的网上信息束手无策时，Web挖掘技术为用户提供了方便快捷的解决方案。关键词：Web 挖掘；数据挖掘引言近年来，Internet在不断地普及，WWW在迅速地发展，人们可以通过网络方便地得到自己需要的信息，但是网上信息的大量涌现使得用户经常感到束手无策，甚至常常不知道如何查找自己所需要的信息，用户为此苦恼万分。Web数据挖掘技术提供一个很好的解决方法，它不但可以为访问用户提供方便，而且对提高站点效率、吸引客户等都有很大的帮助。在现实当中人们常常将Web挖掘与Web信息检索或信息抽取等同起来。实际上它们不是等同的，并且是有区别的：一、信息检索只能以关键词去查找与关键字匹配的简单目标，如果用户给出的不是关键字，而是信息样本，这时信息检索就无法满足用户的要求，但是挖掘系统是可以满足用户要求的，它能够从文本中提取出目标信息的特征，然后根据目标特征在网络中有目的地进行搜索，最后将搜索结果返给用户。二、信息检索实际上是在一定的领域内对特定的信息进行查找和检索，在某种程度上可以看作是Web挖掘中文档分类的一种特殊情况。三、信息检索只是一部分使用到了数据挖掘技术，正是因为这样，在信息检索中在一般情况下是很难发现隐式的数据联系，而Web挖掘却不同，它能从大量看似无关的数据中发现数据联系和知识，并对于决策给予支持。 1 Web挖掘 Web挖掘是利用数据挖掘技术从Web页面内容、页面之间的关系与结构、用户的访问记录等Web数据中提取满足用户目标的有用知识、有用信息，以便为Web用户的访问提供方便或为网站经营者改善站点结构提供决策支持等[1]。Web挖掘不是一个单一的技术，涉及互联网技术、统计学、信息学等多个领域[2]。Web挖掘过程可分为多个处理阶段：确定挖掘目标、准备源数据、数据选择及数据预处理、数据挖掘及模式识别、分析评价等阶段。传统数据库中的数据都是结构化的数据，而Web上的数据是半结构化的，半结构化是相对于数据库中的结构化数据而言的。由于Web的异构性、动态性与开放性等特点，要从这些分散的、没有统一管理的、异构的大量数据中准确、迅速地获取信息是Web挖掘要解决的问题，这也决定了在进行Web挖掘时不能完全依赖于数据库的挖掘技术。面向Web的数据挖掘比面向数据库的数据挖掘要复杂很多，进行Web挖掘要考虑很多问题[3]。 1.数据来源分析。进行Web挖掘时所需要的数据主要来自于三个方面：Web服务器上记录的访问日志、Web服务器上的页面所包含的信息以及客户的相关资料信息。用户访问Web 站点时，站点会记录其访问记录。借助一些工具可以处理和分析Web服务器上的日志文件从而得到有意义、有价值的信息。Web服务器还可以记录用户其他的访问信息，例如：Cookie和用户提交的查询信息等。与此同时，服务器也记录文件的相关属性，例如文件的创建者、修改时间等。而注册用户的资料信息存储在资料数据库中，内容如：客户的姓名、年龄，对于产品的看法，顾客的个人偏好等。Web挖掘的一个难点就是如何从非结构化数据信息中进行有效地信息和数据挖掘。 2.异构数据库环境。从数据库角度来看，Web网站上的信息也可以被当作一种特殊的、复杂的数据库。互联网上的任何站点都是数据源，而且都是异构的数据源，因而站点之间的信息和组织都是有差别的，这就构成了一个巨大的异构数据库环境。如果想在这个巨大的异构数据库上进行数据挖掘必须解决几个问题。第一，必须要想办法把这些分布的数据集成起来，只有将这些不同站点的数据都集成在一起，提供给用户一个统一的视图，才有可能从巨大的数据资源中获取所需的信息或知识。第二，还要解决Web上的数据查询问题，如果不能快速、准确地查找这些数据，就不能对这些数据进行分析、集成和处理。 3.半结构化的数据结构。数据库中的数据和Web上的数据有着很大的不同，数据库中的数据都是根据一定的数据模型来进行具体描述的。而Web上的数据则不同，它没有特定的数据模型来描述，各Web站点的数据是独立设计出来的，之间的差异很大，并且在自述性和动态性上也表现得相当的大的差异。因而，Web上的数据的结构性不是很强，只能说有一定的结构性，同时因自述层次的存在，Web上的数据是一种非完全结构化的或者是半结构化数据。半结构化是Web上数据的最大特点。 4.半结构化的数据源问题的解决。由于数据源的特殊性，要进行Web数据挖掘第一步就建立半结构化数据源模型和半结构化数据模型，解决其中的集成和查询难题。这就必须要建立一个模型来来对Web上的数据进行描述。Web上的半结构化的数据需要定义一个半结构化的数据模型和模型的抽取技术来对现有数据自动地的抽取半结