数据挖掘技术探讨及其基于web应用研究.docVIP

下载本文档

2
0
约3.21千字
约 8页
2018-09-10 发布于福建
举报
版权申诉

数据挖掘技术探讨及其基于web应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘技术探讨及其基于web应用研究

数据挖掘技术探讨及其基于web应用研究　　[摘要]web上有海量的数据信息，怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容，解决数据的应用质量问题。充分利用有用的数据，废弃虚伪无用的数据，是数据挖掘技术的最重要的应用。论述web数据挖掘的基本概述，基本原理，然后讨论web数据挖掘的实现，最后对web数据挖掘的应用进行阐述。　　[关键词]数据挖掘 web 应用　　中图分类号：TP3 文献标识码：A 文章编号：1671－7597（2008）1120071－01 　　　　一、引言　　　　在网络环境下，人们可以借助互联网上丰富的信息资源、功能强大的搜索引擎和快捷的传送手段，使文献资料的搜集和获取变得十分容易，然而在使用中，人们也发现要准确、快速地查找自己所需的信息却是越来越困难。Web数据挖掘应运而生，web挖掘指使用数据挖掘技术在www数据中发现潜在的、有用的模式或信息。web挖掘研究覆盖了多个研究领域，包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等，数据挖掘技术不仅能够对过去的数据进行查询和遍历，并且能够找出数据间的潜在联系，从而促进信息的传递。他使数据库技术进入一个更高的阶段。　　　　二、web数据挖掘概述和基本原理　　　　（一）web数据挖掘概念。web数据挖掘是一项综合技术，是从www资源上抽取信息(或知识)的过程，是对web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。他反复使用多种数据挖掘算法，从观测数据中确定模式或合理模型，也是将数据挖掘技术和理论应用于对www资源进行挖掘的一个新兴的研究领域。 web数据挖掘从数据挖掘发展而来，都是在分析大量数据的基础上，做出归纳性的推理，预测客户的行为，帮助企业的决策者调整市场策略、减少风险并做出正确决策的过程。web数据挖掘可以在很多方面发挥作用，如对搜索引擎的结构进行挖掘，确定权威页面， web文档分类、web log挖掘、智能查询、建立MetaWeb数据仓库等。　　（二）web数据挖掘的分类。根据挖掘的对象不同，web数据挖掘可以分为Web内容挖掘(Web content mining)、Web结构挖掘(Web structure mining)以及Web使用记录的挖掘(Web usage mining)。　　（三）web数据挖掘中主要技术。Web数据挖掘中常用的技术有Web使用的特有的路径分析技术，数据挖掘领域常用的关联规则、序列模式、分类聚类技术等。　　（四）web数据挖掘的基本原理。web数据挖掘的基本原理：目标数据集就是根据用户要求，从web资源中提取的相关数据，web数据挖掘主要从这些数据通信中进行数据提取；预处理是从目标数据集中除去明显错误的数据和冗余的数据，进一步精简所选数据的有效部分，并将数据转换成有效形式，以使数据开采算法(包括选取合适的模型和参数)寻求感兴趣的模型，并用一定的方法表达成某种易于理解的形式;模式分析是对发现的模式进行解释和评估，必要时需返回前面处理中的某些步骤以反复提取，最后将发现的知识以能理解的方式提供给用户。　　　　三、Web数据挖掘的实现　　　　Web上有海量的数据信息，面对Web的数据挖掘是一项复杂的技术，面向Web的数据挖掘成了一个难以解决的问题。由于扩展标记语言XML(Extensible 　　 Markup Language)能够使不同来源的结构化数据很容易地结合在一起，因而使搜索多样、不兼容的数据库成为可能，XML的出现为解决Web数据挖掘的难题带来了机会。　　与传统数据和数据仓库相比，Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的，所以很难直接以Web网页上的数据进行数据挖掘，而必须经过必要的数据处理。典型Web挖掘的处理流程如下：　　1．查找资源：任务是从目标Web文档中得到数据，值得注意的是有时信息资源不仅限于在线Web文档，还包括电子邮件、电子文档、新闻组，或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。2．信息选择和预处理：任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。3．模式发现：自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。4．模式分析：验证、解释上一步骤产生的模式。可以是机器自动完成，也可以是与分析人员进行交互来完成。　　　　四、数据挖掘基于web的应用　　　　Web数据挖掘已广泛地应用于金融业、电力、电信、科研、制造业、零售以及医疗服务中，对他的应用