- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术在Web环境下应用
数据挖掘技术在Web环境下应用
[摘 要]数据挖掘和World Wide Web是当前计算机科学两个重要的研究领域,将二者结合起来就形成了新的研究领域Web数据挖掘。Web数据挖掘是从WWW上发现和分析有用的信息,帮助人们从WWW中提取知识,改进站点设计,提供个性化服务。本文侧重于Web挖掘系统自身的构建,建立了一个基于数据挖掘技术的Web挖掘系统的原型Web_Dms,为了提供一个实用的Web挖掘工具的模型,帮助人们更有效地从Web上获取知识。最后本文以股票系统为例简要介绍Web挖掘系统原型在实际领域中的一种应用。
[关键词]数据挖掘技术Web挖掘Web_Dms
[中图分类号]TP3[文献标识码]A[文章编号]1007-9416(2010)03-0072-04
1 前言
近年来,Internet的迅速发展,使其成为全球信息传递与共享的日益重要和最具潜力的资源。虽然Internet上有大量的信息,但由于Web是无结构的、动态的,并且Web页面的复杂程度远远超过了文本文件,使人们迫切需要一种能从Web上快速、有效地获取知识的工具。信息检索界开发了许多查找引擎,但其覆盖率有限、精度不高,无法用于Web上潜在知识的发现。Web不仅为新技术的产生开辟了新的领域,也为传统技术的研究提出了新方向。将传统的数据挖掘技术和Web结合起来,从Web文档和Web活动中抽取感兴趣的、潜在的、有用的信息,进行Web挖掘,成为数据挖掘的一个重要和繁荣的子领域。通过Web挖掘,可以帮助人们更有效地从Web中获取知识。Web挖掘从数据挖掘发展而来,与传统的数据挖掘相比又有许多独特之处。传统的数据挖掘的对象限于数据库中的结构化数据,利用关系表格等存储结构来发现知识,而Web挖掘的对象是大量异质、分布、半结构化的Web数据,自身的特殊性决定了Web挖掘无法直接应用传统的数据库领域的挖掘方法和模型[1]。如何解决Web数据规范化和预处理的问题,使挖掘系统与数据库紧密祸合,提供一个集成的信息处理环境,成了Web挖掘的前提。
Web挖掘是一项综合技术,涉及Web,数据挖掘、信息学、计算语言学等多个学科,目前尚属一个较新的研究领域,正处于发展阶段,尚无统一结论。不同领域的研究者对Web挖掘有着不同的理解,项目开发也各有其侧重点。数据挖掘领域的研究往往将重点放在局部的具??挖掘算法的设计、分析和改进上,很少对挖掘系统本身的构建进行讨论,而Web挖掘系统是一个有机的整体,各个部分之间有着密切的关系。单纯地研究算法而不仔细对系统结构进行分析,势必导致各种算法之间的重复工作,不利于多种不同算法的嵌入;而且对算法来讲,只有与系统其他模块紧密结合,才能充分发挥作用。
鉴于目前Web挖掘的研究正处于发展阶段,相关技术不是很成熟,投入实际运作的系统并不多见,而且往往带有很强的专业领域性,一般都针对一种Web对象。因此,有必要构建一个通用的面向多种Web数据的挖掘系统原型,为Web挖掘工具的开发提供一个实用的模型,指导实际的Web挖掘系统的开发,推动Web挖掘理论的研究。
2 Web数据挖掘系统原型
Web_Dms是一个具有基本挖掘功能的面向多种Web数据的挖掘系统原型,它集成了Web内容挖掘和Web使用挖掘,通过设计Web挖掘方法库的调用方法和接口规范,将多种挖掘算法集成为一个单独的模块嵌入系统中,并与系统其他模块间紧密结合,共同完成Web上的数据挖掘。为了更方便地加入和替换挖掘方法,把此方法做成呼叫库的形式,就可以用选项来选择挖掘方法。
Web挖掘系统原型Web_Dms框架如图1所示。
2.1 Web数据挖掘系统原型的工作机理
系统各个模块内部功能相对独立,但它们之间又是相互联系协同工作的。数据采集分类器根据用户要求搜集Web资源,经数据抽取/转换器、预处理器、和过滤器分别处理成相应的数据存储形式供挖掘综合器使用;挖掘综合器根据挖掘要求从算法库中选择适当的方法进行挖掘,并将挖掘结果输出;用户根据自己的满意程度,或结束任务,利用挖掘结果指导相应工作,或调整挖掘要求进入新一轮挖掘。通过维护系统可以加入新的挖掘方法,实现对系统的升级。各模块具体功能如下:
2.1.1 数据采集分类器
从Web上采集数据并分类存储,获得挖掘的对象。针对Web上不同数据资源,可以多种方式提出要求,有关于Web内容的、Web使用的和Web上电子商务交易信息的。其中有关Web内容和Web使用的数据是Web_Dms重点研究的对象。
2.1.2 数据转换/抽取器
利用可扩展标记语言XML的优势,对Web文档进行预处理,建立半结构化数据模型,抽取代表其特征的元数据,用结构化的形式保存,构造基于Web的多层数据库,提供
您可能关注的文档
最近下载
- 传热学(全套714页课件课件).pptx VIP
- 统编版(2024)一年级下册语文4 小公鸡和小鸭子课件.pptx VIP
- 课-铜版纸彩印市场哲学数学原理完全配图手册缠中说禅.pdf VIP
- CQCIO_001—2019软件及信息化工程造价规范(V5.0) 2019 28页.pdf VIP
- 互联网技术全国通信专业技术人员职业水平考试大纲PPT.docx VIP
- (完整版)小学一年级语文教学经验交流.pptx VIP
- (完整版)小学一年级语文教学经验交流.pptx VIP
- 插画人物头像课件.pptx
- 20210820-申万宏源-申万行业分类标准2021版说明.pdf VIP
- 2025年最新全国通信专业技术人员职业水平考试试题和答案.docx VIP
文档评论(0)