- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
初探数据挖掘技术在Web中的应用
DATABASE AND INFORMATION MANAGEMENT 数据库与信息管理1 面向Web 的数据挖掘1.1 定义Web 数据挖掘就是利用数据挖掘技术从网络文档和服务中发现和提取信息。它的一般处理过程是:资源风险―信息选择和预处理―模式提取―模式分析。1.2 特点和难点特点Web 上的数据与传统的数据库中的数据不同,Web 上的数据最大特点就是半结构化,所谓半结构化是相对于结构化和非结构化而言的,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据,而且按照一定的组织有规律地集中或者分布存放,结构性很强,而Web 上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计并且数据本身具有自述性和动态可变性,因而Web 上的数据不是强结构性的,但与此同时Web 页面又是有描述层次的,单个网站也是按照各自的结构构架的,从而具有一定的结构性。半结构化数据具有结构是不规则;结构是隐含;结构是部分的有时部分数据根本无结构,而部分数据只有粗略的结构;指示性结构与约束性结构;半结构化数据通常在数据存在之后才能通过当前数据归纳出其结构,称之为事后模式引导5 方面的主要特点。模式有时可被忽略,同时数据与数据模式间的区别逐渐消除。 难点由于Web 数据具有这些特点,所以在数据挖掘中存在着一定的困难。对Web 数据进行挖掘时首先必须解决半结构化数据源模型和半结构化数据模型的查询与集成问题,而解决Web 上异构数据的集成与查询问题,必须要有一个模型来清晰地描述Web 上的数据。另外,针对Web 上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。因此在Web 上进行数据挖掘。必须做到两点:第一要建立一个半结构化数据模型,以描写Web 上的数据;第二需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。面向Web 的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。2 优势2.1 XML 及其特性XML 是由万维网协会(W3C )设计的一种中介标示语言,它提供了描述结构化数据的格式,可以通过独立运行程序的方法来共享数据。同时,XML 又是一种是用来自动描述信息的新的标准语言,它能使计算机通过Internet 的强大功能把信息传递到人类的各种活动中去。 内容与形式的分离在6HTML 中,数据内容和表现形式是混在一起的。这样,当数据的表现形式需要改变时,文档更新的工作量就比较大。而对于XML 文档而言,标记是包含信息的,这些信息对于数据的检索、描述将起到极大的简化作用。利用XML
的这一特性,当数据的表现形式有所改变时,仅需修改从XML 文档中分离出的用于描述数据表现形式的样式单就可以了。 良好的可扩展性XML 允许程序员制定自己的标记集,允许一个行业或某初探数据挖掘技术在Web中的应用周光睿,马骏(新乡广播电视大学计算机教研室,新乡453000 )摘要:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。随着互联网的飞速发展,Web 上的数据量急剧膨胀, 但是其中蕴含的知识却未能得到充分的挖掘和利用,因此将传统的数据挖掘技术和Web 结合起来, 进行Web 数据挖掘成为数据挖掘技术研究的热点。关键词:数据挖掘;XML 技术;Web 应用Brief Talk on Application of Data Mining in Web
原创力文档


文档评论(0)