- 24
- 0
- 约1.37万字
- 约 57页
- 2018-11-03 发布于福建
- 举报
第7章 复杂类型据挖掘及其应用
第7章 复杂类型数据挖掘及其应用 7.1数据挖掘未来研究方向 7.2复杂类型数据挖掘 7.3数据挖掘应用 7.4数据挖掘的技术、经济及社会因素 7.5小结 7.1数据挖掘未来研究方向 当前,DM研究迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,才能普遍推广。研究焦点可能会集中到以下几个方面: (1)发现语言的形式化描述。 (2)寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互。 (3)研究在网络环境下的数据挖掘技术(Web Mining),特别是在因特网上建立DM服务器,并且与数据库服务器配合,实现Web Mining。 (4)加强对各种非结构化数据的开采(Data Mining for Audio& Video;处理的数据将会涉及到更多的数据类型。 (5)交互式发现。 (6)知识的维护更新。 7.2复杂类型数据挖掘 热点包括网站的数据挖掘(Web site data mining)、生物信息或基因(Bioinformatics/genomics)的数据挖掘及其文本的数据挖掘(Textual mining)。 7.2.1网站数据挖掘(Web site data mining) 建立起一个电子商务网站并让您的电子商务网站有效益。必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈一个原因是客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。 网络信息检索的智能化 网络智能化的另一个重要方面是网络信息检索的智能化。 由于网络上信息站点的建立和信息的发布是大量的、自由的和无序的,因此,如果没有一个有效的工具,在网络中查找信息就会如同大海捞针。 网络搜索引擎的产生为解决这一问题提供了一个非常有效的手段,因此已经成为网络信息检索的关键技术。 搜索引擎能够帮助检索者是因为它预先对网络的信息进行了分类、索引和摘要。 自动搜索引擎通过专门设计的网络程序自动发现网络上新出现的信息,并对其进行自动分类、自动索引和自动摘要。 人工搜索引擎 1.分类式搜索引擎 搜索引擎将网络上的信息,包括网页、新闻组等按主题进行分类,由用户选择不同的主题来对网络上的信息进行过滤。 2.关键词索引式搜索引擎 核心是一个关键词索引文件,该索引文件是一个倒排文件,每个关键词在索引文件。 智能搜索引擎 人工搜索引擎在网络信息检索中为检索者提供了很大的便利,显著地加快了信息检索的速度和准确性。但是,它却存在一个非常明显的问题:需要发布者主动地人工登记信息。 自动搜索引擎的最大特点就是能够自动获取网络上的信息,它们依靠像“蜘 蛛”一样的程序在网络中不停地爬行和搜索,一旦发现新的信息,便自动对其进行分类,或用关键词对其进行索引,并将分类或索引结果加入到搜索引擎之中。 智能搜索引擎在获取信息时要采用自动分类及自动索引等技术。这些技术均属于是自然语言处理和理解技术。 基于XML的Web数据挖掘 1.Web数据特点 Web上有海量的数据信息,最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。 1)异构数据库环境 2)半结构化的数据结构 3)解决半结构化的数据源问题 基于XML的Web数据挖掘 2.XML与Web数据挖掘技术 以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以很好地兼容原有的Web应用,而且可以更好地实现Web中的信息共享与交换。XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一对应起来,实施精确地查询与模型抽取。 XML作为一种标记语言,有许多特点: (1)简单 (2)开放 (3)高效且可扩充 (4)国际化 基于XML的Web数据挖掘 3. XML在Web数据挖掘中的应用 使用可升级的三层模型,XML可以从存在的数据中产生出来,使用XML结构化的数据可以从商业规范和表现形式中分离出来:数据的集成,发送,处理,显示 促进XML应用: 需要Web客户端在两个或更多异质数据库之间进行通信的应用; 试图将大部分处理负载从Web服务器转到Web客户端的应用; 需
原创力文档

文档评论(0)