- 1
- 0
- 约10千字
- 约 79页
- 2019-06-17 发布于天津
- 举报
不能预览其他用户文档
1.应用于特定领域的专用数据挖掘工具 专用数据挖掘工具针对某个特定领域的问题提供解决方案。 在算法设计方面,充分考虑到数据、需求的特殊性,并进行优化。 例如:IBM公司的Advanced Scout系统,针对NBA数据,帮助教练优化战术组合、 2.应用面较广的通用数据挖掘工具 通用数据挖掘工具处理常见的数据类型,采用通用的数据挖掘算法,提供较为通用的处理模式,如:分类模式、回归模式、时间序列模式、聚类模式、关联模式等。 例如:IBM公司的QUEST系统、SGI公司的MineSet系统、加拿大Simon Fraser大学的DBMiner、美国Business Objects公司的Business Miner系统、SAS公司的SAS EM(Enterprise Miner)系统等。 数据挖掘的发展 目前,国内外很多大学、研究机构和公司都已经在这个方面进行了实质性的研究和产品开发。 今后研究的焦点可能有:研究专门用于知识发现的数据挖掘语言;研究Internet上的数据挖掘方法;对各种非结构化数据,如:文本数据、图形图象数据、多媒体数据的挖掘;研究数据挖掘与数据仓库相结合的方式,数据挖掘与数据仓库一体化的研究等。 7.3 WEB数据挖掘 一、 Web挖掘的处理流程 二、 Web数据挖掘分类 三、 Web数据挖掘应用前景 Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。 与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理 一、 Web挖掘的处理流程 1.查找资源 2.信息选择和预处理 :从取得的Web资源中剔除无用信息和将信息进行必要的整理 3.模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。 4.模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。 研究方向 随着Web技术的发展,基于Web技术的信 息获得(IR)、信息抽取(IE) 得到了更多的重视。 由于Web 数据量非常大,而且可能动态变化,目前的研究方向是用自动化、半自动化的方法在Web上进行IR和IE。 在 Web环境下既要处理非结构化文档,又要处理半结构化的数据,最近几年在这两方面都有相应的研究成果和具体应用,特别是在大型搜索引擎中得到了很好的应 用。 二、 Web数据挖掘分类 1、Web内容挖掘(Web Content mining)、 2、Web结构挖掘( Web structure mining)、 3、Web 用法挖掘(Web usage Mining) 1、Web内容挖掘 从Web内容/数据/文档中发现有用信息 Web内容挖 掘的对象包括文本、图象、音频、视频、多媒体和其他各种类型的数据。 针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现(KDT)领域,也 称文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域,也引起了许多研究者的关注。 最近在Web多媒体数据挖掘方面的研究成为另一个热点。 1、Web内容挖掘 Web 内容挖掘一般从两个不同的观点来进行研究。 从资源查找(IR)的观点来看,Web内容挖掘的任务是从用户的角度出发,怎样提高信息质量和帮助用户过滤信 息。 而从DB的角度讲Web内容挖掘的任务主要是试图对Web上的数据进行集成、建模,以支持对Web数据的复杂查询。 1.1从资源查找(Information Retrival)的观点挖掘非结构化文档 非 结构化文档主要指Web上的自由文本,包括小说、新闻等。在这方面的研究相对比较多一些,大部分研究都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上 用资源查找的观点挖掘半结构化文档:与非结构化数据相比,Web上的半结构化文档挖掘指在加入了HTML、超连接等附加结构的信息上进行挖掘,其应用包括超连接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等 1.2从数据库(Database)的观点挖掘非结构化文档 数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。这些问题可以分为三类:Web信息的建模和查询;信息抽取与集成;Web站点建构和重构。 从数据库的观点进行Web内容挖掘主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而不止是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web数据仓库或Web知识库或虚拟数据库来实现。相关研究主要是基于半结构化数据进行的 2、Web结构挖掘 Web结构挖掘的对象是Web本身的超连接,即对Web文
您可能关注的文档
- 我们以牛顿第二运动定律决定在地表附近自由落体的终端速度.ppt
- 我们如何确定输电电压.ppt
- 我国外交政策的制定和完善1.ppt
- 房屋检测申请委托书-房屋鉴定.doc
- 手持终端快递员-收派宝.ppt
- 扩展分区与逻辑分区.ppt
- 扩散渗析回收废酸-富译环保工程.ppt
- 找到加密狗所在的文件夹-策城软件.doc
- 投标函-常熟农商银行.doc
- 投标文件格式-国信招标.doc
- (正式版)DB33∕T 2574-2023 《 数字乡村建设规范 》.pdf
- (正式版)DB33∕T 2554-2022 《“GM2D”进口商品数据元 》.pdf
- (正式版)DB33∕T 2573-2023 《 助残护理员照护服务规范 》.pdf
- (正式版)DB33∕T 2542-2022 《餐饮计量规范 》.pdf
- (正式版)DB33∕T 2558.1-2022 《林下套种菌药生产技术规程 第1部分:大球盖菇》.pdf
- (正式版)DB33∕T 2558.3-2022 《林下套种菌药生产技术规程 第3部分:羊肚菌 》.pdf
- (正式版)DB33∕T 2575-2023 《 野生猛禽和涉禽安全救护技术规程 》.pdf
- (正式版)DB33∕T 2544-2022 《森林人家建设规范》.pdf
- (正式版)DB33∕T 310010-2021 《沿海防护林生态效益监测与评估技术规程》.pdf
- (正式版)DB33∕T 3004.1-2015 《农村厕所建设和服务规范 第1部分:农村改厕管理规范 》.pdf
最近下载
- 2023年中国侨联直属事业单位招考聘用模拟备考预测(共1000题含答案解析)检测试卷.docx VIP
- 南京邮电大学 20202021 学年第一学期《 微观经济学》期末考试试卷.pdf VIP
- 四季度互评评价表.docx VIP
- 四季度考试复习题(内部复习使用).docx VIP
- 国家保安员资格考试国家保安员资格考试试题考试卷模拟考试题.docx VIP
- 2025年初中学业水平模拟考试【社会试卷】及答案(浙江省温岭市).pdf VIP
- 文学理论专题 汉语言文学 考试 函授.pdf VIP
- 尼康S8100数码相机使用说明书.pdf
- 邹仲之《组织学与胚胎学》4血液.ppt VIP
- 军队财务检查整改措施.docx
原创力文档

文档评论(0)