《基于概念格的多值属性关联规则可视化挖掘》.ppt

《基于概念格的多值属性关联规则可视化挖掘》.ppt

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 欢迎各位评委老师莅临指导 答辩人:郭晓波 导 师:赵书良 教授 日 期:2012-03-29 目 录 研究目的及意义 国内外研究现状及发展趋势 主要研究内容 目前已经完成工作 尚未完成的工作 后期工作安排 * 1 研究目的及意义 关联规则是数据挖掘的重要研究方向,侧重于确定数据库中不同数据之间的关联模式和联系。目前,人们对关联规则的研究主要集中在两个方面: 1)关联规则挖掘算法的研究; 2)可视化关联规则技术的研究。 多数关联规则可视化(VARM,Visual Association Rules Mining)研究工作主要集中在挖掘结果进行可视化,大都存在以下不足: 1)算法不利于处理多值属性数据; 2)缺少挖掘参数调整机制和挖掘过程的交互性与可视化; 3)用户无法选择针对性较强的数据进行关联规则挖掘; 4)关联规则表示形式比较单一,无法实现关联规则多模式展现; 5)不利于表达规则内部项集关系与隐含信息。 * 作为知识的一种可视化的表示形式,概念格已经被人们应用到数据挖掘研究中。概念格理论是以数学化的概念和概念层次为基础的应用数学领域,可以用于数据分析和知识处理。通过可视化技术将关联规则直观地、清晰地表示出来,用户可以更快、更容易地识别出数据项之间的关联,有利于提高预测和决策的效率,提升整个挖掘过程中的透明性和用户友好性。在从数据库获取知识的过程中,构造与应用概念层次结构具有许多优点,对于概念间的泛化与特化关系具有清晰简明的描述。因此,运用形式概念分析理论,结合数据库等相关知识,从某省全员人口数据库中提取出有用的信息,实现多值属性关联规则可视化与领域知识表示具有重要的实践意义。 1 研究目的和意义(续) * 自二十世纪九十年代以来,人们对数据挖掘可视化的研究就逐渐深入和成熟,目前主要集中在以下几个方面: 1)数据挖掘可视化模型的分析与研究; 2)数据挖掘过程中知识表示的应用; 3)集成交互式的数据挖掘系统; 4)分层或多值属性规则挖掘的研究; 5)数据挖掘结果可视化技术。 现阶段国内外研究开发的数据挖掘可视化工具中可视化技术的应用仍然很有限,方法和展示形式也比较单一,而且主要集中在初始视图可视化、结果(模型)可视化,最为突出的是挖掘过程仍属于黑箱操作,缺少对关联规则可视化挖掘系统地分析和研究。 2 国内外研究现状及发展趋势 * 目前国外比较成熟的数据挖掘工具都集成了关联规则可视化技术,但VARM有待进一步解决的问题: 1)如何集成多种可视化技术的数据挖掘工具的开发,使可视化结果多元化。 2)如何更好地将可视化与关联规则挖掘过程紧密结合起来,使用户真正地参与到数据挖掘的过程中以实现决策支持; 3)如何实现多值属性关联规则多模式可视化展示; 4)如何将频繁项集和规则以知识形式表示; 对于关联规则可视化挖掘而言,很多专家学者都进行了大量的研究,并取得巨大进步,但在多值属性的关联规则可视化挖掘方面仍然有很大的研究空间。 2 国内外研究现状及发展趋势(续) * 基于概念格的多值属性关联规则可视化挖掘研究目的是提供一个将可视化技术与关联规则技术相融合的环境,结合概念格理论对多值属性字段进行源数据、频繁项集和关联规则可视化挖掘,最终实现多模式关联规则可视化展示及知识表示。 本项目主要研究基于河北省全员人口数据库,从以下三个方面进行论述: 3.1 概念格与多值属性关联规则研究; 3.2 关联规则挖掘、可视化、知识表示算法研究; 3.3 关联规则可视化挖掘过程研究。 3 研究内容 * 图3-1 研究内容概要设计 * 文本主要研究基于河北省全员人口数据库论文中的算法进行实验与研究,目前完成以下工作: 4.1 数据离散化和概念分层方法; 4.2 参数调整机制; 4.3 频繁项集和关联规则挖掘算法; 4.4 频繁项集和关联规则可视化算法; 4.5 关联规则知识表示算法; 4.6 关联规则可视化挖掘过程。 4 目前完成工作 * 4.1 数据离散化和概念分层方法 通常在多值属性关联规则挖掘之前,根据实际情况之前对多值属性字段进行离散化和概念分层处理,依据多值属性数据分类对记录中的多值属性字段进行转换,将其划分到不同形式背景中,结合概念格理论研究适合文本算法的多值属性离散化和概念分层方法。 * 人口编号 年龄 户口 世代间隔 管理地 1307001 22 其它 [15-19] 农村 1307002 28 非农业 [24-29] 城镇 1307003 24 农业 [19-24] 农村 人口编号 年龄 户口 世代间隔 管理地 1307001 1 3 1 0 1307002 2 2 3 1 1307003 1 1 2 0 表4-1 人口数据表 表4-2 人口数据表(离散后) 4.2 参数调整机制 目前现有文献中的关联规则挖掘缺

文档评论(0)

边缘人物 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档