网站大量收购独家精品文档,联系QQ:2885784924

复杂数据类型的挖掘.pptVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

查准率:反映正确性查全率:反映全面性RelevantAllDocumentsRelevantRetrieved/72Retrieved贰壹叁文本检索的基本度量基于关键字的检索29/72在关键字检索中,文档被看作字符串,可用一组关键字识别查询由关键字表达式构成例子,汽车and修理店查询应考虑同义词问题,如:修理和维修困难同义词问题(Synonymy):文档与Key相关,但Key在文档中不出现多义词问题(Polysemy):同一Key在不同的上下文有不同的含义,如Mine。基于相似性的检索(1)30/72相似检索是指基于一组共同的关键字找出相似的文档检索结果基于相关度,即:与关键词的近似性,关键词的出现频率等。非用词表(Stoplist)无关的高频词,如:a,the,of,for,etc.文档不同时,非用词表也不同广东商学院信息学院1/93广东商学院信息学院1/93广东商学院信息学院1/93广东商学院信息学院1/931/93Chapter10:

复杂数据类型的挖掘广东商学院信息学院胡建军数据仓库与数据挖掘/7201复杂数据对象的多维分析和描述性挖掘空间数据库挖掘多媒体数据库挖掘时序数据和序列数据的挖掘文本数据库挖掘Web挖掘02CourseOutline/72复杂数据对象的多维分析和描述性挖掘空间数据库挖掘多媒体数据库挖掘时序数据和序列数据的挖掘文本数据库挖掘Web挖掘CourseOutline数据挖掘的对象/72关系数据库、事务数据库、数据仓库简单数据复杂对象、空间数据、多媒体数据、时间序列数据、文本数据、Web数据等挖掘技术:基本挖掘技术的扩展针对复杂数据类型的新技术实施知识挖掘的方法复杂类型数据/72复杂数据对象的概化及其概化数据的应用商品化数据仓库和OLAP工具用于多维分析的局限:维———非数字数据度量———聚集值复杂数据的组织及存储方法类、类/子类对象:对象标识、属性、方法复杂数据对象的多维分析 和描述性挖掘复杂结构数据的概化6/72复杂结构数据:集合、元组、列表、树、记录等及其组合;概化方法:保持原结构不变,概化其属性把原结构扁平化,概化扁平化的结构用高层概念或聚集汇总低沉结构返回原结构的类型或概貌集合值7/72集合值一般概化方法:将集合中的每个值概化为其对应的更高级别的概念导出集合的一般特征(元素个数、区间、平均值、最大值等)示例:业余爱好{网球,曲棍球,国际象棋,小提琴,任天堂游戏}概化:{体育,音乐,电子游戏}{体育(3),音乐(1),电子游戏(1)}/721列表值/序列值类似于集合值属性的概化,要求保持元素的次序。2一般概化方法:将列表中的每个值概化为对应的高层概念导出列表的一般特征(长度、元素类型、平均值、最大值等)3列表值/序列值/721聚集和近似计算2空间数据例:土地规划3多媒体数据图像:尺寸、颜色、形状、纹理、方位等音乐:音调、节拍、乐器等文本:摘要、关键词等4空间和多媒体数据的概化1/722对象标识符沿类/子类层次结构概化3继承特性数据概化对直接数据与继承数据同等对待4方法方法本身不能概化,但是可以对方法导出的数据进行概化对象的概化/72复杂数据对象的多维分析和描述性挖掘空间数据库挖掘多媒体数据库挖掘时序数据和序列数据的挖掘文本数据库挖掘Web挖掘12CourseOutline空间数据库挖掘12/72空间数据库及其一般特点存储了大量与空间有关的数据包含拓扑/距离信息复杂的、多维的索引结构访问通过空间数据的方法,通常需要空间推理、地理计算、空间知识表示技术空间数据挖掘:要综合数据挖掘与空间数据库技术空间数据库挖掘13/72传统空间数据分析(统计方法)的不足统计方法通常假设空间分布的数据间是统计上独立的,但现实是空间对象间是相互关联的;大部分统计模型只有具有相当丰富领域知识和统计方面经验的统计专家才用得起来;统计方法不适用符号值,或不完整或非确定的数据,对大规模数据库其计算代价也十分昂贵。空间数据挖掘将对传统的空间分析方法加以扩展,重点解决其高效性,可伸缩性,与数据库系统的紧密结合,改进与用户的交互,以及新的知识的发现。/72空间关联规则形如:A?B[s%,c%]其中A和B空间和非空间谓词的集合,s%表示规则的支持度,c%表示规则的的可信度。例:Is_a(X,”school”)∧c

文档评论(0)

wuyoujun92 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档