高维数据挖掘中若干关键问题的分析计算机软件与理论专业论文.docxVIP

下载本文档

1
0
约11.82万字
约 109页
2019-01-30 发布于上海
举报
版权申诉

高维数据挖掘中若干关键问题的分析计算机软件与理论专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

高维数据挖掘中若干关键问题的分析计算机软件与理论专业论文

摘摘要摘要数据挖掘指的是从大量的数据中提取隐含的、事先未知的、并且潜在有用的知识的技术，是目前国际上数据库和信息决策领域最前沿的研究方向之一。在实际应用中经常会碰到高维数据，如交易数据、文档词频数据、用户评分数据、WEB 使用数据及多媒体数据等。由于这种数据存在的普遍性，使得对高维数据挖掘的研究有着非常重要的意义。但由于“维灾”的影响，也使得高维数据挖掘变得异常地困难，必须采用一些特殊的手段进行处理。随着数据维数的升高，高维索引结构的性能迅速下降，在低维空间中，我们经常采用k距离作为数据之间的相似性度量，在高维空间中很多情况下这种相似性的概念不复存在，这就给高维数据挖掘带来了很严峻的考验，一方面引起基于索引结构的数据挖掘算法的性能下降，另一方面很多基于全空间距离函数的挖掘方法也会失效。解决的方法可以有以下几种：一个可以通过降维将数据从高维降到低维，然后用低维数据的处理办法进行处理；对算法效率下降问题可以通过设计更为有效的索引结构、采用增量算法及并行算法等来提高算法的性能；对失效的问题通过重新定义使其获得新生。本文对高维数据挖掘中的相似性搜索、高维数据聚类、高维数据异常检测及电子商务中的协同过滤技术进行了研究，指出了高维给这些领域带来的影响，提出了一些解决问题的方法，具有一定的理论意义和现实的指导意义。本文的主要工作如下： (1)通过对高维数据特点的分析，提出了一种新的相似性度量函数Hsim()，该函数可以避免在高维空问中分辨能力下降的问题，还可以将数值型的数据和二值型数据相似性的计算整合在一个统一的框架中。并将它与其它的相似性函数进行了比较： (2)结合量化交易数据的特点，提出了一种新的量化交易数据相似性搜索方法，这种算法基于一种称为特征表的结构，对数据有较高的修剪率，能大大提高相似性搜索的速度： (3)提出了一种新的基于用户评分数据的协同过滤算法，并通过实验证明该算法不仅提高了推荐的效率，还对推荐精度有一定的提高； (4)分析了高维数据聚类的算法，提出了基于对象相似性的高维数据聚类框架； (5)对高维对异常检测算法的影响进行了分析，给出了投影异常检测的概念。提出了～种动态环境下局部异常的增量挖掘算法IncLOF，并通过实验和LOF算矗维数据挖掘中若干关键问题的研究复旦大学博士学位论文摘摘要法进行了比较，结果表明在动态高维的环境下，当高维索引结构失效的情况下，能大大提高局部异常的挖掘效率。关键词：数据挖掘、高维数据、相似性度量函数、相似性搜索、协同过滤、聚类分析、异常检测中图分类号：TP302 lf；i维敏槲挖搁中荐十*鼬舸题『I臼蝴f究复口．火学博：I：学位论文摘摘要 Abstract Data mining refers to extracting implicit，previously unknown and usable knowledge from large amounts of data．It is one of the frontiers of research in the fields of dmabase and DSS．The high dimensional data are frequently met when we apply data mining，for example transaction蛾term-frequency data,rating data, WEB usage data and multimedia data．The universality of high dimensional data makes researches on high dimensional data mining very important．But mining in high dimensional data iS extraordinarily di伍cult because ofthe curse ofdimensionality．So we must adopt some special means to solve these problems． The performance of similarity indexing structnres in higll dimensions degrades rapidly．In lower dimensional space。we often use t节-norm to mea涨the proximity between two points，but in many case the concept of this proximity is neve