- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚類分析翻译
西安科技大学
毕业设计(论文)文献翻译
题 目 聚类分析
院、系(部) 计算机科学与技术学院
专业及班级 计算机科学与技术1002
姓 名 李倩
指 导 教 师 杨君锐
日 期
介绍
如今,很多行业都对数据进行收集,而且,聚类分析也被应用到很多数据上用来发现数据的某些知识或者特性。聚类分析是一门普通的统计学数据分析技术,被应用到很多领域,包括数据挖掘技术,图形识别和图像分析。一种聚类是将一个对象的数据集分割成为子集,所以在每个子集内的对象被认为是相似的,在不同子集的对象被认为是不相似的。这种相似或不相似的定义以及如何被衡量,取决于特定的应用程序。
聚类分析可以根据它的应用目标分类为:(1)减少一定价值的函数(比如:数据对象到它们各自群集代表点距离的总和。)(2)确定模型参数最优可能的取值(比如:高斯混合的方式)(3)识别高密度链接区域(比如:对象的高密度人口区域)(4)将类似的数据对象连接在一起(比如:连接一个图像上有相似颜色的像素分布)我们的研究分为第一个和最后一个类别。
无论类别,数据在很多聚类应用中包含着内在的值的不确定性。这些数据被称作不确定数据。很多的因素造就了这些不确定性,比如无规律的数据生成和收集进程,测量误差,和数据老化。目前有大量的数据分析研究,只有以少部分从事数据不确定性研究。在这篇论文中,我们将研究如何在聚类分析中利用这些不确定性数据。我们也将在研究中提出方法来解决聚类效率和准确性问题。
1.1不确定数据和模型
在需要和现实世界交互的应用程序中,比如定位服务技术,传感器监测,和图像服务,数据不确定性是一个固有属性。特别地,从测量工具或者远距离来源收集的数据常常是不精确的,由于测量工具的误差,取样的差异,过时的数据来源,或者其他的错误。比如,在移动对象的环境中,让数据库在所有的瞬间追踪所有对象的准确位置是不可能的,每个对象的位置与不确定性之间的更新有关。近期的作品也提出通过削弱用户位置的精确度来保护位置隐私。所有这类在值上有不确定性的数据被称作不确定性数据。不确定性的不同来源必须被认为是为了产生准确的数据查询和分析结果。近期,很多不确定性数据的研究集中在数据库中不确定性数据的管理,比如,不确定性数据在数据库中的表示和带不确定性的数据查询,然而,很少有研究从事关于不确定性数据挖掘问题。甚至更少有研究在聚类分析领域。这篇论文的目的是研究聚类不确定性数据的各种问题。
一些不确定性数据具有多维的不确定性,比如上文中提到的在移动对象环境中陈旧的位置数据,特别地,一个数据对象在空间中并不是一个简单的点,而是由概率密度函数定义的不确定区域建模。概率密度函数说明了对象在空间中的每个可能位置的概率密度。概率密度函数一般有能力建立任何不确定性模型,包括均匀分布或者高斯分布。因此,带有不确定性过时位置数据的移动对象可以用这种方法来建模。这种对象的概率密度函数可以由它的最新报告位置、地理信息和它的特性构造。
对于带有测量误差的数据,可以通过概率密度函数建模。错误可以通过采取相同数据的多元测量解决,也可以在数据分析中利用这些错误。利用多元测量的一种方法是重新定义度量标准,这种测量标准过去习惯用一种测量尺度,到所有的测量结果。比如说,为了计算两个不确定性对象之间的相似度,我们可能会计算这两个对象之间所有可能的测量结果的平均相似度值。这个平均值给出了预期相似度作为这两个不确定性对象之间的相似度。一些应用程序可能会需要数据值的比较值来检验一些条件(比如,高出了某一阈值。)在这些应用程序中,每一个测量结果在比较中都可能作为数据值被单独的来使用。这些比较的大多数校验结果(比如,满足不满足条件)将会被作为整体结果。这一作业常常通过定义给定概率值的概率量度来完成。
在这篇论文中,在不确定性数据的聚类问题上,我们既考虑到数据模型,还有概率密度函数和多重测量结果。我们还要指出,一些不确定性数据可以通过值的间隔来建模。不同距离的测量,比如曼哈顿距离测量和闵可夫斯基距离测量,经常被扩展到处理时间间隔局。由于数据具有测量误差,它们可能会通过内核函数来建模。
1.2最小价值函数的聚类分析
聚类分析的一个目标是将数据对象分割成集群,以便减小价值函数(比如:数据对象到它们各自群集代表点距离的总和。)。K-means算法是聚类应用的一种常见算法。简单来说,传统的聚类算法并没有解决数据
您可能关注的文档
- 聚苯板外墻外保温施工技术交底.doc
- 聚苯板外墻外保温施工技术交底008.doc
- 聚苯板施工工藝.doc
- 聚苯板玻纖网格布聚合物砂浆外墙外保温施工工艺.doc
- 聚苯硫醚模具設计.doc
- 聚苯硫醚的生產现状与生产企业.doc
- 聚苯胺合成的論文李娅娅.docx
- 聚苯胺的性能..doc
- 聚苯顆粒外保温面砖饰面施工工艺.doc
- 聚苯顆粒外墙保温施工.doc
- 初中化学教学中学生化学思维培养与自主学习能力的关联性研究教学研究课题报告.docx
- 《艺术展览策划互动性设计研究:观众参与度提升与展览内容优化策略分析》教学研究课题报告.docx
- 《老旧小区改造中的社区活动空间优化与居民生活品质提升研究》教学研究课题报告.docx
- 基于核心素养的高中英语写作策略培养策略研究教学研究课题报告.docx
- 《基于项目式学习的高中物理实验教学中的实验课程与学校教育质量监控研究》教学研究课题报告.docx
- 2024年强振加速度仪项目投资申请报告代可行性研究报告.docx
- 《山地农业生态保护与特色农业产业可持续发展的耦合机制研究》教学研究课题报告.docx
- 新课程教学英语心得体会.docx
- 暑假心得体会300字(33篇).docx
- 制造企业数字化供应链风险管理体系与供应链风险管理风险管理信息共享研究教学研究课题报告.docx
文档评论(0)