基于Weka的江苏13个地级市温度聚类分析.docVIP

下载本文档

6
0
约4.59千字
约 7页
2017-08-25 发布于北京
举报
版权申诉

基于Weka的江苏13个地级市温度聚类分析.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Weka的江苏13个地级市温度聚类分析.doc

基于Weka的江苏13个地级市温度聚类分析　　摘要：该文利用机器学习软件Weka，对江苏13个地级市的温度数据进行聚类分析研究。我们的数据来自中国气象数据网，采用1981―2010年日平均气温。我们在Weka中分别用HierarchicalCluster、SimpleKMeans、Cobweb三种方法按3个簇进行聚类。从三种聚类方法得出的结果来看，第1、2种方法结果更加相近，第3种方法更加细致，导致每个情况各成一类。对照温度聚类的结果和城市之间的空间距离，苏北城市之间的温度互相之间更加靠近，苏中、苏南城市由于处于长江两侧，互相之间温度也更加靠近。　　关键词：聚类分析 Weka 城市温度　　中图分类号：TP391 文献标识码：A 文章编号：1674-098X（2016）07（c）-0092-03 　　气温是重要的气候指标，对人类的生产生活状况以及农业生产都有着非常重要的影响，并且在自然科学领域中建立的诸多气候模型中，气温已经成为一个不可或缺的影响因素，因此有关气温空间分布规律的研究一直都是地理、气象、生态等研究和应用领域广泛关注的热点问题之一[1]。影响气温分布的主要因素包括：宏观的地理条件，观测点的海拔高度、地形（坡向、坡度等）、下垫面性质等，其中尤以海拔高度和地形的影响最显著[2]。　　聚类分析是数据挖掘的重要研究内容[3，4]，是计算机科学中较为前沿的研究方式，因为地理、气象等数据有时间性和空间性并具的特点，所以聚类分析方法在地理数据研究上从传统上的空间聚类发展成带有时间性质的时空聚类，其中代表性的聚类分析方法有基于密度的，有基于层次的，还有基于划分的，比如FCM算法[5，6]，在聚类分析与地理结合研究这方面，国外学者如Bilgin T T等对土耳其的气象站每日的温度数据进行了聚类分析，得到趋势相同的温度区域，从而根据土耳其的气温特性进行气象区域划分[7]；Moller-Levet等[8]利用模糊c均值聚类算法对短时间序列进行了聚类[9]。　　1 数据来源　　该文所有数据均来自中国气象数据网[10]，使用的温度为1981―2010年日平均气温，单位：℃。　　获取数据时，共有9列数据，分别是城市、日序、累年日平均气温、累年平均日最高气温、累年平均日最低气温、累年日平均水汽压、累年20-20时日降水量、累年08-08时日降水量、累年日平均风速。　　该文基于平均气温做数据分析，时间是365天，城市为江苏省13所地级市。数据采集时的城市排序为：无锡、苏州、常州、徐州、连云港、盐城、淮安、南京、扬州、泰州、南通、宿迁、镇江。　　由于部分地级市数据并未给出，所以，该文中的数据由地理位置最近的相关县级市或区的数据代替，常州数据由金坛代替，宿迁数据由宿豫代替，镇江数据由丹阳代替，南通数据由于本身产生时间分段难以处理，由通州代替。　　2 聚类分析介绍　　我们这里借用MBA智库百科[11]来描述聚类分析。聚类分析，英文Cluster Analysis，是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法。它们讨论的对象是大量的样品，要求能合理地按各自的特性来进行合理的分类，没有任何模式可供参考或依循，即是在没有先验知识的情况下进行的。聚类分析起源于分类学，在古老的分类学中，人们主要依靠经验和专业知识来实现分类，很少利用数学工具进行定量的分类。随着人类科学技术的发展，对分类的要求越来越高，以致有时仅凭经验和专业知识难以确切地进行分类，于是人们逐渐地把数学工具引用到了分类学中，形成了数值分类学，之后又将多元分析的技术引入到数值分类学形成了聚类分析。　　聚类是将数据分类到不同的类或者簇的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学、计算机科学、统计学、生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。　　聚类分析计算方法主要有如下几种：分裂法（partitioning methods），层次法（hierarchical methods），基于密度的方法（density-based methods），基于网格的方法（grid-basedmethods），基于模型的方法（model-based methods）。　　3 数据分析方法　　Weka[12]的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），是一款免费的、非商业化的、基于JAVA环境下开源的机器学习以及数据挖掘软件。Weka作为一个公开的数据挖掘工作平