聚类分析在网络调研中应用研究.docVIP

  • 4
  • 0
  • 约4.78千字
  • 约 10页
  • 2018-12-07 发布于福建
  • 举报
聚类分析在网络调研中应用研究

聚类分析在网络调研中应用研究   摘 要:文章首先概述了当前网络调研的现状,接着引入K均值和基于模型的EM聚类方法来分析网络调研数据,进而研究了影响网络调研聚类分析的各种因素,最后通过引入案例进一步解释同一数据应用两种方法得到不同分析结果的原因。   关键词:网络调研 K均值 期望最大化 聚类   中图分类号:F062.5文献标识码:A   文章编号:1004-4914(2008)11-066-02      一、引言      随着互联网技术的发展和上网用户的迅速增加,网络调研成为企业决策的一种重要工具。      二、网络调研的现状      网络调研是利用互联网发掘和了解顾客需要、市场机会、竞争对手、行业潮流、分销渠道等方面的情况。其特点有:及时性,共享性,互动性,成本低,隐匿性好。它是一项富于实践的研究,国内外开展网络调研的公司和研究机构为数众多,大多数是自助式网络调研平台,例如,业内最著名的SurveyMonkey是国外一家专业网络调研公司,它拥有大量的问卷样本库,客户可以根据需要选择所需样本库,设置题型、数据格式和范围等。类似国内有艾瑞调研网,100调查网等,数据分析大多使用一般统计方法,很少考虑调研数据的特点,难以提供更高级的数据挖掘分析和知识发现等解决方案。      三、网络调研中应用的聚类方法研究      聚类分析是数据挖掘中一个活跃的研究领域,分析算法分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。网络调研常用的方法是K均值方法和基于模型的EM方法。   1.K均值方法。K均值(K-means)是基于原型的聚类技术创建对象的单层划分,K均值算法以距离值的均值对聚类成员进行分配,通常K均值聚类用于n维连续空间中的对象。K均值的算法表示为:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。K均值方法被认为是硬聚类(hard clustering),因为每一个对象只能被分配到一个聚类,聚类间不连接,也不相互重叠。   K均值法在网络调研中可以处理数字数据和文档数据。聚类目标通常用一个目标函数表示,该函数依赖与点之间或点到聚类中心的临近型。对于数字数据,可以选用欧几里德和曼哈顿距离以及切比雪夫距离作为度量聚类质量的目标函数。它的思想是计算每个数据点到最近的聚类中心的度量距离,再计算已选度量的误差平方和(SE)。如式:1      其中,ci是第i个聚类,x是ci中的点,ci是第i个聚类的均值,distance是度量距离。   对第K个聚类中心对均值Ck求导,令导数等于0,便可以得到SE最小值时的最佳聚类中心。接着重新计算聚类中心,进一步最小化SE。反复此过程直到聚类中心不发生变化,即得到最优聚类。   对于文档数据则考虑文档数据的余弦相似性度量。最大化聚类中文档与聚类中心的相似性,也可以通过对均值Ck求导等于零来证明聚类凝聚度(TC)的最佳聚类中心。      2.基于模型的EM方法。基于模型EM方法使用若干统计分布对数据进行建模,假定有K个分布和m个对象X={x1,…,xm}。设第j个分布的参数为θj,θ={θ1,..,θj}。则prob(xi|θj)是第i个对象来自第j个分布的概率。选取第j个分布产生一个对象的概率由权值wj(1≤j≤k)给定,其中权值(概率)受限于其和为1的约束,即∑jk=1wj=1。考虑到调研的对象是独立的方式产生,因此,整个对象集的概率是每个个体对象xi概率的乘积,      3式中,每个分布描述一个不同的聚类,使用期望最大化(EM)算法来估计模型参数。EM算法表示为:给定参数值的一个猜测,EM算法计算每个点属于每个分布的概率,然后使用这些概率,计算参数的新的估计,该迭代继续到参数的估计不再改变为止。EM算法通过度量某对象的概率来决定该对象属于哪一个聚类,这种技术被称为软聚类(soft clustering),它允许聚类之间重叠,允许模糊的边界。   基于模型方法的优点在于它可以使用各种类型的分布,提供一种消除与数据相关联的复杂性方法。但是基于模型方法需要处理和简化数据,它不能处理具有大量分量的模型,聚类中的数据点过少以及含有噪声和离群点也不能很好的处理。因此,在网络问卷分析时使用基于模型的方法需要手工或者计算机处理缺失点和异常点。      四、影响网络调研聚类分析的因素      网络调研的聚类分析涉及数学、计算机学、经济学、营销学、管理学、统计学等

文档评论(0)

1亿VIP精品文档

相关文档