市场调查中样本数据缺失值问题研究.docVIP

下载本文档

38
0
约3.46千字
约 6页
2017-01-19 发布于北京
举报
版权申诉

市场调查中样本数据缺失值问题研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

市场调查中样本数据缺失值问题研究.doc

市场调查中样本数据缺失值问题研究　　摘要：本文在对缺失值的基本概念、产生原因、主要处理方法进行简单介绍的基础上，提出了针对顾客满意度测评的拓展模型以及缺失值的分类均值插补处理方法，相对于以往的均值插补法，该方法的有效性得到了进一步提升。为了验证模型的效度、信度、适合度，以某公司为对象进行实证研究，对文章提出的顾客满意度测评拓展模型进行评价分析，最终取得了满意且有效的测评结果。　　关键词：市场调查；样本数据缺失；缺失值　　一、引言　　所谓缺失值就是指在研究分析中的数据统计方式，传统的获取方式是通过抽样，但在实际操作时因为各种主客观因素的影响而未能获取相应调查数据，也常被成为缺失数据。根据以往的理论研究成果和实践经验，市场调查中样本数据缺失是比较普遍的一种现象，究其原因，主要有以下几个方面：（1）受调查对象出于个人的主观意愿对调查者希望从自己这里获取所需数据的行为持否定态度。（2）因各种不可控的因素而导致调查数据缺失。（3）受调查系统不完善、调查人员操作失误等因素的影响，未能实现对所需数据的全面搜集。（4）在对调查数据进行汇总处理时出现错误或失误而引起的数据缺失。不过，以上四种原因仅为导致数据缺失问题的主要原因，在实际工作中，缺失数据的产生原因种类繁多，很难对缺失数据的产生方式与机制进行准确的判断和检测，为了使针对缺失数据的研究能够顺利开展，专家和学者们从形式上将其划分为项目缺失、单元缺失两种类型。Rubin、Little在对数据缺失机制进行定义时将其划分为以下三种类型：不可忽略的缺失、随机缺失、完全随机缺失。在推估过程中，缺失数据主要有单调、单变量、任意缺失三种表现形式。就目前的实际情况来看，删除法、插补法以及最大似然估计法是缺失数值问题处理工作中最常用的三种方法，而缺失值的补法主要包括多重插补法、随机插补法和均值插补法等，MCMC算法、EM算法、相似反映模式算法、最大似然估计法、回归或主成分法也是处理缺失值的常用方法。本次研究针对市场调查中的顾客满意度调查，提出一种新的缺失值处理方法――分类均值插补法，以此实现解决市场调查中样本数据缺失值问题的最终目标。　　二、构建顾客满意度指数测评拓展模型　　本次研究所构建的顾客满意度指数测评拓展模型共涉及潜变量7个，分别为消费者满意度、抱怨、质量期望、忠诚以及感知质量、价值期望和品牌期望。外生变量仅有品牌期望1个，其余均为内生变量。模型路径如图所示。　　三、求解带缺失值的顾客满意度指数　　1.处理异常值　　这里所说的异常值，是指受调查者不远回答问卷调查中的相关问题或回答结果超出数值范围时所采用的默认值，调查问卷采用10分制，受调查者通过给分方式表达自己对相关项目的满意或认可程度。98名受调查者表示自己不了解相关信息， 99名受调查者不愿作答，101名受调查者表示从不购买，以上回答均以缺失值进行处理。标准化处理后，样本值的方差、均值分别为1、0。　　2.处理缺失值　　首先，用0代替数据库中标记为NaN的缺失值，若潜变量对应的显变量的样本值完全缺失，则认为该样本无效，采用成对删除法进行处理；若潜变量对应的显变量的样本值仅有部分缺失，采用“分类均值插补法”进行处理。“分类均值插补法”的操作流程可以简单的概括为：依1～10分分值将满意度字段划分为10个类别，若某一类别中存在缺失值，则以该类别的缺失值均值插补。“分类均值插补法”是由均值插补法发展而来，二者在均方根误差方面的比较结果见表1。　　3.潜变量估计值的获取　　潜变量估计值通过PLS算法反复迭代获取，需要注意的一点是，若块结构含有多个潜变量结构方程模型，那么在设定过程中应假定各指标及其对应的潜变量之间为线性关系；在对模型的内部关系进行设定时，应坚持不同关系共同构成一个线性因果链系统的原则。　　步骤一：对潜变量、权重进行迭代估计，同时估计定位系数。　　步骤二：重复执行①～④，直至满足迭代条件。　　四、顾客满意度测评拓展模型的实证分析　　1.顾客满意度测评拓展模型的应用及评价。模型的实证分析涉及显变量17个、潜变量7个（ξ0～6，分别对应消费者期望、质量期望值、价值期望值、消费者满意度、消费者抱怨、消费者忠诚以及企业形象）。调查工作以网上发放调查问卷的形式开展，共涉及225名受调查者（即样本量为225）。X52代表价格敏感度，包括价格上下浮动的不同趋势，取值定义为价格上下浮动25%。用符号NaN替换表中的98、99、101，代表缺失数据。对原始数据进行标准化处理，设定权重迭代条件初始值，计算消费者对商品质量和价值的满意度指数值。模型合理性评价于PLS路径模型相关参数得出后进行。　　通过测量、结构模型获悉模型的科学可靠性，测量评价包括信度、效度两个方面，结构评价则以分