- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
单因素方差分析在大学生上网数据中的应用.doc
单因素方差分析在大学生上网数据中的应用
摘 要:大数据的意义是由人类日益普及的网络行为所伴生的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的?稻荨R阅称胀ǜ咝4笱?生上网行为数据为数据源,研究了数据分析技术中单因素方差分析方法的原理和数据建模方法,借助SAS软件中的数据库和分析模块,对数据源进行采集、整理、清洗,并建立评价指标,对预处理后的数据从用户量方面进行分析。
关键词:大数据;单因素方差分析;大学生上网行为数据
引言
随着互联网和信息技术的快速发展,物联网、移动互联、各种社交网络从各个方面扩展了互联网的应用领域。网络对在校大学生的生活产生了深远的影响,学生的行为方式、思维方式、价值观念发生了巨大变化。如何及时了解学生的行为和思想动态,把握学生管理的时机,对教育管理部门提出了严峻的问题和考验。
文章利用统计学中的单因素分析方法,在研究单因素分析方法的原理的基础上,以某普通高校大学生上网行为数据为数据源,借助SAS软件的数据库和分析模块,对数据源进行采集、整理、清洗,并逐步分析。根据分析结果,对大学生上网情况给出合理的建议,能够使处于信息时代的大学生们正确、合理地运用网络资源,充分把握信息的重要性。
1 单因素方差分析原理
单因素方差分析[1](one-wayANOVA)假设影响观测值的多个因素中,只有一个因素在发生变化,其余因素不变时,变化的因素A有多个水平,在每个水平下进行ni次独立观测,得到试验指标。
这里SE代表随机误差的影响,称为误差平方;SA是因素A的效应平方和,表示在Ai水平下样本均值和总平均值之间的差异之和,反映了r个总体均值之间的差异,即μi之间的差异。
因此,总平方和ST可分解为由随机误差引起的误差平方和SE和由因素各个水平的差异引起的因素平方和SA。
如果原假设H0成立,经过统计分析得到SE/(n-r)和SA/(r-1)是σ2的无偏估计,且SE和SA相互独立,因此,有:
于是F可以作为H0的检验统计量,若FFα (r-1,n-r),则拒绝原假设。也可以使用P值决定是否接受原假设H0:p=P{F(r-1,n-r)F}。若Pα,拒绝原假设H0;否则接受原假设H0。
2 数据预处理
数据来源于某普通高校的学生上网数据。原始数据是学生上网的日志文件,不符合SAS进行处理的数据格式。在进行数据分析之前,要对原始数据进行预处理和标准化,然后倒入SAS,利用SAS中的相关分析过程进行分析。
选取2016年4月11号-4月16号这一个星期的上网数据。数据的观测是按时间进行排序的,其指标有日期,学号,网址等。
2.1 原始数据的处理
数据的合并及导入:原始数据是每小时的数据,要利用(copy *.log 合并文件.txt)进行每小时数据的合并,合并成为一天的数据。接下来在SAS中利用IMPORT过程[3]将一天的数据导入。
数据的整理:首先选取学生学号做指标,利用SQL过程查找有效学号信息过滤掉无效学号及缺省值,并留存筛选后的数据。然后以网址为指标进行筛选过滤掉无效网址及私有不可访问网址。并基于保护用户私密信息,经过数据清洗处理,保留下的数据集具有学号与网址两个属性值。
数据二次清洗:对于学号与网址数据中不完整的数据,错误的数据,重复的数据进行清洗。
2.2 基于学号网址的网址类别处理
通过从360网址大全,百度网址大全,2345网址导航等网站的源码中提取网址关键字,并对网址关键字进行分类。
通过模糊匹配法对网址进行关键字的匹配,从工具、购物、军事、科技、旅游、其它、社交、体育、新闻、学习、音乐、影像、游戏等13个方面对网址进行分类。
(1)排序按照类别排序,保证所有数据集的变量顺序一致,以便分析。
(2)计算频数对每个类别求访问量及所占百分比。
(3)转置,追加对所得表实现转置并清洗其中无效信息以便追加数据集。对转置后的表进行竖向追加。
(4)整理分析所用数据对一天的表求和并将七天的合并在一张表中。
2.3 指标的建立
根据单因素方差分析原理,选取一周中每天每一类网址作为样本指标,分别用符号X0,X1,X2,X3,X4,X5,X6,X7来表示。其表示矩阵为Mij(i=1,2,…,n;j=1,2,…p)。如图表1所示。
3 大学生上网行为数据的单因素方差分析
在ANOVA过程中,首先,假设时间对观测值没有显著性影响,从图1看出显著性水平p=0.3210远远大于显著性水平默认值α=0.05,所以不能拒绝原假设,表明均值之间的差异不显著,时间对观测值没有显著影响。其次,通过拟合统计量衡量假设模型的预期值和实现所得的实际值之间的差距。最后利用
文档评论(0)