- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基干数据挖掘大学生网络用户行为与偏好探析
基于数据挖掘的大学生网络用户行为与偏好分析 摘 要:以问卷调查的方式收集数据,采用数据挖掘的方法深度分析数据,研究在校大学生网络使用现状。严格遵循数据挖掘的步骤,对问卷数据进行预处理,通过weka数据挖掘平台,进行关联规则及聚类分析,得出不同用户组特征,从而挖掘出用户的上网行为模式和潜在上网规律,对网络运营商的科学运营模式提出合理的建议
关键词:数据挖掘;电信运营商;大学生;行为
大学生对网络使用的需求日渐增多,目前的网络质量却未达到令人满意的程度。此次研究可以让网络运营商适当改善网络,有利于网络的长足发展,实现网络运营商与校园网用户间的双赢。我们将使用数据挖掘中聚类和关联规则分析技术,深度研究分析数据,探究校园内网络用户行为现状以及偏好成因,为运营商的网络经营策略提供建议。同时也提高消费者使用网络的满意度。对于网管中心,全面掌握了校园内网络的使用状况及其发生的因素后,能对于校内的网络更有效地规范与控制,从而建立校内网络更有效的管理机制
一、数据挖掘
(一)基本概念。数据挖掘是指从大量的数据中发现并抽取隐含的、未知的、有潜在应用价值的知识过程。数据挖掘的目的是为决策者提供有效的决策支持。[1]其流程依次为:数据采集、数据预处理、数据清洗、数据规约、模型建立、可视化分析
(二)WEKA。WEKA是一个数据挖掘实验平台,集成了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化等。本项目采用WEKA平台进行数据挖掘,主要运用其中的聚类和关联规则分析
(三)聚类分析。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。[2]此次聚类分析选用的是K-means聚类分析方法,在Filter树中SimpleKMeans算法,并将numCluster值设为4,其余均为默认值。[3]表示将所给的属性按照一定的规则分为4类,分别表示四类不同特征的用户群体
(四)关联规则分析。关联规则是形如A==B的蕴涵式,A和B分别称为关联规则的先导(LHS)和后继(RHS)
关联规则分析则是采用分箱离散化处理,在Filter树中Discretize算法,设阈值为0.9,默认选择前10条规则。关联规则的结果形如“A==B conf:(C)”,其中“A==B”表示情况A发生且情况B发生,“conf:(C)”称为置信度(Confidence level),其中C为百分比数值,置信度表示事件已包含A的情况下,包含B的百分比,关联规则分析得出的结果是根据置信度由高到低排列的规则
二、群体特征分析
(一)聚类分析
表1是对用户使用网络的基本信息的聚类分析
第一类用户占比最少,该类用户上网地点为宿舍,月生活费1548元,月上网资费66元,选择使用电信宽带,日上网时间较其他分类较多,高达10h,上网目的主要集中于看视频、社交聊天,偏娱乐方向。对这类学生深入调查可知该类用户对于网络依赖性较高,对网速要求较低。第二类用户占比最高,为三分之一,上网地点为宿舍,月生活费1319元,月上网资费70元,在所有分类中上网资费占生活费比重最高。选择电信宽带,日上网时间为4h,上网目的涵盖了除玩游戏之外的所有选项,可见该类用户上网目的较综合,几乎每个指标都与总体水平相当。第三、四类用户上网资费占生活费比重、上网目的两指标水平相当。而网络类型与上网时间不同。第三类校园无线网用户上网时间为6h,第四类电信宽带用户上网时间为4h。进一步调查可知,第三类用户与其他分类不同在于宿舍区覆盖校园无线网,价格相较其他网络稍便宜,所以该类上网资费也较低。总体分析,上网地点为宿舍、网络类型为电信宽带,上网目的为“看视频”同时“不玩游戏”,这几点几乎是所有用户的共性。这由本校女多男少特性造成,女生偏爱看视频、不玩游戏,视频可集中下载而非时刻在线,用户使用网络时间较短,视频播放多为手机播放,由此运营商可以调整套餐安排,推出相较低网速、短时长、低价位的无线网络套餐;针对少量游戏用户,有线套餐则要做到高网速、长时长、高稳定性
2、运营商类型与使用问题的聚类分析
表2是对用户使用网络时可能出现的问题的聚类分析
第二类用户所占比例最大,约为样本总量的一半,几乎所有指标都与总体水平一致,只比总体的选择多出一项问题选择:电信宽带无法使用无线网。因为现在的学生主要的上网工具是手机、ipad而非电脑,无法使用无线网会使很大一部分用户觉得不便捷
第一、三、四类用户比例都很平均,第一类用户出现的问题是:电信宽带网络无响应,而第三类用户同样表示移动CMCC也出现同样问题,由此可见两类网络的技术都不完善,仍需努力提高技术水平,提升硬件质
您可能关注的文档
最近下载
- CYX-QEHP-39新改扩建项目环境影响控制程序B0(工厂体系文件模板).doc VIP
- 03~04_项目融资模式之BOT项目.ppt VIP
- 团章考试题及答案.doc VIP
- 2025年中考真题作文解读:此刻,你不一样(威海)(写作指导+例文展示+名师点评).docx
- 小学一年级学习计划..doc VIP
- 包头市户外广告和牌匾设置技术标准标准DB 1502T006—2020.pdf
- 网络直播带货主播能力模型构建研究.docx VIP
- 淮阴工学院班主任工作手册.doc VIP
- 2024年新改版教科版一年级上册科学全册教案教学设计(新教材专用).docx
- 2025道德与法治二年级上册全册核心素养教案教学设计.docx
文档评论(0)