基干数据挖掘大学生网络用户行为与偏好探析.docVIP

基干数据挖掘大学生网络用户行为与偏好探析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基干数据挖掘大学生网络用户行为与偏好探析

基于数据挖掘的大学生网络用户行为与偏好分析   摘 要:以问卷调查的方式收集数据,采用数据挖掘的方法深度分析数据,研究在校大学生网络使用现状。严格遵循数据挖掘的步骤,对问卷数据进行预处理,通过weka数据挖掘平台,进行关联规则及聚类分析,得出不同用户组特征,从而挖掘出用户的上网行为模式和潜在上网规律,对网络运营商的科学运营模式提出合理的建议 关键词:数据挖掘;电信运营商;大学生;行为 大学生对网络使用的需求日渐增多,目前的网络质量却未达到令人满意的程度。此次研究可以让网络运营商适当改善网络,有利于网络的长足发展,实现网络运营商与校园网用户间的双赢。我们将使用数据挖掘中聚类和关联规则分析技术,深度研究分析数据,探究校园内网络用户行为现状以及偏好成因,为运营商的网络经营策略提供建议。同时也提高消费者使用网络的满意度。对于网管中心,全面掌握了校园内网络的使用状况及其发生的因素后,能对于校内的网络更有效地规范与控制,从而建立校内网络更有效的管理机制 一、数据挖掘 (一)基本概念。数据挖掘是指从大量的数据中发现并抽取隐含的、未知的、有潜在应用价值的知识过程。数据挖掘的目的是为决策者提供有效的决策支持。[1]其流程依次为:数据采集、数据预处理、数据清洗、数据规约、模型建立、可视化分析 (二)WEKA。WEKA是一个数据挖掘实验平台,集成了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化等。本项目采用WEKA平台进行数据挖掘,主要运用其中的聚类和关联规则分析 (三)聚类分析。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。[2]此次聚类分析选用的是K-means聚类分析方法,在Filter树中SimpleKMeans算法,并将numCluster值设为4,其余均为默认值。[3]表示将所给的属性按照一定的规则分为4类,分别表示四类不同特征的用户群体 (四)关联规则分析。关联规则是形如A==B的蕴涵式,A和B分别称为关联规则的先导(LHS)和后继(RHS) 关联规则分析则是采用分箱离散化处理,在Filter树中Discretize算法,设阈值为0.9,默认选择前10条规则。关联规则的结果形如“A==B conf:(C)”,其中“A==B”表示情况A发生且情况B发生,“conf:(C)”称为置信度(Confidence level),其中C为百分比数值,置信度表示事件已包含A的情况下,包含B的百分比,关联规则分析得出的结果是根据置信度由高到低排列的规则 二、群体特征分析 (一)聚类分析 表1是对用户使用网络的基本信息的聚类分析 第一类用户占比最少,该类用户上网地点为宿舍,月生活费1548元,月上网资费66元,选择使用电信宽带,日上网时间较其他分类较多,高达10h,上网目的主要集中于看视频、社交聊天,偏娱乐方向。对这类学生深入调查可知该类用户对于网络依赖性较高,对网速要求较低。第二类用户占比最高,为三分之一,上网地点为宿舍,月生活费1319元,月上网资费70元,在所有分类中上网资费占生活费比重最高。选择电信宽带,日上网时间为4h,上网目的涵盖了除玩游戏之外的所有选项,可见该类用户上网目的较综合,几乎每个指标都与总体水平相当。第三、四类用户上网资费占生活费比重、上网目的两指标水平相当。而网络类型与上网时间不同。第三类校园无线网用户上网时间为6h,第四类电信宽带用户上网时间为4h。进一步调查可知,第三类用户与其他分类不同在于宿舍区覆盖校园无线网,价格相较其他网络稍便宜,所以该类上网资费也较低。总体分析,上网地点为宿舍、网络类型为电信宽带,上网目的为“看视频”同时“不玩游戏”,这几点几乎是所有用户的共性。这由本校女多男少特性造成,女生偏爱看视频、不玩游戏,视频可集中下载而非时刻在线,用户使用网络时间较短,视频播放多为手机播放,由此运营商可以调整套餐安排,推出相较低网速、短时长、低价位的无线网络套餐;针对少量游戏用户,有线套餐则要做到高网速、长时长、高稳定性 2、运营商类型与使用问题的聚类分析 表2是对用户使用网络时可能出现的问题的聚类分析 第二类用户所占比例最大,约为样本总量的一半,几乎所有指标都与总体水平一致,只比总体的选择多出一项问题选择:电信宽带无法使用无线网。因为现在的学生主要的上网工具是手机、ipad而非电脑,无法使用无线网会使很大一部分用户觉得不便捷 第一、三、四类用户比例都很平均,第一类用户出现的问题是:电信宽带网络无响应,而第三类用户同样表示移动CMCC也出现同样问题,由此可见两类网络的技术都不完善,仍需努力提高技术水平,提升硬件质

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档