- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘在校园网应用
数据挖掘在校园网应用
摘要:校园网是一种开放的网络环境,用户群体的行为十分活跃,多样化的用户行为使校园网的管理非常复杂。数据挖掘技术可以从海量数据中抽取相关知识,并对用户行为进行分类。本文将数据挖掘技术用于校园网用户行为分析,得到用户使用校园网络的行为模式,可以为校园网的建设、流量分析以及相关决策提供依据。
关键词:数据挖掘;用户行为分析;K-means算法
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)22-0145-02
1 数据挖掘技术
数据挖掘技术又称为数据库中的知识发现,目的是从网络上的海量数据中快速提取有用的信息;一般而言,数据挖掘技术有如下特点[1]:(1)海量数据。数据挖掘面向的数据量很大,所以如何高效地存取数据,并从大量数据中找到存在于这些数据中的关系,是首先要考虑的问题。(2)不确定性。应用于数据挖掘的数据多数是为特定目的而收集的数据,但是收集数据时可能会遗漏重要的变量,而遗漏的变量可能在做数据挖掘时时至关重要的,因此未知性以及不确定性可能会存在于数据挖掘的全过程。(3)先验知识的失真性。从事数据挖掘的人员可能不希望“假设检验”的存在,即不太愿意将其先验知识预先内置于数据挖掘算法中。
要得到良好的数据挖掘效果,就必须对海量数据进行采集、预处理和优化,优化过程可能需要经常重复一些步骤。原始数据的采集是数据挖掘的第一步,此过程中产生的费用会占整个数据挖掘系统相当大的比重;为确保得到良好的数据挖掘效果,就不得不采集足够多的原始数据。采集后的数据要进行抽样和清理:抽样过程会从大量的元素数据中,提取出有代表性的数据作为样本数据;并不是所有的数据对数据挖掘都是有用的,异常数据、冲突数据等都会对数据挖掘产生不良影响,清理过程的目的就是去掉噪声数据、矛盾数据等不适合训练和学习的数据。数据经过预处理和优化后,随之形成数据仓库,此时即可应用各种数据挖掘算法。
数据挖掘的算法多种多样,具体哪种算法合适要根据实际情况而定;同一种数据挖掘算法可能只适合特定的应用环境。根据数据挖掘过程中是否需要指导,可以将数据挖掘算法分为有指导的学习和无指导的学习两类。无监督的学习过程又被称为聚类分析,聚类过程中不会标记样本,而是需要通过聚类算法自动确定;样本数据不会经过训练即可被划分为若干类。分类算法利用判别函数将样本数据划分为若干簇,此算法的本质目的是通过训练方法得到判别函数。
经典的数据挖掘算法包括[2]:(1)决策树算法。作为一种典型的分类方法,决策树算法先借助归纳算法生成决策树(可读的规则),然后再使用决策树分析新数据;它是从机器学习领域发展成的一种分类函数逼近方法,其核心是构造精度高、规模小的决策树。构造决策树分为生成决策树和决策树的剪枝两步。(2)神经网络算法。用于模拟人的逻辑思维并根据逻辑规则进行推理。神经网络算法先把数据信息化为可以用符号表示的概念,接下来根据符号运算进行逻辑推理。推理过程可以写成串行的指令交由程序执行。(3)统计分析方法。在使用其他的数据挖掘方法之前,可以先尝试使用统计分析方法来解决问题。通过对某些指标的分析,可以反映数据存在的差异和变化;常用的统计分析方法有假设检验,回归分析以及方差分析等。(4)朴素贝叶斯分类。朴素贝叶斯方法源于古典数学理论,只需要很少的参数即可对数据进行分类,并且对缺失数据也不太敏感。贝叶斯公式常用于表示不确定性,所以朴素贝叶斯方法是一种研究不确定性的方法。(5)K-means聚类方法。这是一种基于距离的聚类算法,认为相似度大的两个数据间的距离也越近。K-means算法首先选取任意k个数据作为初始聚类的中心,然后在此基础上进行分类;这k个聚类中心点的选取对聚类结果的影响很大。
2 校园网用户行为的分析
用户网络行为指的是大量用户在使用多种多样的网络资源过程中,所表现出来的规律性行为。目前我国网络用户已高达1.2亿,其中校园网用户占很大一部分,而尚在校园中的学生的世界观、人生观等很容易受到网络不良环境的影响,因此有必要掌握和了解校园网用户的行为。另外,掌握校园网用户行为对改进校园网络设计、增强校园网用户的体验有重要的现实意义。
用户的网络行为可以分为沟通交流类、信息获取类以及电子服务类等。沟通交流类的用户行为指的是校园网用户间借助即时通讯软件、电子邮件等进行交流;另外,校园网是一个重要的信息获取平台,校园网用户可以获取教学资源、课表信息、课表、成绩学分信息等;除此之外,还可以通过校园网实现奖学金申请及发放、选修课程、借阅图书等服务。校园网用户的行为是如此多种多样,以至于用传统的技术很难以得到校园网用户的行为模型。
目前国内对校园网用户行为的分析还处于起步阶段,一般是对服务器中的数据进行分析
文档评论(0)