数据挖掘在校园网应用.docVIP

下载本文档

2
0
约4.89千字
约 10页
2018-09-10 发布于福建
举报
版权申诉

数据挖掘在校园网应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘在校园网应用

数据挖掘在校园网应用　　摘要：校园网是一种开放的网络环境，用户群体的行为十分活跃，多样化的用户行为使校园网的管理非常复杂。数据挖掘技术可以从海量数据中抽取相关知识，并对用户行为进行分类。本文将数据挖掘技术用于校园网用户行为分析，得到用户使用校园网络的行为模式，可以为校园网的建设、流量分析以及相关决策提供依据。　　关键词：数据挖掘；用户行为分析；K-means算法　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2015）22-0145-02 　　1 数据挖掘技术　　数据挖掘技术又称为数据库中的知识发现，目的是从网络上的海量数据中快速提取有用的信息；一般而言，数据挖掘技术有如下特点[1]：（1）海量数据。数据挖掘面向的数据量很大，所以如何高效地存取数据，并从大量数据中找到存在于这些数据中的关系，是首先要考虑的问题。（2）不确定性。应用于数据挖掘的数据多数是为特定目的而收集的数据，但是收集数据时可能会遗漏重要的变量，而遗漏的变量可能在做数据挖掘时时至关重要的，因此未知性以及不确定性可能会存在于数据挖掘的全过程。（3）先验知识的失真性。从事数据挖掘的人员可能不希望“假设检验”的存在，即不太愿意将其先验知识预先内置于数据挖掘算法中。　　要得到良好的数据挖掘效果，就必须对海量数据进行采集、预处理和优化，优化过程可能需要经常重复一些步骤。原始数据的采集是数据挖掘的第一步，此过程中产生的费用会占整个数据挖掘系统相当大的比重；为确保得到良好的数据挖掘效果，就不得不采集足够多的原始数据。采集后的数据要进行抽样和清理：抽样过程会从大量的元素数据中，提取出有代表性的数据作为样本数据；并不是所有的数据对数据挖掘都是有用的，异常数据、冲突数据等都会对数据挖掘产生不良影响，清理过程的目的就是去掉噪声数据、矛盾数据等不适合训练和学习的数据。数据经过预处理和优化后，随之形成数据仓库，此时即可应用各种数据挖掘算法。　　数据挖掘的算法多种多样，具体哪种算法合适要根据实际情况而定；同一种数据挖掘算法可能只适合特定的应用环境。根据数据挖掘过程中是否需要指导，可以将数据挖掘算法分为有指导的学习和无指导的学习两类。无监督的学习过程又被称为聚类分析，聚类过程中不会标记样本，而是需要通过聚类算法自动确定；样本数据不会经过训练即可被划分为若干类。分类算法利用判别函数将样本数据划分为若干簇，此算法的本质目的是通过训练方法得到判别函数。　　经典的数据挖掘算法包括[2]：（1）决策树算法。作为一种典型的分类方法，决策树算法先借助归纳算法生成决策树（可读的规则），然后再使用决策树分析新数据；它是从机器学习领域发展成的一种分类函数逼近方法，其核心是构造精度高、规模小的决策树。构造决策树分为生成决策树和决策树的剪枝两步。（2）神经网络算法。用于模拟人的逻辑思维并根据逻辑规则进行推理。神经网络算法先把数据信息化为可以用符号表示的概念，接下来根据符号运算进行逻辑推理。推理过程可以写成串行的指令交由程序执行。（3）统计分析方法。在使用其他的数据挖掘方法之前，可以先尝试使用统计分析方法来解决问题。通过对某些指标的分析，可以反映数据存在的差异和变化；常用的统计分析方法有假设检验，回归分析以及方差分析等。（4）朴素贝叶斯分类。朴素贝叶斯方法源于古典数学理论，只需要很少的参数即可对数据进行分类，并且对缺失数据也不太敏感。贝叶斯公式常用于表示不确定性，所以朴素贝叶斯方法是一种研究不确定性的方法。（5）K-means聚类方法。这是一种基于距离的聚类算法，认为相似度大的两个数据间的距离也越近。K-means算法首先选取任意k个数据作为初始聚类的中心，然后在此基础上进行分类；这k个聚类中心点的选取对聚类结果的影响很大。　　2 校园网用户行为的分析　　用户网络行为指的是大量用户在使用多种多样的网络资源过程中，所表现出来的规律性行为。目前我国网络用户已高达1.2亿，其中校园网用户占很大一部分，而尚在校园中的学生的世界观、人生观等很容易受到网络不良环境的影响，因此有必要掌握和了解校园网用户的行为。另外，掌握校园网用户行为对改进校园网络设计、增强校园网用户的体验有重要的现实意义。　　用户的网络行为可以分为沟通交流类、信息获取类以及电子服务类等。沟通交流类的用户行为指的是校园网用户间借助即时通讯软件、电子邮件等进行交流；另外，校园网是一个重要的信息获取平台，校园网用户可以获取教学资源、课表信息、课表、成绩学分信息等；除此之外，还可以通过校园网实现奖学金申请及发放、选修课程、借阅图书等服务。校园网用户的行为是如此多种多样，以至于用传统的技术很难以得到校园网用户的行为模型。　　目前国内对校园网用户行为的分析还处于起步阶段，一般是对服务器中的数据进行分析