一种某高校网络用户上网形式数据挖掘方法.docVIP

一种某高校网络用户上网形式数据挖掘方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种某高校网络用户上网形式数据挖掘方法

一种某高校网络用户上网形式的数据挖掘方法   摘 要: 数据挖掘是利用各种分析工具在海量数据中发现某些模型和数据间关系的过程。如 何根据用户上网日志发现用户感兴趣的信息和资源,帮助网络中心科学地管理和规范其网络 用户,已经成为一个迫切的问题。本文通过问题陈述、数据搜集、数据预处理、数据挖掘和 结论几个步骤用SPSS软件对某高校某一时段的网络用户上网日志进行分析,为科学的网络管 理提供依据。   关键词:数据挖掘; SPSS; 上网日志   中图分类号:TP301 文献标识码:A 文章编号:1672-1098(2008)03-0069-04      数据挖掘是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的过程 ,它已经成为各行各业对数据进行分析的不可或缺的手段。过去,各企业、政府部门、学校 、科研机构等往往投入大量资金去收集和存储数据,并把很多精力都放在提高存储效率上。 事实上,在这些海量数据中,只有一部分是有用的。现在,越来越多的企业认识到,从他们 的客户信息中挖掘出最有价值客户,或者从这些信息中找出客户消费的某种规律,要比存储 大量的历史数据更有价值。 这就是数据挖掘(data mining), 即在“数据”的矿山中挖掘 出“金块”。 数据挖掘可以在帮助企业减少不必要投资风险的同时提高资金收益, 它给企 业带来的回报几乎是无止境的。   数据挖掘是一个利用各种分析工具在大量数据中发现模型和数据间关系的过程,这些模型和 关系可以用来做出预测[1]83。其程序一般包括:陈述和阐明问题、数据搜集、数 据预处理、模型评估、解释模型和得出结论。具体过程如图1数据挖掘过程所示。本文也将 根据这个流程,利用统计专业软件SPSS对某高校网络用户上网行为模式进行分析。         1 SPSS简介      SPSS(Statistical Package for the Social Science,社会科学统计软件包)。 是为了强调它在社会科学应用的一面(因为社会科 学研究中的许多现象都是随机的,要使用统计学来进行研究),而实际上广泛应用于经济学 、社会学、生物学、教育学、心理学、医学以及体育、工业、农业、林业、商业和金融等各 个领域[2]14。   SPSS集数据录入、资料编辑、数据管理、统计分析、报表制作、图形绘制为一体。SPS S统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线 性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类。SPSS也有专 门的绘图系统,可以根据数据绘制各种图形[2]15。   目前为止,SPSS已具有适合于DOS、Windows、Unix、Macintosh、OS/2等多种操作系统 使用的产品,本文使用的是Windows版本。      2 问题陈述      自从某高校校园网开通以来,其网络用户都是通过计费上网的。这就使该校网络中心 积累了大量的用户上网日志,数据量不断地迅速膨胀。 这些数据犹如茫茫的信息海洋,能 否 从中了解这些表面毫无关联的数据之间是否存在或多或少的关系?怎样才能找到这些关系并 运用到网络管理中呢?例如,能否有助于发现上网成瘾而影响学习的同学,为辅导员做好学 生工作提供帮助;对上网时间过长的用户加以适当限制等。这就是数据挖掘要做的工作。   本文会利用用户信息文件User.txt和用户上网日志文件Log.txt对网络用户的上网行为 模式进行分析。   2.1 数据搜集   本文是对两个数据文件进行分析的,分别是用户信息文件User.txt和用户上网日志文 件Log.txt。其中User.txt 为用户信息文件,主要包括:用户名和用户所在的用户组,其中 102代表研究生组,103代表本科生组,104代表教职工组,105代表办公用户组。Log.txt为 用户上网日志文件。   2.2 数据分析方法   要对数据进行分析,首先要将这些数据导入数据库中。因为最初获得的数据是.txt形 式的,所以要利用某种语言(如Java)编写的代码将其导入数据库的表中,或者直接利用某个 软件直接将其导入库中,如Microsoft SQL Server 2000 Enterprise Edition。本次分析 采用SPSS 15.0 for Windows。      3 数据预处理      (1) Log.txt数据导入 首先将Log.txt利用SPSS导入表中,可以发现总共有389 348条记 录,每条记录的格式如图2所示。其中的属性分别为用户IP、用户名、访问时间戳、端口、 访问方法、访问内容(即URL) 、版本、提交和发送的数据包以及传送方式。在导入时,此日 志是以空格作为分隔符的。

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档