校园网日志挖掘平台探究.doc

下载文档

1
0
约2.96千字
约 6页
2017-12-06 发布于福建
举报
版权申诉
保障服务

校园网日志挖掘平台探究.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

校园网日志挖掘平台探究

校园网日志挖掘平台探究　　摘要：随着学校信息化建设水平的不断提升，校园网内大量的数据信息不停地产生并囤积在服务器中。如何从这些数据里提取出有用的知识，已经成为计算机技术研究的热门课题。关键词：校园网日志研究计算机中图分类号：TP11.5 文献标识码：A 文章编号：1674-098X（2013）02（a）-0025-01 1 校园网日志挖掘平台研究目的及意义目前大部分学校的日志信息仅储存后用作突发事件取证留档，没有对其进行进一步的分析研究，信息管理人员认为此类数据信息一旦超过有效期（如3个月）就没有任何意义，可以进行删除用来回收存储空间。其实海量历史数据中就包括了校园网络使用日志，日志内容涉及用户使用网络的各个方面，包含时间、人员、目的、方法等，为数据挖掘工作提供了坚实的基础。通过校园网日志挖掘平台能够回答管理者最关心的问题：不同的用户分别在浏览什么网站，关心什么问题；校园网各个页面之间访问关联关系、频率、流量等。通过挖掘研究，能够得到用户的使用频率、使用目的、使用方法等，对网络调整及规划具有一定的辅助决策作用。校园网日志较普通网络日志有较为明显优势：在有设备支持的情况下，可以根据用户使用IP查询到用户基本对应关系（如学/工号），大大提高了在数据挖掘算法在用户识别环节的分析能力。以上海大学校园网为例，系统通过自行开发的IP地址管理程序以及网络出口审计程序，能够基本准确的匹配到使用用户信息，并且可以再借由上海大学自有的信息管理系统以及各类系统接口，通过以学/工号为主键的信息反馈到学校其他部门进行专项研究，由平台提供统一数据接口，直接提供给学校其他有类似需求的部门进行个性化在线分析，为学校各类决策支持提供数据依托，实现横向数据挖掘，这也是本研究未来的发展方向。 2 校园网日志挖掘平台研究初探 2.1 数据采集及预处理校园网日志分析平台的实验数据来源主要来自于校内出口计费系统上学生上网行为日志，以及上海大学子新开发的IP申请系统中IP所对应的个人信息。由于系统设计或多系统兼容性问题，存在采集数据有噪声、不完整和不一致的情况，必须进行数据清洗，提高挖掘过程的精度和性能。（1）缺失值。经过对几个数据来源系统的数据进行分析，得出结论：在实际运行过程中数值缺失的情况相对较少，因为上海大学用户上网全部采用实名认证的登录方式，只有非常陈旧的数据无法在IP系统中关联，并且主要集中在多系统之间对应数据不完整的情况下，该文研究中将直接舍弃这些存在数据缺失的条目，因为根据大致统计可以看出，缺失条目与附近的数据差异并不大，舍弃这些条目对后期分析不会造成太大的影响。（2）噪声数据。该文采集数据中的噪声主要来自于学校内用户访问外网或进行某些网上操作时必须要经过的某些特殊路径，一种情况是在某些特殊时期对固定网站的频繁访问，如选课期间以及考试期间，大量频繁访问固定网站会对该时期用户真实访问兴趣点造成影响，另一种情况则是由于用户在按入终端上安装的某些软件会自动与服务器连接通信，包括自动下载等功能，也会造成大量频繁访问，因此需要针对以上两种特殊现象进行去噪处理。本研究中的出具解决方法是将此类网站日志暂时屏蔽，不纳入到分析样本中，以此来消除对最终数据挖掘结果的影响。 2.2 校园网日志统计与分析本研究拟采用ASP.NET环境开发日志统计分析软件，按照日、周、月、学期对校园日志数据进行统计和监控，并生成相应图表。日志属于来自于学校出口计费系统，主要有以下一个关键字段作为统计列：（1）tarip（目标地址）记录用户访问目标IP地址。（2）protocol（协议类型）筛选http或http-download。本研究假射其余的默认为非网页访问，不纳入统计分析范围内。（3）rawdate（记录时间）记录了日志时间。（4）snapshot（地址快照）记录了用户所访问网络资源的url，格式如下：host/url/subject/bodysize。将其中的url清理后获取访问网页有效地址。在统计分析工作前，将编写程序将tarip中的信息通过学校自行开发的IP地址管理系统转换为访问用户的实际学/工号，用来进行分类统计分析操作。 2.3 校园网关联规则分析本研究拟采用开源的Apriori算法进行关联规则分析，找出校园网用户在各网站之间的访问规则。研究中的Apriori算法前期准备工作如：（1）用户识别：可以借用在统计分析中已经转换好的访问数据直按导入，保证了用户识别的准确性，最大限度的降低了识别错误率。（2）会话识别：本研究暂时采用公认度比较高的时间区分法，取26 min为阂值，在此时间范围内用户对同一网站的多次访问理解为对该网站的一次会话操作。（3）频繁项集：根据笔者多次的实际操作，暂定取支持度为0.02