Web日志挖掘在网络缘亩程教学中的应用.docVIP

下载本文档

0
0
约4.97千字
约 9页
2017-08-19 发布于湖北
举报
版权申诉

Web日志挖掘在网络缘亩程教学中的应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web日志挖掘在网络缘亩程教学中的应用

Web日志挖掘在网络远程教学中的应用摘要随着现代信息技术在远程教育中越来越广泛的应用,网络远程教育模式正逐步成为远程教育的主流。本文对Web日志挖掘在远程教育强中应用流程进行了研究探讨,从而更好地指导了远程教育实践。关键词 Web挖掘; Web日志；远程教学1 引言在网络远程教育模式下，学生学习的过程就是在远程教育网站页面中跳转活动的过程，他们的每个活动都是对教学网站上的一个页面对象的点击操作，这些点击操作都能被完整地记录在系统日志中，通过对日志的分析挖掘，可以找出学生行为模式；在另一方面，远程教育网站的结构组织是不是符合学生和教师学习和教学的规律，通过对网站日志的分析也可以得到。所有这些都离不开数据挖掘技术，本文就是通过对远程教育Web服务器日志文件进行分析，从而进一步指导网站建设。2 Web挖掘技术介绍 Web挖掘是针对包括Web页面内容，页面之间的结构，用户访问信息等在内的各种Web数据源。在一定基础上应用数据挖掘的方法以发现有用的隐含的知识的过程。Web挖掘与传统的数据挖掘相比有其自身的特点。Web本身是半结构化或无结构的数据，缺乏机器可理解的语义,Web挖掘的对象是大量，异质，分布的Web文档，对Web服务器上的日志、用户信息等数据所开展的挖掘工作也属于Web数据挖掘的范畴。Web信息的多样性决定了挖掘任务的多样性。按照Web处理对象的不同,一般将Web挖掘分为3类: Web内容挖掘，Web结构挖掘和Web使用记录挖掘(如图1所示)，针对这3种不同的处理对象,能够挖掘出许多有用的信息。图1 Web挖掘分类2.1 Web内容挖掘 Web内容挖掘是指从文档的内容中提取知识。Web内容挖掘又分为文本挖掘和多媒体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,Web文本挖掘已经有了比较实用的功能。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用Web文档进行趋势预测等。Web文档中的标记,例如lt;Titlegt;和lt;Headinggt;等蕴含了额外的信息,可以利用这些信息来加强Web文本挖掘的作用。2.2 Web结构挖掘 Web结构挖掘是从Web的组织结构和链接关系中推导知识。它不仅仅局限于文档之间的超链接结构,还包括文档内部的结构。文档中的URL目录路径的结构等。Web结构挖掘能够利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序,寻找个人主页和相似网页,提高Web搜索蜘蛛在网上的爬行效率,沿着超链接优先爬行。Web结构挖掘还可以用于对Web页进行分类、预测用户的Web链接使用及Web链接属性的可视化。对各个商业搜索引擎索引用的页数量进行统计分析等。2.3 Web使用记录挖掘 Web使用记录挖掘是指从Web的使用记录中提取感兴趣的模式，目前Web使用记录挖掘方面的研究较多,WWW中的每个服务器都保留了访问日志,记录了关于用户访问和交互的信息,可以通过分析和研究Web日志记录中的规律,来识别网站的潜在用户[1];可以用基于扩展有向树模型来识别用户浏览序列模式,从而进行Web日志挖掘;可以根据用户访问的Web记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些Web页面,加快用户获取页面的速度，分析这些数据还可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。3　Web日志挖掘步骤 Web日志挖掘流程如图2所示：图2 Web日志挖掘流程3.1 Web日志记录的主要内容 Web服务器日志记录用户访问该教学网站时每个页面的请求信息。 3.2 数据预处理 Web日志挖掘首先要对日志中的原始数据进行预处理，包括依赖于域的数据净化、用户识别、会话识别和路径补充等。预处理过程是保证 Web日志挖掘质量的关键步骤。 (1)数据净化。指删除 Web服务器日志中与挖掘算法无关的数据。大多数情况，只有日志中 HTML文件与用户会话相关，所以通过检查 URL 的后缀删除认为不相关的数据。例如 ,对于一个主要包含图形文档的站点，此时就不能将图形文件删除，而是自定义一套规则将它对应到一定的HTML文件，这样就不会将一些重要的用户会话丢失。(2)识别用户。由于本地缓存、代理服务器和防火墙的存在，使得识别用户的任务变得很复杂。一般最常被 Web日志挖掘工具使用的技术就是基于日志/站点的方法，例如可以使用了一些启发式规则帮助识别用户。1）如果IP地址相同，但是日志中表明用户的浏览器或操作系统改变了，则认为不同的代理表示不同的用户。2）将日志和网站拓扑结构结合，构造用户的浏览路径。如果当前请求的页面同用户已浏览的页面间没有链接关系，则认为存在IP地址相同的多个用户。（3）识别用户会话。用户会话是指用户对服务器的一次有效访问，通过其