浅谈Web挖掘技术在教育网站中应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈Web挖掘技术在教育网站中应用

浅谈Web挖掘技术在教育网站中应用   摘 要:本文介绍了数据挖掘的新技术。通过对基于Web挖掘技术的教育网站的模型介绍,对在Web服务器端和客户端进行学生浏览路径模式采集的各种方法进行了分析,探讨了如何将Web使用挖掘技术应用到教育网站。   关键词:数据挖掘 浏览路径采集 教育网站      Web使用挖掘是将数据挖掘技术应用在大型Web资源中以分析Web站点的使用。通过Web使用挖掘,对用户的访问内容、停留时间和频度等进行分析,可以得到关于用户访问行为和方式的普遍知识,用以改进Web站点服务设计。更重要的是,通过对这些用户特征的理解和分析,可以开展有针对性的个性化教育网站的建设。不同类型的教育网站针对的用户主次不同。虽然有的网站内容主要针对的是老师,有的主要针对的是学生,还有的针对其他教育人士等,但在笔者看来,所有访问教育网站的用户,我们都可以称作学生。通过对学生访问行为、频度、内容等的分析,给出每个学生的特征,进而给每个学生个性化的界面,提供个性化的服务。   目前,我们可以将一些新的数据挖掘技术应用到教育网站中。其中文本挖掘、网络挖掘和可视化挖掘就是其中比较重要的三种。文本挖掘(Text mining),顾名思义,就是从非结构化的文本中发现潜在的概念以及概念间的相互关系。在这项技术中,最关键的是分词技术,建立词典。只有让计算机依据词典完成正确断词之后,才可以实现将非结构化信息转化为结构化信息,然后就可以进一步研究文本之间的关系。比如通过分析网站中的内容来建立教育信息预处理机制,其实既利用了文本挖掘技术,也利用了网络挖掘技术。具体来讲,网络挖掘还可以细分为三种挖掘,(1)前面提到的文本挖掘;(2)结构挖掘(Structure mining),主要解决网页与网页之间的链接关系;(3)点击挖掘(Hit mining),是针对点击率的挖掘分析。总体而言,要实现网络挖掘,从技术上讲并没有难度,大部分的问题都可以用成熟方法来解决。在文本挖掘和网络挖掘之外,可视化挖掘(Visual Data Mining)因为和工具的易用性联系在一起,因而也颇为重要。简单来讲,可视化包括了数据预处理和结果呈现两个方面。比如StatSoft一直强调的完整的图表工具库以及高质量的图表呈现效果就???其优势所在。但是总体情况来看,可视化的内含和标准近几年一直没有更新的内容,而且,即便工具厂商自认为做得再“可视化”,对于用户来说,仍有难以理解和掌握的地方。下面是对基于Web使用挖掘技术的教育网站的模型分析,并进行了一些数据挖掘新技术的注入。   在教育网站中,Web服务器为客户浏览器端提供H′I′TP服务等功能,应用服务器内存放学生的个人注册和相关课程等信息。与传统的网站结构相比,多了两个重要部分:(1)要采集学生的浏览路径;(2)它有一个控制模块,负责将采集到的学生浏览路径信息进行预处理和相关数据的挖掘。然后将动态地生成学习建议信息返回给Web服务器,并添加到学生浏览的页面中,或者对应用服务器中的学生相关知识信息和学习情况进行修改,在学生学习时进行针对性比较强的训练。   那么,如何尽可能准确地获得学生浏览路径信息?   一、服务器端的采集   1.Web服务器日志   它清楚地记录了学生访问站点的数据,每当站点上的页面被访问一次,Web服务器就在日志中增加一条相应的记录。常见Web服务器日志一般采用ECLM日志模式。大致结构如表所示:   2.网络监视器   它称作“包检测技术”,实际上是一个可替换服务器日志进行使用学生浏览路径采集的方法。它一般直接放在Web服务器外,监视和分析学生向Web服务器的请求,它直接从TCP/IP包抽取功能数据进行分析,可以检测HTTP头之外的信息,可扩展性比较好。对于Web日志而言,如果学生请求是通过Post方法来传送的,那么参数在日志相应栏中就不可见,但通过网络监视器就可以直接获取参数来进行分析。   二、客户端采集   客户端数据收集可以通过使用远程的代理(如JavaScript,Java Applet或PLUGIN)或通过修改浏览器的源码来提高数据收集的能力。客户端的数据收集需要学生的协作:要么使JavaScript或Java Applet生效,要么安装PLUGIN,要么使用修改过的浏览器。客户端的收集比服务器端的收集更具优越性,因为它是建立在学生的行为源上的,它可以准确地捕捉学生的行为,学生的浏览路径和浏览时间的测量可以很精确。   每个学生在开始使用网站时先在应用服务器上进行注册。控制模块对学生浏览路径进行预处理和相关数据挖掘。灵活地使用Web挖掘技术,可以建立个性化的教育网站。   1.如果发现学生的某些知识兴趣点之间的相关性,就动态提供给学生之间的超链接,使学生在网上学习更

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档