基于Web使用挖掘个性化网络教育模型研究.docVIP

下载本文档

3
0
约3.94千字
约 9页
2018-08-28 发布于福建
举报
版权申诉

基于Web使用挖掘个性化网络教育模型研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Web使用挖掘个性化网络教育模型研究

基于Web使用挖掘个性化网络教育模型研究　　摘要：本文提出了一个基于Web使用挖掘的个性化网络教育模型，它能够应用数据挖掘的方法，从站点上积累下来的信息中提取抽象的、潜在的知识，以实现远程教育的个性化。　　关键词：个性化网络教育数据挖掘 Web使用挖掘　　中图分类号：G434文献标识码：A 文章编号：1673-8454（2008）15-0087-02 　　　　个性化网络教育是随着Web技术的发展而产生的一种新型教育方式，与传统教育模式相比，它不仅交互性好，同时还强调个性化，按学生的具体情况进行适应性培训，注重学生在学习过程中的积极参与。通过Web挖掘对这些用户特征的理解和分析，开展个性化教育活动。　　　　一、Web挖掘概念　　　　Web挖掘就是将传统的数据挖掘技术和Web技术结合起来，进行Web知识的提取，是对包括Web页面内容、页面之间的结构、用户访问信息等在内的各种数据，应用数据挖掘的方法，提取抽象的、潜在的、有用的知识。[1] 　　　　二、Web挖掘的分类　　　　　　一般地，Web挖掘可以分为三类：Web内容挖掘（Web content mining）、Web结构挖掘（Web structure mining）、Web使用挖掘（Web usage mining）。[2] 　　1．Web内容挖掘　　Web内容挖掘是从文档内容或其描述中抽取知识的过程。它可以帮助用户过滤信息或通过对Web上的数据进行集成、建模，以支持对Web数据的复杂查询。Web文档文本挖掘、基于概念索引的资源挖掘和基于代理的技术都属于Web内容挖掘。　　2．Web结构挖掘　　Web挖掘主要是通过对Web站点的结构进行分析、变形和归纳，从WWW的组织结构和链接关系中推导知识。超文本之间的互连使得WWW能够提供除文档之外的很多有用信息。　　3．Web使用挖掘　　Web使用挖掘是数据挖掘技术在Web使用数据上的应用，它通过对Web日志记录的挖掘，发现用户访问Web页面的模式，其主要目标是从Web的访问记录中抽取感兴趣的模式，通过对用户的访问内容、停留时间和访问频度等参数的分析，得到关于用户访问行为和方式的普遍知识。　　　　三、基于Web使用挖掘的个性化网络教育模型　　　　1．模型的提出　　本文提出的基于Web使用挖掘的个性化网络教育模型如图1所示，它可以对站点上积累的大量的用户日志和交互数据进行分析，以便发现用户感兴趣的模式和规则，使学习者可以根据自己的实际情况安排学习内容和学习进程；使课程设计者可以根据学习者的具体情况设计页面；可以使教师及时掌握学习者的学习情况。这样，系统就能较好地从用户出发，尽可能地调动每个学习者的兴趣，并根据学习者兴趣的变化随时进行调整，以实现个性化服务。　　2．模型的实现　　在本文提出的模型中，Web使用挖掘模块的输入包括系统的日志文件、用户与站点的交互数据（如用户的注册信息、答疑信息、考试成绩、作业情况等）、站点文件（HTML文件）、知识点结构文件等。Web使用挖掘模块的结构如图2所示，它需要经过数据预处理、模式发现和模式分析几个过程，这也是Web使用挖掘的实现过程。[3] 　　（1）数据预处理　　对得到的原始用户浏览信息进行处理，取出用户访问的URL、页面的大小、请求的时间、在页面上停留的时间、请求者的Internet域名、用户、服务器状态等变量。预处理过程包括：　　1）数据清洗删除Web日志中与数据挖掘不相关的冗余项，只保留与数据挖掘相关的用户IP地址、用户ID、用户请求访问的URL页面及访问的时间等属性。　　2）用户识别尽可能用比较合理的启发式规则进行用户识别。例如一旦发现用户端浏览器软件或操作系统发生改变，则认为是新用户。　　3）会话识别在跨越时间区段较大的Web服务器日志中，用户有可能多次访问了该站点。会话识别的目的就是将用户的访问记录分为单个的会话。最简单的方法就是利用超时，如果两个页面间的请求时间的差值超过一定的界限就认为用户开始了一个新的会话。　　4）路径补充对于一些在用户日志中没有记录下来的重要的访问路径，可以利用类似用户识别的方法进行路径补充。　　　　5）事务识别由于不同用户访问的页面属于不同的会话，因此如果一个用户访问的页面跨越时间较长，一般认为用户访问不只一次。最简单的方法是使用时间戳Timeout。　　（2）模式发现　　模式发现就是利用一些数据挖掘算法来挖掘出模式、规则等。可以使用的数据挖掘算法包括关联规则挖掘算法[4]（如Apriori、AprioriTid和AIS算法）、序列模式挖掘算法[5,6]（如AprioriSome和AprioriAll算法）聚类算法[6