基于web数据挖掘在远程教育中应用.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于web的数据挖掘在远程教育中的应用 2006.12.26?????? 共有评论()条 发表评论 ?? 收藏 本文旨在讨论把基于wed的数据挖掘技术应用于远程教育个性化授导的空间,通过获取学习者在web上的学习过程行为数据,如访问频度、内容、访问时间长短及偏好等,经过模式处理,得出学习者学习过程的一般模式规律,以此 ? 基于web的数据挖掘 ? 基于web的数据挖掘是将web的使用与传统的数据挖掘结合起来,来获取web知识的过程。一般来说,基于web的数据挖掘按照挖掘的对象不同,可以分为web内容挖掘、web结构挖掘及web使用挖掘。 ? web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有用知识的过程。 ? web结构挖掘是从人为的链接结构中获取有用的知识。由于文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的内容页面,重新组织内容结构,使内容逻辑结构更加合理。 ? web使用挖掘是主要通过挖掘相应站点的日志文件获取学习者的访问内容、停留时间、访问频度等,发现其学习访问模式等有用信息的过程。 ? 挖掘流程 ? 基于web的数据挖掘一般流程经过数据的采集、预处理、模式发现、模式的分析及其应用几个过程。 ? 数据采集 ? 根据挖掘的目的明确收集学习者什么样的数据:web内容挖掘是从web自身资源中收集信息,利用网页自动化分类技术可以用做站点搜索引擎;web结构挖掘从页面内部结构(intra)以及页面之间的结构(inter)获取资料,包括HTML内部标记和网页之间的链接关系,可以以树的形式记录下来;web使用挖掘从服务器端或者远程代理或者客户端来收集用户使用过程的数据,如IP、URL、ID、Time等。 ? 预处理 ? web内容挖掘的预处理:把网页中的文本、图片及其他文件转换成数据挖掘算法可用的形式。 ? web结构挖掘的预处理:对web的页面结构进行分析、变形,使之适用于数据挖掘系统。 ? web使用挖掘的预处理:过滤掉价值不大的信息(如用户访问的传输协议,错误代码等),补充用户完整路径,识别用户(Single IP address/Multi Server Sessons Multiple IP address/Single Server Session/Multiple IP address/Single User Multiple Agent/Single User)和识别事务(可以根据用户跨越页面时间长短来划分事务,也可以根据用户一系列的page view直到退回首页划分为一个会话事务)。 ? 模式发现 ? 经过数据预处理之后,应用一种合理的挖掘算法或综合应用不同的算法,如关联规则分析、聚类和分类技术、统计分析以及时序模式技术等,来处理“消噪”后的数据,最终发现用户的访问模式。关联规则分析可以发现学习者对内容页面之间的访问关系,调整页面之间的结构关系,预测学习者可能访问的内容,使其最快捷地访问到感兴趣的内容。聚类分析挖掘访问相同页面的相似学习者,可以为其群体提供特定的内容;同时,聚类分析还可以将内容相关的页面归为一个组,为学习者搜索内容提供服务。预先为学习者设定几个类别,利用分类技术将学习者投射到某一个类中,为某特殊类提供特殊的个性化资源和学习支持服务,还可以用于远程协作的学习小组分配。统计分析技术是通过统计学习者经常访问或者访问频繁的内容,发现用户的兴趣倾向,也可以统计非法IP、无效URI 和未授权访问等。这些信息对于提高系统性能,密切注意学习者动向起着辅助决策作用。序列模式可以寻找用户频繁出现的序列,预测学习者行为,把其需要的资源主动提供给他(她),减少系统响应时间。 ? 模式的分析和应用 ? 通过模式挖掘之后,生成的规则数目庞大,表达晦涩,得不到很好的利用,这就需要对模式进行分析评价,通过模式分析和应用技术处理之,选择学习者易于理解和接受的方式显现出来。经常用到的是可视化技术、联机分析技术和智能查询机制等。利用数据挖掘与学习内容绑定的技术,在学习者学习过程中以可视化方式指导其学习和个性发展。 ? 远程教育个性化授导中的数据挖掘 ? 学习者特征模型构建 ? 根据学习者不同的特征参数,对学生学习活动进行跟踪,记录与学习相关的信息。记录学习者经常访问的URL,跟踪统计学生访问次数、总停留时间、该学生访问的课程数、该学生对哪些课程停留时间较长等,还可统计网站某个时间段内访问的次数、访问次数最多的URL地址、学习者作业的过程、参与讨论的情况、交流用的工具等。通过数据挖掘的去噪和模式发现模块,得到学习者的学习特征风格,建立和完善学习者学习模型,建立学习者个性数据库,为不同的学习者提供合适学习策略提供基础。 在启动学习者个

文档评论(0)

bhyq + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档