- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关键词标注教学论坛内容组织方法研究
基于关键词标注教学论坛内容组织方法研究
【摘要】随着网络交互平台在教学活动中的普及,论坛、Blog等成为教学活动中实现知识分享的重要手段。然而,论坛和Blog中帖子的无序性、同类帖子之间缺乏联系等问题日益凸显,成为知识进一步共享的桎梏。因此,以分词和文本聚类的相关理论为指导,研究论坛帖子内容的内在联系,探索在教学平台上对帖子进行分词并通过关键词实现标注,进而把论坛中的所有帖子归纳到知识体系中,对于提高教学平台的服务质量,实现大范围的知识分享和建构具有重要意义。
【关键词】中文分词;知识体系;关键词标注
【中图分类号】G420 【文献标识码】A【论文编号】1009―8097(2009)12―0087―04
一 问题的发现
随着教育技术的发展,教学服务平台在教学活动中发挥着越来越重要的作用,论坛、Blog等成为学习者进行知识分享的重要平台。教育技术的相关研究证明:学习者在论坛(或Blog)中按照自己对知识的理解撰写帖子、参与讨论,有利于学习者按照个体思维习惯对知识点及其内在联系进行梳理,使之规范化、条理化,是一种重要的知识重构过程。在这一过程中,学习者能够使自己的隐性知识显性化,并通过Blog或个人网页与其他同学分享自己对知识的理解。同学之间通过相互分享不同语言形式、不同理解风格的知识树,有助于他们从不同的角度探讨知识,深化个体对知识的理解。因此,学习者参与论坛并组织专题讨论的过程本身就是一个知识建构、知识迁移和知识创新的过程[1]。
然而,在开展具体研究的过程中,笔者发现:随着论坛(或Blog)中帖子数量的增加,帖子的无序性、同类帖子之间缺乏联系的缺陷逐步暴露出来。当论坛(或Blog)中帖子的数量达到一定规模时,学习者常常难以从帖子的海洋中获取所需的内容。这一问题导致学习者在阅读其他同学的帖子和回帖的过程中,只能就当前的主题帖和回帖进行讨论,很难获取针对同一知识点的其他主题帖及相关回帖,使知识的分享和重构受到限制。
针对教学论坛(或Blog)中同类帖子之间缺乏联系、不利于知识分享和社会知识建构的状况,笔者进行了如下设想:“如果以学科教学中的知识点为链接结点,建构教学论坛(或Blog)中各类帖子之间的联系,建立以知识体系为核心的导航系统,过滤掉一些与学科教学相关性低的帖子,就能提高优质帖子的利用率,使学习者在参与讨论的过程中,能够快速地获取相关的帖子。通过论坛中的这种横向链接关系,引导学习者在参与讨论的过程中展开联想,逐步扩大知识面,从而促进学习者从不同的层次和维度思考问题,促使学习者从多个角度实现意义建构。”
尽管Web2.0已经提出了对信息标记和管理的方法、思想,而且Tag和RSS的思路也已在某些Blog中有所体现。然而,由于其标注关键词和超级链接管理都非常注重普适性,并不是面向学科教学的,因此在实际的教学应用中仍存在标注不够便利、对普通学生要求较高、其关键词并没有完全面向学科教学等缺点。
为此,笔者认为:在对教学平台论坛(或Blog)的管理过程中融入知识科学的文本聚类思想,使教学平台能够针对学科知识特点,选取特定的词汇作为特征向量,探讨知识点之间的联系,自动形成基于知识点联系的知识网络图,对于提高教学平台的服务水平、促进学习者积极地进行意义建构是具有重要意义的。
二 系统设计的指导思想
探求解决上述问题的方法,其关键是解决对帖子的分析、聚类问题,即探索一种算法,解决如何依据帖子所反应的知识内容,为大量帖子建立基于知识体系的横向关联的问题。
1 指导思想
鉴于中文信息处理的特点,借鉴中文信息处理的最新成果,在这一任务中,首先要解决的是中文文档的分词问题,其次是如何使文本聚类、并使相关文档建立链接关系等问题。因此,需要解决好以下子任务:
(1)选择适当的词汇库作为基础语料库,并要求学科教师根据学科的特点组织专有名词、专业术语丰富基础语料库,作为实现分词的依据。
(2)选择有效的分词算法,对平台内尚未处理的帖子进行分词处理,并重点关注与学科关系密切的专业术语在帖子中出现的频率和位置。
(3)分析帖子内学科专业术语的作用、频率和权重,利用文本聚类的相关理论,计算帖子与关键词之间的相关度,并把计算结果填写到相关度表格中。
(4)利用动态网站设计的有关技术(ASP.Net或JSP),以可视化的方式呈现帖子之间的逻辑关系。
2 相关研究综述
从当前文本聚类分析的技术发展来看,文本聚类分析已经发展成为一项具有较大实用价值的技术,其目标是在分析文本内容的基础上,按照预先定义的文本类别,使多篇文本被自动归类。由于英文以单词作为语言的基本单位,每个单词表示一个固定的语义,每两个单词之间都有相对固定的分隔符号。因此基于
文档评论(0)