- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第八讲:文本挖掘应用——Mooc时代在线课程知识点自动提取算法设计
引言01理论基础与方法0203自动提取知识点的框架和算法04实证
引言01理论基础与方法0203自动提取知识点的框架和算法04实证
MOOC,英文全称MassiveOpenOnlineCourse,中文全称为大规模在线开放课程。MOOC发展非常迅速,以Coursera为例,2011年底成立,2014年注册人数就突破440万,学生来自196个国家,合作高校84所,426门课程
MOOC学习能够按期毕业的学生不足5%,
因此MOOC面临最大的问题-高辍学率
问题分析解决思路主要原因:课程资源与学生能力不匹配解决思路:根据学生的学习能力和兴趣爱好向学生推荐合适的课程资源(个性化推荐)需要技术:本体推荐技术,首要任务是构建本体,考虑大规模课程资源,需要自动构建本体(本体学习,OntologyLearning)
课程本体学习课程本体学习包括:课程知识点自动提取知识点之间关系自动提取课程知识点自动提取是非常重要的任务,也是关系提取的基础
理论基础与方法02引言0103自动提取知识点的框架和算法04实证
文本挖掘一般方法文档物征提取/文本表示特征选择挖掘方法获取知识模式知识用户评价????
2.1概念过滤(Conceptfilters)领域相关度领域一致度概率过滤
2.2词频TF-IDF词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的频率如果包含词条t的文档越少,也就是n越小,逆向文件频率(inversedocumentfrequency,IDF)是一个词语普遍重要性的度量,基本思想:IDF越大,则说明词条t具有很好的类别区分能力
2.3相似度计算余弦相似度Jaccard相似性系数皮尔逊相关系数
03自动提取知识点的框架和算法引言01理论基础与方法0204实证
自动提取课程知识点的框架
3.1文档预处理对文档进行分类,取MOOC中非常重要的3类文档:教学文件、教学内容和习题库将各种格式(word、pdf、html、XML、Excel等)统一转化为纯文本文件格式(*.txt)
3.2中文分词与词性标注采用中科院计算所研究的ICTCLAS开源软件进行分词和词性标注增加教育领域词典、计算机领域词典、以及课程领域词典
3.3选择候选课程知识点采用VSM模型利用TF-IDF算法计算特征的TF-IDF值考虑到以后对知识点间关系的提取,需要统计每个候选课程知识点的属性,包括:所在文档的位置、所在文档字节大小、所在段落位置、所在句子的位置、同一句子中的其它候选知识点等等
3.4相似度计算
3.5权重计算
3.6提取课程知识点
3.7综合测量值(Fmeasures)和专家评价
04实证引言01理论基础与方法0203自动提取知识点的框架和算法
本实验采用基于.NET2010环境下的C#语言和SQL2005进行编程,分词和词性标注采用中国科学院的分词开源程序:SharpICTCLAS本文选择《C语言程序设计》作为研究对象,从3个MOOC平台中下载68个C语言的学习文档,通过准确率(precision)、召回率(recall)和综合测量值(Fmeasures)知识点分为一级知识点(大类)和二级知识点(小类),为了后面关系提取奠定基础
选取一级知识点阀值
选取二级知识点阀值
结果对比
通过Protégé的界面
谢谢!
原创力文档


文档评论(0)