- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然语言处理技术在中高职课程衔接中的应用.doc
自然语言处理技术在中高职课程衔接中的应用
摘要:在中高职课程衔接的实际中,存在着中高职专业设置不对口、专业课程内容重复等问题。为了选择对口专业及查找重复课程,采用人工手段对教育教学文件进行分析研究,效率低、精确性差。而使用计算机自然语言处理技术对中高职教学文件中的文本数据进行分析,可以快速获得中高职相关专业之间的相似度及专业课程内容之间的重复度,为课程设置提供科学依据。将自然语言处理技术用于青岛远洋船员职业学院“船舶工程技术”专业中高职课程衔接问题上,对相关文件进行分析,得到合理的结论。
关键词:中高职衔接;自然语言处理技术;课程设置
中图分类号:G712 文献标识码:A 文章编号:1672-5727(2015)11-0060-04
中高职教育课程衔接主要存在两个方面的难题:其一,中高职教育没有实行专业归类对口招生报考制度,造成中高职专业设置的对应关系不明确,各院校自行选择对接专业,造成很多中职专业在升高职时不对口。其二,中高职专业课程内容重复,使中职毕业生升入高职时重复学习相同的课程内容。
在我国,中高职课程衔接仍然依赖于专家经验。对口专业的判断及重复课程的筛选是通过对“人才培养方案”和“课程标准”等文本文件的内容进行人工分析。面对多个专业,每个专业数十门课程,采用人工分析,工作效率低,专业的对口程度和课程重复程度难以精确的衡量。为了科学高效地进行中高职课程衔接,不能仅仅依赖经验和人工分析,而应该运用计算机技术,对各院校多年积累的课程数据文件进行深入分析研究,使中高职课程衔接方法具备精确性和实用性。如何让计算机对“人才培养方案”和“课程标准”等文本文件进行自动识别分析是科学高效进行中高职课程衔接的关键。
自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学,是计算机科学领域与人工智能领域中的一个重要方向。 自然语言处理技术可以实现文本分类聚类、文本自动摘要、机器翻译、检索系统、问答系统、人机交互等诸多功能,其中重要的一项任务就是文本相似度分析。文本相似度分析最为著名的应用案例之一是搜索引擎,如谷歌、百度等,人们能通过输入文字来查找相关的新闻等网络资源,另外,在检测学术论文是否抄袭方面文本相似度也有其关键技术的应用。所谓文本相似度计算是指利用计算机自动计算文本间的相似程度,文本相似度是表示两个或多个文本之间相似程度的一个度量参数,相似度大,说明文件相似程度高,反之文件相似程度就低。
本文运用自然语言处理中的文本相似度算法对中高职课程相关的文本数据进行分析,能够快速地找出中高职对口专业,指导课程衔接方案的合理设置。
一、 自然语言处理中的文本相似度算法
文本相似度度量任务就是衡量两个文本之间语义相似的程度,是自然语言处理中一个非常重要的任务。常规的文本相似度度量方法是将文本转化词汇的集合,分析每个词在单个文本中出现的次数以及在整个语料库中出现的次数,进而利用每个文本的词频信息构建为一个向量,并利用向量间的余弦相似度或Jaccard相似度等方法计算文本之间的相似度。图1显示了文本相似度算法的主要流程。
(一)预处理
计算机可以快速地计算出两列数组之间的相似度,也可以分析出两个矩阵之间的相似度,但对于两篇文本来说,相似度的计算要相对复杂。因为,文本是非结构化的数据,数据挖掘的算法要应用到文本对象之上,就必须对文本进行预处理,使其结构化,即将文本转化为数组或向量。对于中文文本的预处理技术主要包括中文分词和停用词过滤两个方面。
1.中文分词技术
中文文本与英文文本不同,词与词之间没有空格,读者阅读时要根据经验和语言知识来自行分词。因而,计算机对于中文的处理相对于以英文为代表的西文处理存在更大的难度。现有的分词方法主要有:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。对于分析者来说,自行开发中文分词算法难度较大,目前有很多开源的软件和在线工具都可以完成分词工作,如Jieba、SCWS、中科院张华平开发的ICTCLAS 、武汉大学沈阳开发的ROST-CM等。
2.停用词过滤
在文本处理中,有一些词出现频繁但意义不大,为了提高文本的分析速度和精度,须将这些词忽略。比如,“的”、“在”、“是”等几乎是中文文本中出现频率最高的词,这类词对文本相似度的计算会产生不良的干扰。对于这类问题的解决,可以利用现有的“中文停用词表”将这些词进行过滤删除。但是较为精确的方法是计算文本中每个词的TF-IDF值,将TF-IDF值为0的词删除。
TF-IDF是用来评估
您可能关注的文档
- 自主合作学习模式下的初中体育课堂教学.doc
- 自主合作探究绽放初中音乐教学新精彩.doc
- 自主合作模式在小学作文教学中的应用.doc
- 自主合作模式在小学英语教学中的应用.doc
- 自主学习不断创新.doc
- 自主学习在小学数学教学中的培养.doc
- 自主学习在高中历史教学中的应用.doc
- 自主学习如何才能落实.doc
- 自主学习教学方式在初中语文课堂教学中的应用分析.doc
- 自主学习教学模式在高中化学教学中的运用.doc
- 小学数学课堂人工智能教学实践与评价体系构建教学研究课题报告.docx
- 高中物理实验课教学中的学生合作学习模式探讨教学研究课题报告.docx
- 高中数学实验教学中的实验资源开发与利用研究教学研究课题报告.docx
- 《绿色交通基础设施建设对城市空气质量改善的短期效应评估》教学研究课题报告.docx
- 初中英语语法教学中的跨学科教学与学生应用能力培养研究教学研究课题报告.docx
- 高中数学思维训练教学资源动态定价与优化配置策略研究教学研究课题报告.docx
- 金融科技监管中的金融科技企业合规性监管政策优化研究教学研究课题报告.docx
- 《量子通信技术在金融信息安全传输中的性能优化研究》教学研究课题报告.docx
- 小学课外阅读指导课程效果评价研究教学研究课题报告.docx
- 基于人工智能的小学科学智能教育平台用户科学探究能力培养策略教学研究课题报告.docx
最近下载
- 2025年小升初语文《理解句子的含义》教学讲义及练习题(附答案).pdf VIP
- 个人简历——【标准模板】.doc VIP
- AKAI EWI5000 快速入门说明书(中文).pdf
- ICU患者镇痛镇静及谵妄评估.pptx VIP
- 四大名著介绍PPT课件.pptx VIP
- 2025初中历史教师课程标准考试模拟试卷附参考答案.docx VIP
- 浙江省名校协作体2023-2024学年高二上学期开学适应性考试物理试题含答案.pdf VIP
- 2025湖南常德市纪委监委直属事业单位选调6人笔试备考试题及答案解析.docx VIP
- 漏液传感器NIDEC 简明说明书.pdf VIP
- 2025中国银行软件中心社会招聘笔试历年参考题库附带答案详解.pdf
文档评论(0)