- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
在线课程评论的情感倾向识别与话题挖掘技术
伴随信息技术的快速发展,为各行业领域注入新鲜的活 力。以教育领域为例,较多互动学习平台逐渐被引入其中,特别 其中包含的学习者评论数据, 均可为教学质量改善、 用户选课以 及平台支持提供参考, 然而现有的平台运行中并未充分利用这些 反馈信息, 需行之有效的完善策略。 本次研究将对情感倾向识别 与话题挖掘技术做简单介绍, 在此基础上提出在线课程评论样本 处理与特征提取方法、 情感倾向识别算法以及在线课程评论话题 挖掘技术等。
信息化时代背景下, 学习资源共享、 平台共享已成为大多学 习者青睐的主要内容, 也因此有较多学习行为数据生成, 如何对 这些数据充分利用成为当前需考虑的主要问题。值得注意的是, 前许多数据提取、 教学系统设计并不能满足数据挖掘需求, 更无 从谈及利用所获取的数据为教学实践进行指导, 要求引入有效的 数据提取、情感倾向识别以及话题挖掘技术。因此,本本文对在 线课程评论的情感倾向识别与话题挖掘技术研究, 具有十分重要 的意义。
情感倾向识别与话题挖掘技术介绍
关于情感倾向识别、 话题挖掘技术的概念, 首先可从教育大 数据进行分析, 近年来在线学习中较多学习平台逐渐引入, 使海 量未结构化数据生成, 这些数据区别于传统结构化数据如考勤记
录、考试成绩等,有数据动态变化、数据规模化以及类型多样化 等特点,而满足这些特征的在线学习数据均推动教育大数据的形 成。而在此基础上提出的情感倾向识别, Web2.0 时代下,大众
在浏览事物信息中, 更注重对以往相关评论内容关注, 或将自身 的想法、意见与心情表达出来。大数据环境下,便强调数据挖掘 中能够对大众的平均内容做情感分析, 该过程被称之为情感倾向 识别。另外,在话题挖掘技术方面,由于很多情感倾向信息并非 针对一个整体评论对象, 而是对其中某一部分的倾向表现, 而这 些部分便可被叫做话题。 实际进行海量文本浏览中, 便要求引入 话题自动提取技术, 保证信息检索与处理效率, 以此达到话题挖 掘的目的。
在线课程评论样本处理与特征提取
2.1 在线课程评论数据样本处理 本次研究中,主要针对在线课程学习网站中的点评区分析, 具体做样本数据出去中,相关的要求主要包括:
(1)对点评区网页结构信息充分了解,这些存储于后台数 据库内的半结构化形式文本数据,向用户展示中,将通过 HTML 页面以相应的格式显示, 因网页引入的通讯技术有一定差异, 所 以在采集数据中有多种方式,如利用HTML表单形式,或借助HTML 结构树抽取;
(2)为使服务器访问压力、系统资源减少,一般设计中也 考虑引入加载方式,以 JavaScript 为例,通过脚本动态导入数
据。实际做数据采集中,可设定相应的方案流程,整个流程强调 首先对 JS 脚本内有无提取信息判断, 若加载过程需借助 JS 动态 实现,取中间代理方法,对 JavaScript Object Notation 页面
探测,进行格式解吸, 然后将评论数据相关信息提取出来并存储。 假若加载方式选择HTML静态加载,转换的目标体现在文本对象 模型DOMt,在此基础上做定位解析,将其中信息提取出来并存 储在数据库内。
2.2 特征提取
所谓文本特征, 主要指被识别对象的特征, 具体进行文本情 感识别中,通常也需由这些特征着手。值得注意的是,在评论信 息中,不同学习者在表达细致程度上有一定差异, 其直接导致课 程评论文本长度不同, 部分评论中有丰富的文字内容, 传递的信 息较多,而部分评论仅有几个字, 其意味文本特征分布有稀疏性、 不均衡性特点。对此,实际进行文本特征提取中,本次研究考虑 引入细粒度特征生成法,如 N-gram 语言模型,所有文本内容, 均以字符单元形式呈现,有长度为N的字符片段序列形成,其中 各片段均被叫做gram。同时,既往研究资料中,也对稀疏文本 特征提取问题提出较多优化方式, 如多空间微粒群优化, 这一方 式侧重于取训练集, 细化为不同交叉训练子集, 通过检验各子集, 提取其中的特征信息,达到文本特征提取目标。
在线课程评论情感倾向识别算法研究 情感倾向识别的实现,主要强调通过对在线课程评论的分 析,了解情感倾向。本次研究中,考虑引入自适应多视图选择方 法,其亦被称之为AMVS识别中采用半监督情感识别方法,其 区别于传统RSS方法,更注重做情感强度的计算, 能够优先选取 鉴别型高的特征。需注意该方法应用下,选择视图中,要求结合 特征维度、训练精度两者关系,进行维度分布的构建,保证各视 图维度均较为合适, 这样仅需保证特征采样覆盖率适宜, 便可进 行视图生成量的确定。 尽管该算法应用下无需考虑视图划分、 视 图维度等影响因素, 且自适应性强, 但在无标记样本规模影响下, 识别精度可能无法保
您可能关注的文档
最近下载
- 国有企业采购管理规范.docx VIP
- YBT5194-2024 改质沥青-报批稿.pdf VIP
- 基于地理学科核心素养的高中地理学生综合思维能力培养策略研究教学研究课题报告.docx
- 快速康复外科讲课PPT课件.pptx
- 铝粉浆安全技术说明书.pdf VIP
- TYNESS 003-2024 工业企业环境风险双重预防机制建设技术指南 污染源辨识与分级.pdf VIP
- DL T 1506-2016 高压交流电缆在线监测系统通用技术规范.pdf VIP
- 邮轮英语中职课件.pptx
- 新时代中国特色社会主义与实践(2024版)课后思考题答案.docx
- 深化产教融合协同:XX学校“十五五”校企合作发展规划.docx VIP
原创力文档


文档评论(0)