- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于智慧校园平台热点话题发现方法探究
基于智慧校园平台热点话题发现方法探究 摘 要 研究提出一种改进的校园热点话题发现方法。方法通过ICTCLAS分词系统对资讯服务平台采集的校园新闻进行分词和关键词提取等预处理,构建基于向量空间模型研究的文本知识表示模型,最后利用统计新闻标题词频确定k个初始聚类中心并改进K-Means算法,获得校园热点话题
关键词 智慧校园 热点话题
中图分类号:G647;TP311 文献标识码:A
1智慧校园
所谓“智慧校园”是指一种以面向师生个性化服务为理念,通过利用云计算、虚拟化、物联网、移动互联、社会网络等新技术来改变师生和校园资源相互交互的方式,能识别学习者个体特征和学习情景,提供无缝互通的网络通信,有效支持教学过程分析、评价和智能决策的开放教育教学环境和便利舒适的生活环境,从而实现全新的智慧化服务和管理的校园模式
2智慧校园热点话题发现
智慧校园服务平台为广大师生提供教育、管理、娱乐、生活为一体的智慧化服务,极大丰富师生的校园生活。平台可提供服务接口实现与学校各种应用系统的互联和协作,如个人课表、成绩实时推送通知、书刊借阅到期提醒、邮件包裹到达通知等
对智慧校园热点话题发现模块作了初步的设计,包括分词预处理、新闻文本表示模型以及对K-Means聚类算法的优化改进
2.1分词预处理
校园热点话题发现模块采用应用广泛的中科院ICTCLAS分词系统,通过一个事先统计给定的停用词表对粗切分词进行过滤,去掉连词、助词、语气词等
2.2校园新闻知识表示模型
校园热点话题发现模块采用知识表示模型来表示新闻文本,具体的构建步骤为:
(1)输入分词预处理后的文本,作为特征项选择的样本;
(2)利用相关特征选择规则来降低文本知识表示模型的维数;
(3)将经过选择的文本特征项计算权值,得到加权特征向量;
(4)将加权特征向量存入数据库,方便之后的聚类分析
校园热点话题发现模型充分考虑了校园新闻标题的重要性,而一般的向量空间模型只对新闻报道的正文的特征项进行建模,为了突出校园新闻标题的重要性,校园新闻的知识表示模型可以用PK=(C,id,F1,wf1,F2,wf2,…,Fi.wfi)表示,其中C 表示新闻所属的栏目,id可以唯一区分一篇新闻,字段i的值用Fi表n};
(2)对这n个新闻标题分别进行分词,统计新闻标题中出现词的频率;
(3)对标题分词词频经过排序后,选择k 个词频最高的关键词,组成标题特征词集{wt1,wt2,…,wtk};
(4)将原始的新闻样本根据关键词集组成k 个文档集,即Di={wi1,wi2,…,win},其中wij表示包含特征词wij的第j个文本,n为包含特征词wij的文本数量;
(5)通过比较wij与Dij文中剩余文本之间的相似度,得到n个相似度值,并求和;将相似度之和最大的一篇新闻作为对应标题词频wij的代表文本,一共可以得到k 篇代表文本;
(6)给定一个阈值,计算k 篇代表文本两两之间的相似性,当相似性超过这个阈值时就将这两个中心点合并成一个。如果所有文本之间的相似性都低于这个阈值,则直接处理步骤 (9);
(7)从步骤(2)中得到第k+1个特征词,重新处理步骤(4);
(8)最终得到k 篇代表文本;
(9)将这k 篇代表文本作为初始聚类中心,利用K-Means算法进行聚类
这样选出的文本作为K-Means聚类算法的k个初始中心点,提高了聚类的精确度
实验表明,智慧校园热点话题发现算法和K-Means 算法在当输入100篇新闻样本时,时间开销远远比 Single-Pass 算法少,运行速度更快
4总结
通过新闻文本处理、知识表示模型以及文本聚类技术的研究,提出了一种校园热点话题发现方法。首先利用ICTCLAS分词系统将新闻文本进行分词和关键词提取;然后基于向量空间模型研究提出新闻文本的知识表示模型;最后利用统计新闻标题词频确定k个初始聚类中心并改进K-Means算法,获得校园热点话题
基金项目:吉林省社会科学基金项目 《基于大数据服务平台的创新创业型大学生培养研究》(2016B192)。
1
您可能关注的文档
- 基于新形势下技工院校班主任角色定位.doc
- 基于新形势背景下国有企业纪检监察工作问题探析.doc
- 基于新形势下景观设计中几点原则.doc
- 基于新日语能力考试《日语听力》课程项目化教学改革及探究.doc
- 基于新时期加强乡镇广播电视服务中心建设探析.doc
- 基于新课改背景下初中体育教学探究.doc
- 基于新课改背景下小学科学实验教学课程探索.doc
- 基于新课改背景下高中化学教学探究.doc
- 基于新课标下小学语文阅读课程教学.doc
- 基于新课标理念高中物理学习方法心得体会.doc
- 2025年制造企业供应链智能化升级策略规划报告.docx
- 基于案例分析2025年家电售后服务质量改进报告.docx
- 加强护理文书质控体系构建.pptx
- 基于深度学习的2025年AI辅助肺结节诊断技术临床应用效果研究报告.docx
- 2025年全球生物医药领域专利技术发展趋势研究报告.docx
- 电商直播基地建设2025年智能硬件应用可行性研究报告.docx
- 基于深度学习的2025年AI辅助骨折诊断技术临床应用效果研究报告.docx
- 2025年智能垃圾分类转运站智能化建设对城市环境的影响分析.docx
- 聚焦2025:高端装备再制造技术突破与产业技术壁垒突破研究报告.docx
- 生物科技企业临床试验临床试验药物经济学评价与效率提升报告.docx
文档评论(0)