- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于智慧校园平台的热点话题发现方法研究
摘 要 研究提出一种改进的校园热点话题发现方法。方法通过ICTCLAS分词系统对资讯服务平台采集的校园新闻进行分词和关键词提取等预处理,构建基于向量空间模型研究的文本知识表示模型,最后利用统计新闻标题词频确定k个初始聚类中心并改进K-Means算法,获得校园热点话题。
关键词 智慧校园 热点话题
中图分类号:G647;TP311 文献标识码:A
1智慧校园
所谓“智慧校园”是指一种以面向师生个性化服务为理念,通过利用云计算、虚拟化、物联网、移动互联、社会网络等新技术来改变师生和校园资源相互交互的方式,能识别学习者个体特征和学习情景,提供无缝互通的网络通信,有效支持教学过程分析、评价和智能决策的开放教育教学环境和便利舒适的生活环境,从而实现全新的智慧化服务和管理的校园模式。
2智慧校园热点话题发现
智慧校园服务平台为广大师生提供教育、管理、娱乐、生活为一体的智慧化服务,极大丰富师生的校园生活。平台可提供服务接口实现与学校各种应用系统的互联和协作,如个人课表、成绩实时推送通知、书刊借阅到期提醒、邮件包裹到达通知等。
对智慧校园热点话题发现模块作了初步的设计,包括分词预处理、新闻文本表示模型以及对K-Means聚类算法的优化改进。
2.1分词预处理
校园热点话题发现模块采用应用广泛的中科院ICTCLAS分词系统,通过一个事先统计给定的停用词表对粗切分词进行过滤,去掉连词、助词、语气词等。
2.2校园新闻知识表示模型
校园热点话题发现模块采用知识表示模型来表示新闻文本,具体的构建步骤为:
(1)输入分词预处理后的文本,作为特征项选择的样本;
(2)利用相关特征选择规则来降低文本知识表示模型的维数;
(3)将经过选择的文本特征项计算权值,得到加权特征向量;
(4)将加权特征向量存入数据库,方便之后的聚类分析。
校园热点话题发现模型充分考虑了校园新闻标题的重要性,而一般的向量空间模型只对新闻报道的正文的特征项进行建模,为了突出校园新闻标题的重要性,校园新闻的知识表示模型可以用PK=(C,id,F1,wf1,F2,wf2,…,Fi.wfi)表示,其中C 表示新闻所属的栏目,id可以唯一区分一篇新闻,字段i的值用Fi表示,而wfi是其对应的的比重,表示对新闻文本的代表价值。
3 校园热点话题发现算法的优化
传统的K-Means算法需要从给定的新闻报道样本集中随机选择k个初始聚类中心,这k个初始聚类中心对聚类的结果影响较大,为了解决此问题,本文采用的方法是首先通?^统计新闻标题词频的方法,在K-Means算法聚类之前,从聚类文本中选出比较能够划分主题的 k 个文本,作为算法的初始聚类中心,算法的具体描述为:
(1)首先从样本集中抽取每篇新闻的标题,组成标题集{T1,T2,…,Tn};
(2)对这n个新闻标题分别进行分词,统计新闻标题中出现词的频率;
(3)对标题分词词频经过排序后,选择k 个词频最高的关键词,组成标题特征词集{wt1,wt2,…,wtk};
(4)将原始的新闻样本根据关键词集组成k 个文档集,即Di={wi1,wi2,…,win},其中wij表示包含特征词wij的第j个文本,n为包含特征词wij的文本数量;
(5)通过比较wij与Dij文中剩余文本之间的相似度,得到n个相似度值,并求和;将相似度之和最大的一篇新闻作为对应标题词频wij的代表文本,一共可以得到k 篇代表文本;
(6)给定一个阈值,计算k 篇代表文本两两之间的相似性,当相似性超过这个阈值时就将这两个中心点合并成一个。如果所有文本之间的相似性都低于这个阈值,则直接处理步骤 (9);
(7)从步骤(2)中得到第k+1个特征词,重新处理步骤(4);
(8)最终得到k 篇代表文本;
(9)将这k 篇代表文本作为初始聚类中心,利用K-Means算法进行聚类。
这样选出的文本作为K-Means聚类算法的k个初始中心点,提高了聚类的精确度。
实验表明,智慧校园热点话题发现算法和K-Means 算法在当输入100篇新闻样本时,时间开销远远比 Single-Pass 算法少,运行速度更快。
4总结
通过新闻文本处理、知识表示模型以及文本聚类技术的研究,提出了一种校园热点话题发现方法。首先利用ICTCLAS分词系统将新闻文本进行分词和关键词提取;然后基于向量空间模型研究提出新闻文本的知识表示模型;最后利用统计新闻标题词频确定k个初始聚类中心并改进K-Means算法,获得校园热点话题。
基金项目:吉林省社会科学基金项目 《基于大数据服务平台的创新创业型大
您可能关注的文档
最近下载
- T∕CAOE 20.8-2020 海岸带生态系统现状调查与评估技术导则 第8部分:砂质海岸.docx VIP
- (高清版)DB15∕T 4089-2025 《工业企业碳流图绘制方法》.pdf VIP
- 安全生产管理制度汇编.doc VIP
- 江苏省2014定额解读(模板工程计算规则下).ppt VIP
- GB 18918-2002城镇污水处理厂污染物排放标准.docx VIP
- 站用交直流电源系统技术规范第4部分:阀控式铅酸蓄电池.pdf VIP
- ST段抬高型心梗(STEMI)的心电图表现.pptx VIP
- 步步高家教机X2用户手册.pdf
- 新解读《GB_T 13863-2011激光辐射功率和功率不稳定度测试方法》最新解读.docx VIP
- 2025年政府采购评审专家考试试题库(附答案).docx VIP
文档评论(0)