- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
针对私人微博的聚类算法研究 (微电子) docx
基于k-means的私人微博聚类算法改进
高永兵, 郭文彦, 周环宇, 聂知秘
(内蒙古科技大学 信息工程学院,内蒙古 包头 014010)
摘 要: 针对私人微博内容进行聚类研究,结合私人微博的内容和结构特点提出了基于K-means的改进聚类算法。通过添加引用和评论内容丰富了文本内容,降低了短文本矩阵向量严重稀疏性带来的聚类算法准确性降低的影响;通过甄别微话题内容和改进相似度的计算,找到初始化类别并进行初步计算得到合适的类别数目和初始中心点,解决了k-means算法中聚类数目K需人工指定和初始中心点选取随机性的问题。实验结果表明改进后的算法不仅可以自适应地得到K值,较普通的k-means算法在聚类的准确率上有所提高。
关键词: K-means算法;私人微博;初始中心点;自适应
中图分类号: TP392 文献标识码:A 文章编号:
Improvements of personal weibo clustering algorithm based on K-means
GAO Yong-bing, GUO Wen-yan, ZHOU Huan-yu, NIE Zhi-mi
(School of Information Engineering, Inner Mongolia University of Science and Technology, Baotou 014010, China)
Abstract: Aiming at clustering research on personal weibo, an improved K-means algorithm is proposed on the combination of personal weibo content and structural features. By adding the reference and comment content into text, the influence of the server data sparseness in short documents is reduced. By screened out micro topic and improved the similarity computing, the appropriate categories and the number of initial centers is found, so the problems of K-means that the number of clusters K need to manually specify and the initial centers is random are solved. Experimental results show that the improved algorithm can not only get the adaptive value of K, but the accuracy is also improved compared with the general K-means.
Keywords: K-means algorithm ; personal weibo ; initial centers ; adaptive ;
1.引言
作为web2.0时代新兴起的一类开放式互联网应用,微博是一种非正式的迷你型博客。据CNNIC(中国互联网信息中心)发布的数据显示,截止2013年6月底,我国的微博用户已达3.31亿,网民的微博用户比例达到了56.0%,用户每日发布的博文数多达1亿条。与传统社会媒体相比,微博的发展态势强劲,已成为人们生活中不可获缺的一部分[1]。针对微博的研究是目前的一大热点,微博不完全同于已有的短文本,它具有简短、实时性及社会性等特征。目前国内大量关于微博的研究都着眼于公共微博,比如从公共微博中挖掘热点事件发现[2]、意见领袖识别、网络内容检测、网络舆情检测等等[3]。本文的关注点是私人微博,即以用户为单位组成的微博数据集合。通过改进文本信息处理中使用到的聚类方法,针对私人微博内容进行整理和挖掘。对微博本人来说,可以对自己的微博历史内容整理归类,使得历史数据对自己清晰可用;对他人而言,经过文本信息处理的微博使用户可以更清楚快速地了解别人微博的整体内容,挑选出自己感兴趣的信息;同时,也为公共微博的研究提供了支持,可以进一步应用于内容特征,用户兴趣分析和新兴话题检测等等。这些功能对于数据量庞大的微博应用,都是很有实际意义的。聚类是一种无指导的机器学习方法,在数据挖掘领域中非常活跃,应用非常广泛。它基于“物以类聚”的原理,按照相似性把个体归为
您可能关注的文档
- 计算机应用基础任务化教程课后习题答案.doc
- 计算机应用基础模拟试题与实训题实训教材6套题 (理论模拟题).doc
- 计算机应用基础电子教案、习题答案、素材习题集答案new.doc
- 计算机应用基础电子教案单选.doc
- 计算机应用基础电子教案综合实训指导书.doc
- 计算机应用基础素材-Excel课业样张——冰箱销售情况统计报表.docx
- 计算机应用基础素材-高职院校招生情况汇报.pptx
- 计算机应用基础(Windows 7+Office 2010)与素材毕业论文答辩文字素材.doc
- 西方经济学(第三版)微观经济学-教学大纲.doc
- 计算机应用基础(计算机应用基础实训指导)第1章-习题解答.doc
- 2023年眉山市公务员考试行测试卷历年真题及答案详解(夺冠系列).docx
- 2023年资阳市公务员考试行测试卷历年真题及答案详解(各地真题).docx
- 2023年阜新市公务员考试行测试卷历年真题附答案详解(模拟题).docx
- 2026届河北省衡水市河北武强中学高三下学期综评考试历史试题(含答案).docx
- 2025届陕西省咸阳市武功县普集高级中学高三下学期第六次模拟考试历史试题(含答案).docx
- 2025届广东省肇庆市高要区高三下学期第三次调研模拟测试历史试题(含答案).docx
- 2026届湖南省邵阳市武冈市第二中学高三新高考适应性考试历史试题(含答案).docx
- 2025届河北昌黎第一中学高三下学期第七次飞跃考试历史试题(含答案).docx
- 2025届云南省永胜县第一中学高三下学期第二次高考模拟历史试题(含答案).docx
- 2025届河北省玉田县第一中学高三下学期三轮强化模拟(五)历史试题(含答案).docx
最近下载
- 湿热灭菌验证方案及报告.doc VIP
- TZS 0680—2025《医疗机构实验室生物安全管理组织架构规范》(水印版).pdf VIP
- 网络游戏对青少年情绪调节和自我效能感的作用.docx VIP
- YBT4001.1-2019 钢格栅板及配套件 第1部分:钢格栅板.pdf VIP
- 大数据技术与应用 课件 第二章 大数据采集.pptx
- LAQ-E-KS-23 掘进工安全作业指导书.doc VIP
- 连云港市主要小麦品种产量与主要品质性状的初步研 究参考.pdf VIP
- DB32_T 3697-2019既有建筑幕墙可靠性检验评估技术规程.docx VIP
- PW2330-2.0数据手册下载.pdf VIP
- 2025湖南铁道职业技术学院教师招聘考试真题汇总.docx VIP
文档评论(0)