- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于TextRank的文本二次聚类算法.PDF
第26卷 第8期 计 算机 技 术 与发 展 Vol.26 No.8
2016年8月 COMPUTERTECHNOLOGY AND DEVELOPMENT Aug. 2016
一种基于TextRank 的文本二次聚类算法
潘晓英,胡开开,朱 静
(西安邮电大学计算机学院,陕西 西安 710121)
摘 要:针对传统文本聚类技术中存在的聚类精度一般或者运算时间复杂度过高等问题,文中首先介绍了两种较为常用
的文本聚类技术:基于划分的K -means和基于主题模型的LDA。 在分析各自缺陷的基础上,提出一种基于TextRank 的文
本二次聚类算法。 该算法借鉴主题模型的思想,在传统的聚类过程中引入词聚类,并在关键词提取阶段融合词语的位置
与跨度特征,减少了由局部关键词作为全局关键词带来的误差。 实验结果表明,改进后的算法在聚类效果上要优于传统
的VSM聚类和基于主题模型的LDA算法。
关键词:文本聚类;TextRank;关键词提取;向量空间模型;LDA
中图分类号:TP391.9 文献标识码:A 文章编号:1673-629X(2016)08-0007-05
doi:10.3969/j.issn.1673-629X.2016.08.002
A Secondary Text Clustering Algorithm Based on TextRank
PAN Xiao-ying,HU Kai-kai,ZHU Jing
(School of Computer,Xi’an University of Posts Telecommunications,Xi’an710121,China)
Abstract:In view of the existing problemsin the traditional text clustering technology,such as the general accuracy or the higher time
complexity,two kindsof the commonly used text clusteringtechnology areintroducedat first,includingK -meansbased on the division
and LDA based on the theme.On the basisof the analysisof their respective defects,a secondary text clustering algorithm based on the
TextRank ispresented.Referenceofidea ofthememodel,thealgorithmintroducesthewordclusteringintheprocessoftraditionalcluste-
ring,and mergesthe futuresof location and span in the keyword extraction phase,reducing the error by local keywords as global key-
words.The experimental results show that the improved algorithm on the cluster effect is superior to the traditional VSM clustering and
LDA algorithm based on the theme model.
Key words:text clustering;TextRank;keyword extraction;VSM;LDA
1 概 述
您可能关注的文档
- 2013年辽宁省大连市中考真题物理.docx
- 2016年《涉税服务实务》简答题.PDF
- 2016年普通高等学校招生全国统一考试(天津卷)数学文.docx
- 2016年汕头市服务业顾客满意度测评.PDF
- 2017年第二期中国民生银行股份有.PDF
- 2018年1月份广电站电视用稿统计.doc
- 2018年中考数学真题汇编实数与代数式(解答题21题).doc
- 2018年区内中小学化解大班额、部分新建校增加设备、2019.doc
- 2018年广东省汕头市潮南区中考一模试卷英语.docx
- 2018年度移民后期扶持项目设计费用.docx
- 新启航英语二年级上册Unit5 Festival Period 2 课件.ppt
- 10.相亲相爱一家人 情境化教学课件-统编版2026道德与法治一年级下册.ppt
- 7星星点点 AI赋能课件 2026人美版美术一年级下册.ppt
- 3.2 世界的气候类型(教学课件) 2025中图版地理八年级上册.ppt
- 5.1 发达国家与发展中国家的差异(教学课件) 2025中图版地理八年级上册.ppt
- 13.快乐的儿童节 情境化教学课件-统编版2026道德与法治一年级下册.ppt
- 新启航英语二年级上册Unit5 Festival Period 1 课件.ppt
- 2025冀教版数学三年级上册全册教学课件.ppt
- 地理试卷云南名校联盟2026届高三上学期第三次联考(12.25-12.26).docx
- 2025~2026学年第一学期 高一年级英语试卷.docx
最近下载
- AI工业设备预测性维护解决方案.pptx VIP
- 《马克思主义基本原理》教案 第5课 坚持按唯物辩证法办事.pdf VIP
- 湖南省高三英语复习:介词复习.doc VIP
- 内浮顶储罐消防知识培训.pptx VIP
- 立体定向γ-射线放射治疗原发性肝癌的临床疗效与应用分析.docx VIP
- 2026及未来5年中国智能门禁系统市场数据分析及竞争策略研究报告.docx
- 门诊部护士长年终述职PPT课件.pptx VIP
- 电仪技术培训教材最终版.doc VIP
- 2025年人教版(2024)小学信息科技六年级(全一册)教学设计(附目录P219).docx
- 《马克思主义基本原理》教案 第4课 事物的普遍联系与变化发展(下).pdf VIP
原创力文档


文档评论(0)