基于语义相似度的文本聚类研究-ChinaXiv.PDFVIP

基于语义相似度的文本聚类研究-ChinaXiv.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义相似度的文本聚类研究-ChinaXiv.PDF

总第277 期 2016 年 第12 期 基于语义相似度的文本聚类研究* 毕 强 1 刘 健 1 鲍玉来 1, 2 1(吉林大学管理学院 长春 130022) 2( 内蒙古大学图书馆 呼和浩特 010021) 摘要: 【目的 】为解决传统的文本聚类无法充分挖掘文本资源语义信息以及相似度矩阵高维性、稀疏性等问题, 并进一步改善文本聚类质量, 提出基于语义相似度的文本聚类方法。【方法 】通过《同义词词林扩展版》计算词语 的语义相似度并得到文本语义相似度矩阵, 根据文本语义相似度矩阵进行谱聚类, 将文本聚集为文本簇。【结果 】 利用复旦大学文本语料库与搜狗文本语料库中的文本资源作为数据来源分别对传统聚类算法与本文提出的算法 进行实验, 结果表明, 当聚类个数为10时, 本文算法的准确率最高, 并且Purity 值高于传统聚类算法的Purity 值。 1 v 【局限 】《同义词词林扩展版》中包含的领域术语不完整, 部分相似度计算结果需要手工进行调整。【结论 】该方 9 法考虑了词语间语义关系, 充分挖掘文本主体潜在信息, 并且改善了聚类质量, 为文本聚类和推荐提供了一条 0 0 新途径。 2 关键词: 同义词词林扩展版 语义相似度 谱聚类 文本挖掘 0 . 分类号: G250.7 1 1 7 1 歧的问题[7], 因此本文利用同义词词林扩展的语义相 0 1 引 言 似度计算方法改进谱聚类算法: 通过同义词词林计算 2 [1] : Web2.0 时代, 文本数据呈现爆炸式增长 。文本 语义相似度并形成语义相似度矩阵, 对语义相似度矩 v i 聚类作为一种无监督的机器学习方法, 可以对文本信 阵进行拉普拉斯变换以降低矩阵维度, 将变换后的向 X 息进行有效的组织、分类和导航[2], 从而保证用户对知 量矩阵进行聚类, 从而完成对语义相近文本簇的划分, a n 识进行有效、便捷的获取。然而, 文本聚类过程中, 采 以此提高文本聚类效果。 i 用向量空间模型计算文本间相似度的方法受共现特征 h c 词影响较大[3], 易造成描述概念信号弱、噪音数据多及 2 相关研究 特征矩阵稀疏等问题[4]; 基于领域本体计算概念相似 2.1 语义相似度计算 度的方法需要人工或半人工构建本体, 构建过程复杂, 概念语义相似度是指两个概念间的相似程度[8], 借助领域专家和知识工作人员协作完成, 并且本体结 已经被应用于词义消歧[9] [10] 、自动检索 、图像分类及 构中包含信息较为复杂, 不能充分体现和揭示概念之 标注[11] [12] [13] 、信息抽取 、信息检索 等领域。目前, 语 间的语义关系, 相似度计算结果精度不高[5]。另外, 在文 义相似度计算方法主要包括基于本体的概念语义相似 本聚类中也存在着对初始聚类中心选值的敏感性问题、 度计算与基于语义词典的概念相似度计算。基于本体 容易陷入局部最优值等问题[6], 影响了文本聚类效果。 的语义相似度计算按照计算方法的不同可分为: 基于 《同义词词林扩展版》编码简单, 层次结构清晰, 距离的方法、基于内容的方法和基于属性的方法等。 具有丰富的语义知识并且可以解决中文文本多义词分 基于距离的计算方法是在层次网络中使用

文档评论(0)

sunyangbill + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档