基于向量空间模型的中文文本相似度的探究.pdfVIP

  • 10
  • 0
  • 约1.37万字
  • 约 4页
  • 2019-03-19 发布于浙江
  • 举报

基于向量空间模型的中文文本相似度的探究.pdf

第24卷第10期 电子设计工程 2016年5月 V01.24 No.10 Electronic 2016 DesignEngineering May 基于向量空间模型的中文文本相似度的研究 薛苏琴,牛永洁 (延安大学数学与计算机学院,陕西延安716000) 摘要:在文本聚类中需要衡量中文文本之闽的相似性。本文首先讨论了文本相似度的概念和常用计算算法,详细介 绍了向量空间模型和算法步骤,采用删除去除词表、近义词合并、修改文件长度3中策略对算法进行了改进。最后借 Smdio 助盘古分词组件和搜狗实验室的互联网词库,在Vi蛐al 2008环境下使用C#语言对算法进行了实现。使用在 CNⅪ上得到的5个不同领域的500篇学术论文的中文摘要对算法进行了测试,结果表明新

文档评论(0)

1亿VIP精品文档

相关文档