- 48
- 0
- 约4.12万字
- 约 6页
- 2018-12-13 发布于天津
- 举报
基于语义词典和词频信息的文本相似度计算-计算机科学.PDF
第 44 卷第11A 期 Vo l. 44 No. 11A
计算机科学
2017 年 11 月 COMPUTER SCIENCE Nov.2017
基于语义词典和词频信息的文本相似度计算
董苑钱丽萍
(浙江工业大学计算机科学与技术学院 杭州 310023)
摘 要 为了克服传统的文本相似算法缺乏综合考虑语义理解和词语出现频率的缺点,在基于语义词典的词语相似
度计算的基础上,提出了一种基于语义词典和词频信息的文本相似度(TSSDWFI)算法。通过计算两文本词语间的扩
展相似度,找出文本词语间最大的相似度配对,从而计算出文本间的相似度。这种相似度计算方法利用语义词典,既
考虑了不同文本间词语的相似度关系,又考虑了词语在各自文本中的词频高低。实验结采表明,与传统的语义算法和
基于空间向量的文本相似度计算方法相比,TSSDWFI 算法计算的文本相似度的准确度有了进一步提高。
关键词 文本挖掘,文本相似度,语义词典,关键词,词频
中固法分类号 TP391 文献标识码 A
Text Similarity Calculation ßased on Semantic Dictionary and 明10rd Frequency Information
OONG Yuan QIAN Li-ping
(Department of Computer Science Technology ,Zhejiang University of Technology ,Hangzhou 310023 ,China)
Abstract Considering the drawbacks of semantic understanding and frequent word appearance ,this paper proposed a
text similarity algorithm based on semantic dictionary and word frequency information ,referred to as TSSDWFI. In par-
ticular ,the proposed algorithm aims at evaluating the similarity between two texts by calculating the expanded similarity
between any two words in texts and the maximum similarity matching between text words. The proposed algorithm
adopts semantic dictionary to calculate similarity between texts and takes into account the similarity relationship be-
tween different words and the frequency of word appearance in the text. Simulation results show that ,compared with
the existing algorithms ,the proposed algorithm TSSDWFI has higher accuracy.
Keywords Text mining ,Text similarity , S巳mantic dictionary ,Keywords ,Word frequency
离来比较句子间的相似度,从而获得文本之间的相似度。文
引言
您可能关注的文档
最近下载
- 国企面试问题及答案-国企面试题目和解答-国企单位面试的题目.docx VIP
- 沈阳工业大学《数据库原理》2025 学年第二学期期末试卷.pdf VIP
- 储能变流器简介及英飞凌IGBT解决方案-TTA2019.pdf VIP
- 房产过户合同8篇.docx VIP
- 大学生心理健康教育 课件全套 总共13章 大学生心理健康与心理咨询 ,心理危机与生命教育等课件.pptx VIP
- 茅台国企面试题目及答案.doc VIP
- X-MINI 杂物梯主板说明书.pdf VIP
- 市政协副主席2025年度民主生活会对照检查材料(五个带头).docx VIP
- 2023年沈阳工业大学计算机科学与技术专业《计算机网络》科目期末试卷B(有答案).docx VIP
- 花式年糕加工机设计【开题报告+文献综述+毕业设计】.Doc VIP
原创力文档

文档评论(0)