- 3
- 0
- 约4.79千字
- 约 8页
- 2016-09-10 发布于北京
- 举报
一种基于HNC理论的文本相似度算法.doc
一种基于HNC理论的文本相似度算法
摘 要: 计算文本相似度常用基于向量空间计算夹角余弦的方法,该方法忽视了同一文本中词与词之间的语义相似度,因而造成了文本表示模型的高维性以及计算的高复杂性。为此,提出了一种文本相似度算法,利用HNC理论先计算特征词之间的语义相似度,进行必要的降维,进一步计算每个文本向量中的TF*IDF值,最后计算两个向量的空间夹角余弦值并将其作为两个文本之间的相似度。将实验结果与直接计算余弦值的结果比较发现,改进后的算法中VSM的维数明显比改进前小得多,改进后的算法提高了召回率和准确率。因此,改进后的算法是切实有效的。
关键词: HNC理论; 语义相似度; VSM; 文本相似度
中图分类号:TP391.1 文献标志码:A 文章编号:1006-8228(2014)11-40-02
Word relativity algorithm based on HNC
Yuan Xiaofeng
(School of Information Science and technology, Yancheng Teachers College, Yancheng, Jiangsu 224002, China)
Abstract: The method to calculate text similarity based on VSM is widely used, which causes high dimension of VSM and complexity of calculation because it ignores the relationship between words in the same text. HNC theory is applied to calculate the weight of VSM and the similarity between texts. The practice shows that the dimension is smaller than before, the recall rate and precision of the algorithm have improved.
Key words: HNC theory; semantic similarity; VSM; text similarity
0 引言
随着Web技术的飞速发展,文本相似度的研究得到了广泛研究。文本相似度的计算通常应用于信息检索、主题抽取、文本分类、情感分析等领域[1-2]。目前文本相似度计算方法繁芜丛杂,归纳起来通常有:基于统计学的、基于知识库的、基于本体论的等等。但最广为接受和认可的是基于向量空间的,即:用向量空间模型(VSM)表示文档,向量中每一个值为文档中每一个词语的权重;然后利用向量的夹角余弦值作为两个文本的相似度[3]。然而这种方法仅仅用某个词语在文档中出现的频率以及逆向文档频率作为VSM中的权重,没有考察同一篇文档中特征词之间的关系。另外,由于计算两个文本向量的夹角余弦值时需要将两个文本向量的维数对齐,这样就造成了计算维数过高,计算过于复杂等缺点。
本文提出一种改进算法,在VSM的基础之上,考虑同一篇文档中特征词之间的相关度,利用文本中另一词语对特征词贡献的相关度重新计算特征词的TF*IDF值,从而起到降维、简化计算的目的。黄曾阳先生创立的知识库HNC理论从三个方面描述词语的含义,直接从词语角度、句子角度甚至整个篇章的语境的角度,用符号理论描述词语的概念,为计算中文词义相似度提出了一种可行的方法。本文利用基于HNC理论计算词语相似度的方法来完成VSM中TF/IDF值的重新计算,降低VSM中的维数。
1 HNC和VSM简介
HNC是一个描述语言概念空间的符号理论体系,它包含了三部分内容:①概念基元符号体系,对应语言系统的词语;②句类基元符号体系,对应语言系统的语句;③语境基元符号体系,对应语言系统的句群直至篇章[4]。
根据公式就可以把两个HNC符号之间比较量化计算转化为一个关于概念基元相关度的多项式。语义相关度的量化计算方法如下[5]:
⑴ 输入两个词语w1和w2;
⑵ 在词语知识库中查找这两个词语的HNC映射符号HNCS1和HNCS2,用hnccs1i和hnccs2j表示不同义项的HNC映射符号,其中1?i?p,i∈N,1?j?q,j∈N,p和q分别为两个词语对应的义项数;
⑶ 分别求解两个词语的各个hnccs1i和hnccs2j之间的相关度R(hnccs1i,hnccs2j);
⑷ 按公式R(w1,w2)=R(HNCS1,HNCS2)=Max(R(hnc
您可能关注的文档
最近下载
- 工程施工机具安全管理制度.pptx
- 2020年《钢结构设计规范》GB50017..pdf VIP
- 2024-2025学年河南省南阳市唐河县九年级(上)期末英语试卷(含答案).pdf VIP
- 浙江省杭州2024-2025学年高一上学期1月期末考试政治试题(含答案).pdf VIP
- 膜分离工程超滤(UF)课件.pptx VIP
- 浙江省杭州学军中学2024-2025学年高一上学期期末考试历史试题(含答案).pdf VIP
- 河南省南阳市唐河县2022-2023学年九年级上学期期末英语试卷.pdf VIP
- 旋挖钻孔灌注桩施工方案.docx VIP
- 阿特拉斯•科普柯 冷冻式干燥机.pdf VIP
- 超滤膜技术介绍.pptx VIP
原创力文档

文档评论(0)