- 12
- 0
- 约2.47万字
- 约 6页
- 2017-08-26 发布于湖北
- 举报
CN 第39卷第5期2017年5月
43—1258/TP 计算机工程与科学
ISSN1007—130X ComputerEngineering&Science V01.39,No.5,May·2017
文章编号:1007—130X(2017)05—0978—06
基于双语LDA的跨语言文本相似度计算方法研究。
程 蔚h2,线岩团1’2,周兰江1’2,余正涛1’2,王红斌1’2
(1.昆明理工大学信息工程与自动化学院,云南昆明650500;
2.昆明理工大学智能信息处理重点实验室,云南昆明650500)
摘要:基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方
法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双
语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,
使用从类别间和类别内的主题分布离散度的角度改进的主题频率一逆文档频率方法计算特征主题权重。
实验表明,改进后的权
原创力文档

文档评论(0)