基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究.PDFVIP

  • 183
  • 0
  • 约2.91万字
  • 约 8页
  • 2017-11-19 发布于天津
  • 举报

基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究.PDF

基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究.PDF

总第4 期 2017 年 第4 期 基于WMD 语义相似度的TextRank 改进 算法识别论文核心主题句研究 王子璇 1, 2 乐小虬 1 何远标 1 1( 中国科学院文献情报中心 北京 100190) 2( 中国科学院大学 北京 100049) 摘要: 【目的 】自动甄别科技论文中描述研究主题的关键语句。【方法 】以论文小节为单位组织句子集, 通过训 练领域词向量计算句子间WMD 距离得到相应语义相似度, 优化 TextRank 算法迭代过程, 利用外部特征对所得 权值进行调整, 按句子权值降序选取关键主题句。【结果 】以气候变化领域科技论文作为实验数据, 以人工标注 的结果为基准对本文的算法和传统的TextRank 算法进行对比实验, 初步结果表明该方法的识别效果(F值) 比传统 TextRank 算法提升约5%。【局限 】句子特征提取有待提高, 词向量训练及方法中的相关参数需要做进一步优化。 【结论 】基于领域词向量, 融合WMD 语义相似度的TextRank 改进算法, 能够较好地甄别科技论文小节内部中心 句, 辅以外部特征的权值调整后可以较好地识别出一篇论文的核心主题句。 关键词: WMD TextRank 语义相似 主题句识别 外部特征 分类号: TP393

文档评论(0)

1亿VIP精品文档

相关文档