基于WMD语义相似度的TextRank改进算法识别论文核心-ChinaXiv.PDF

下载文档 降价啦

16
0
约3.1万字
约 8页
2019-03-01 发布于天津
举报
保障服务

基于WMD语义相似度的TextRank改进算法识别论文核心-ChinaXiv.PDF

总第4 期 2017 年第4 期基于WMD 语义相似度的TextRank 改进算法识别论文核心主题句研究王子璇 1, 2 乐小虬 1 何远标 1 1( 中国科学院文献情报中心北京 100190) 2( 中国科学院大学北京 100049) 1 摘要: 【目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集, 通过训 v 练领域词向量计算句子间WMD 距离得到相应语义相似度, 优化 TextRank 算法迭代过程, 利用外部特征对所得 6 4 权值进行调整, 按句子权值降序选取关键主题句。【结果】以气候变化领域科技论文作为实验数据, 以人工标注 9 的结果为基准对本文的算法和传统的TextRank 算法进行对比实验, 初步结果表明该方法的识别效果(F值) 比传统 1 0 TextRank 算法提升约5%。【局限】句子特征提取有待提高, 词向量训练及方法中的相关参数需要做进一步优化。 1. 【结论】基于领域词向量, 融合WMD 语义相似度的TextRank 改进算法, 能够较好地甄别科技论文小节内部中心 1 句, 辅以外部特征的权值调整后可以较好地识别出一篇论文的核心主题句。 7 关键词: WMD TextRank 语义相似主题句识别外部特征 1 0 分类号: TP393 2 : v i X 1 引言特征(位置、主题词、长度等)以及句子之间的相互关系 a 进行评估。前者主要利用自身统计特征构建模型进行权 n 科技论文中作者常聚焦于一个主要研究问题, 在文值打分或监督学习, 而后者则将句子及其关系转化为图 i h 献分析中可用研究主题来表示, 主题句是论文中用于论模型进行识别, 以TextRank[2]为代表。 c 证研究主题的句子, 分布于文中主要段落中。主题句识传统TextRank 中使用特征词向量表示句子, 再利别作为文本分析的基础技术之一, 其在信息检索、自动用距离相似度计算方法(如欧氏距离、余弦相似度等) 文摘及知识发现等自然语言处理应用中发挥着重要作计算句子间相似度, 但在句子表示上存在维数灾难及用。识别领域科技论文中的核心主题句, 就是要从全文同近义词的问题。为了解决以上问题, 本文将以基于中将描述和揭示研究主题的关键语句进行鉴别和抽取。词向量(Word Embedding) 语义相似的 WMD(Word 它是科技论文内容提炼的关键技术环节, 能帮助研究者 Mover’s Distance)[3]表示句子间的距离, 对TextRank 算法快速发现论文中相对有价值的内容, 提高科研效率。进行改进, 并利用论文内容结构对所得结果进行优化, 文本主题句识别的一般过程为: 识别文本中的候选更新权重并排序, 最终得到科技论文的核心主题句。主题句; 合理评估这些候选主题句表达文本核心内容及 2 主题句识别相关研究 [1] 其主题的重要程度, 从中挑选合适的句子作为主题句。而评估句子重要性的方法主要是通过度量句子自身所带主题句识别作为多项自然语言处理应用的基础通讯作者: 乐小虬, ORCID: 0000-0002-7114-5544, E-mail: lexq@ 。 Data Analysis and Knowledge Discovery 1

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于WMD语义相似度的TextRank改进算法识别论文核心-ChinaXiv.PDF