基于古文语料的新词发现方法NewWordDetectionin-计算语言学.PDFVIP

  • 31
  • 0
  • 约4.19万字
  • 约 16页
  • 2019-03-03 发布于天津
  • 举报

基于古文语料的新词发现方法NewWordDetectionin-计算语言学.PDF

文章编号:1003-0077 (20 11)00-0000-00 基于古文语料的新词发现方法 1 1 1 1 刘昱彤 ,吴斌 ,谢韬 ,王柏 (1.北京邮电大学 智能通信软件与多媒体北京市重点实验室,北京 100876) 摘要:新词发现,作为自然语言处理的基本任务,是用计算方法研究中国古代文学必不可少的一步。该文 提出一种基于古文语料的新词识别方法,称为AP-LSTM-CRF 算法。该算法分为三个步骤。第一步,基于 Apache Spark 分布式并行计算框架实现的并行化的Apriori 改进算法,能够高效地从大规模原始语料中产生 候选词集。第二步,用结合循环神经网络和条件随机场的切分概率模型对测试集文档的句子进行切分,产 生切分概率的序列。第三步,用结合切分概率的过滤规则从候选词集里过滤掉噪声词,从而筛选出真正的 新词。实验结果表明,该新词发现方法能够有效地从大规模古文语料中发现新词,在宋词和史记数据集上 分别进行实验,F 1 值分别达到了89.68%和81.13%,与现有方法相比,F 1 值分别提

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档