- 31
- 0
- 约4.19万字
- 约 16页
- 2019-03-03 发布于天津
- 举报
文章编号:1003-0077 (20 11)00-0000-00
基于古文语料的新词发现方法
1 1 1 1
刘昱彤 ,吴斌 ,谢韬 ,王柏
(1.北京邮电大学 智能通信软件与多媒体北京市重点实验室,北京 100876)
摘要:新词发现,作为自然语言处理的基本任务,是用计算方法研究中国古代文学必不可少的一步。该文
提出一种基于古文语料的新词识别方法,称为AP-LSTM-CRF 算法。该算法分为三个步骤。第一步,基于
Apache Spark 分布式并行计算框架实现的并行化的Apriori 改进算法,能够高效地从大规模原始语料中产生
候选词集。第二步,用结合循环神经网络和条件随机场的切分概率模型对测试集文档的句子进行切分,产
生切分概率的序列。第三步,用结合切分概率的过滤规则从候选词集里过滤掉噪声词,从而筛选出真正的
新词。实验结果表明,该新词发现方法能够有效地从大规模古文语料中发现新词,在宋词和史记数据集上
分别进行实验,F 1 值分别达到了89.68%和81.13%,与现有方法相比,F 1 值分别提
您可能关注的文档
- 基于HyperMesh二次开发的无铆钉铆接有限元快速建模.PDF
- 基于MSP430F2234微型机器人无线控制系统.PDF
- 基于ProE环境单圆弧齿轮参数化设计的研究及应用.PDF
- 基于Revit的装配式建筑构件参数化钢筋建模方法研究与应用-ChinaXiv.PDF
- 基于UG二次开发的参数化建模方法①-计算机系统应用.PDF
- 基于Web服务的零部件参数化设计重用-计算机工程.PDF
- 基于主动轮廓模型提取运动目标的图像分割技术-Read.PDF
- 基于低矮建筑物实测数据的改进湍流物理模型.PDF
- 基于功能元基因组学的人体系统生物学新方法中医药现代化的契机.PDF
- 基于单目视觉设计的手术导航系统标识物-中国数字医学.PDF
- 房地产营销策划:麒麟山庄定价策略案例.pdf
- 残疾人考试题库及答案.doc
- 2026浙江温州瓯海区三垟街道社区卫生服务中心面向社会招聘工作人员1人笔试备考试题及答案解析.docx
- 2025-2026学年五年级语文(上册)单元过关斩将.doc
- 2026年量子计算在物流仓储机器人协作应用.docx
- 2025-2026学年五年级语文(上册)单元小测集锦.doc
- 2026年量子计算在物流路径规划中的核心算法.docx
- 山东泗水面试题库及答案.doc
- 2026青海西宁市城东区劳动人事争议仲裁委员会选聘兼职仲裁员、兼职调解员和兼职书记员笔试备考试题及答案解析.docx
- 2025-2026学年五年级语文(上)第三单元精练.doc
原创力文档

文档评论(0)