引文元数据的自动发现和标注方法研究-北京玛格泰克科技发展有限公司.PDF

引文元数据的自动发现和标注方法研究-北京玛格泰克科技发展有限公司.PDF

引文元数据的自动发现和标注方法研究-北京玛格泰克科技发展有限公司

总第1 期 2017 年 第1 期 引文元数据的自动发现和标注方法研究 —— 以外文引文为例 姜 霖 1, 2 王东波 3 1( 南京大学信息管理学院 南京 210023) 2(江苏省数据工程与知识服务重点实验室 南京 210023) 3( 南京农业大学信息科学技术学院 南京 210095) 摘要: 【目的 】在总结当前引文元数据抽取方法的基础上, 结合语义学知识和机器学习方法, 对引文元数据的自 动抽取方法进行探索。【方法 】实验中采用神经网络模型对人工分割过的语料进行词向量训练。利用相同类型的 元数据会相对集中地出现在向量空间中某一位置的现象, 通过支持向量机分类算法实现对元数据的自动归类和 标注。【结果 】在以外文引文数据作为测试集的实验中, 本文方法取得了较高的准确率和召回率, 特别是针对引 文中含有多种语言和缩写的现象, 具有较好的处理能力。【局限 】在对于引文元数据时间内容的细粒度抽取中存 在一定的局限性。【结论 】实验结果表明, 此方法在引文元数据的自动发现和标注上具有良好的效果, 并能很大 程度地提高方法的适用性和容错率。 关键词: 引文元数

文档评论(0)

1亿VIP精品文档

相关文档