- 14
- 0
- 约 4页
- 2015-09-06 发布于重庆
- 举报
关键词抽取方法的研究,关键词抽取,关键词抽取算法,关键词抽取技术,关键词抽取综述,抽取样本的方法,抽取样本的方法有,抽取样本单位的方法有,抽取样本的方法有什么,eclipse抽取方法
第31 卷 第18 期 计 算 机 工 程 2005 年9 月
Vol.31 18 Computer Engineering September 2005
人工智能及识别技术 文章编号 1000 3428(2005)18 0194 03 文献标识码 A 中图分类号 TP391.14
关键词抽取方法的研究
郑家恒 卢娇丽
(山西大学计算机与信息技术学院, 太原 030006)
摘 要 考虑了词频和位置两个因素 并采用非线性函数和 成对比较法 相结合的方法来计算候选词的权重 最终改进了候选词权值的
计算 提高了关键词抽取的精度
关键词 非线性函数 成对比较法 关键词抽取
Study of An Improved Keywords Distillation Method
ZHENG Jiaheng, LU Jiaoli
(Institute of Computer and Information Technology, Shanxi University, Taiyuan 030006)
Abstract This paper considers the two factors of term frequency and location and employs the non-linear function and the “double comparing
method” to calculate the term weighting. Finally it improves the calculation of the term weighting and attaines the goals of keywords distillation
precisely .
Key words Non-linear function Double comparing method Keywords distillation
文献关键词的抽取在自动分类 自动摘要 自动标引等 抽取的准确率 我们在词库中添加了一个由将近 800个词条
方面有着广泛的应用 它不仅是进行这些工作不可缺少的基 组成的经济类专业词库以保证分词的质量 这些词条一部分
础和前提 也是互联网上信息建库的一项重要工作 关于关 来源于我们所用的语料库中的经济论文给出的 400个关键
键词抽取的常用和经典的方法是统计方法 通过确定候选词 词 另一部分来源于网上下载的经济学名词解释词典 其中
的权重 从中筛选出权重较大者作为最终的关键词 因此 收录了将近 400条经济学词汇 这样 像 通货膨胀 通
候选词权重的确定就成为文献关键词抽取的核心 候选词的 货紧缩 贴现率 恩格尔曲线 凯恩斯主义 这样的
权重是由它反映文献主题的重要性决定的 能够较好反映文 词汇就可以被有效识别 从而使文章包含更多的领域相关词
献主题的词语将被赋予较大的权值 过去的研究表明 词频 和主题相关词
和位置在反映候选词和文献主题的关系上起着重要的作用 2 停用词的过滤
而且 围绕这两个因素 也提出了许多计算候选词权重的方 停用词是指那些不能反映主题的功能词 例如 的
案 但结果均不是十分理想 本文采用非线性函数和 成对 地 得 之类的助词 以及像 然而 因此 等只能
比较法 相结合的方法 综合考虑位置和词频两个因素 最 反映句子语法结构的词语 它们不但不能反
原创力文档

文档评论(0)