基于相邻词中文关键词自动抽取探究.docVIP

基于相邻词中文关键词自动抽取探究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于相邻词中文关键词自动抽取探究

基于相邻词中文关键词自动抽取探究【摘要】文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用。在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法。在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助。 【关键词】相邻词;关键词抽取;信息检索 关键词是对文档的主题和主要内容的精炼概括。中文关键词自动抽取的研究伴随着信息检索的发展不断地进行。关键词自动抽取技术有着多方面的应用,包括文本分类、文本聚类、相关反馈、词表的自动丰富、新词热词的获取等等。 1.中文关键词抽取相关研究工作概述 中文关键词自动抽取有过不少研究工作,前人采用的方法主要包括3种:①在字的级别上采用统计方法;②经过自动分词,在词的级别上利用词典、句法分析、词性标注等自然语言处理方法;③字级别和词级别的结合,统计方法和自然语言处理方法的融合。但中文关键词自动抽取技术尚不够成熟,实验中获得的精度不够高,因而仍需要进一步研究才可能真正实用。本文介绍的工作即为在前人研究工作基础上进行的改进。 2.基于相邻词的关键词抽取算法 词t的相邻词指的是对句子进行分词后,在t之前的一个词和之后的一个词。例如对“中文关键词抽取算法”分词后得到“中文/关键词/抽取/算法”,那么“关键词”的相邻词即为:“中文”(称为“前邻”)和“抽取”(称为“后邻”)。显然,由于词可能出现在句首或者句尾,因此前邻和后邻有可能是空。对文档中每个词t的相邻词的频繁程度进行考察,从而判断词t及其相邻词是否需要合并以成为语义完整的关键词。对所有候选关键词计算权重,得到最重要的若干个关键词作为结果返回。本文提出的算法对单篇文档自动抽取关键词。关键词是文档中最重要的几个词,概括了文档的主题和主要内容。文档中词的重要性通常可以用词在该文档中的出现频率(TF)和在大规模语料库中出现该词的文档篇数来衡量(一般使用词的文档频率倒数IDF)。本文使用网络爬虫抓取的432089篇Web文档构成的语料库来统计词的文档频率:假设在总文档数为N的语料库中的n篇文档里出现了词t,则计算词t的IDF为: IDFt=log N/n 对单篇文档d自动提取关键词的算法如下所述: ①使用基于词典的正向最小分词算法对文档进行分词。 ②统计出文档d中每个词t在d中的TF,并将每个词都加入集合W中。 ③利用向量空间模型中的TF×IDF公式,计算文档d中每个词在d中的权重wt:wt=TFt×IDFt。 ④i=0。 ⑤i=i+1,若i大于阈值Lengthth,则转⑨。否则,对词集合W中每个词s统计出它在文档d中的前邻和后邻的分布,并根据某种策略判断是否具备频繁前邻和频繁后邻。例如可以根据某个前邻PR出现的概率大于0.5来认定它是一个频繁前邻。Lengthth通常取3或者4。 ⑥若s不具有频繁前邻和频繁后邻,则将s加入关键词候选集合Skey;若s具有频繁前邻PR和频繁后邻BE,则将PR+s+BE拼成一个词加入词集合W*中;若s仅具有频繁前邻PR,则将PR+s拼成一个词加入词集合WPR中;若s仅具有频繁后邻BE,则将s+BE拼成一个词加入词集合WBE中。 ⑦将WPR和WBE中共同出现的词加入关键词候选集合Skey,清空WPR和WBE。 ⑧令W=W*,清空W*,转⑤。 ⑨计算Skey中每个词s的权重。每个词s都由若干个分词中得到的词t所组成,因此用s所包含的所有词t的权重来计算s的权重。 ⑩按照Skey中每个词s的权重大小选取关键词作为结果返回。设Skey中最大的权重为wmax,使用最大权重的某个比例值wmax×Weightth作为选取关键词的动态权重阈值。 3.关键词自动抽取实验 对文档自动抽取出关键词后,需要评价结果的好坏。一般通过将自动抽取的关键词与人工抽取的关键词相比较来评价。考虑到所有的学术论文都有作者拟定的关键词,因此从中国期刊网(http://)中下载了50篇以“信息检索”为主题的学术论文,分别使用每篇论文的摘要对论文进行自动关键词抽取。由于本文的算法仅考虑抽取出那些在文档中出现过的关键词,而学术论文中有的关键词并没有在摘要中出现过,因此将摘要中不存在的关键词剔除后再进行评价。 3.1关键词自动抽取结果样例 举例说明关键词自动抽取的结果。对《中文信息学报》2006年第2期上名为《基于事件框架的信息抽取系统》的论文自动抽取关键词。由于“计算机应用”与“中文信息处理”这两个关键词在论文摘要中没有出现,所以将他们去除后,得到“信息抽取、框架、继承、灾难性事件”这4个关键词作为作者拟

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档