基于相邻词中文关键词自动抽取探究.docVIP

下载本文档

4
0
约2.78千字
约 6页
2017-08-05 发布于福建
举报
版权申诉

基于相邻词中文关键词自动抽取探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于相邻词中文关键词自动抽取探究

基于相邻词中文关键词自动抽取探究【摘要】文档关键词概括了文档的主题和内容，在信息检索、文本分类、文本聚类等领域有着重要应用。在总结前人研究成果的基础上，提出了一种基于相邻词的中文关键词自动抽取算法。在对50篇学术论文自动抽取关键词的实验中，采用精确匹配的评价获得了38.9％的精度和34.9％的召回率，采用近似匹配的评价获得了70.7％的精度和68.8％的召回率，能够为进一步的研究提供帮助。【关键词】相邻词；关键词抽取；信息检索关键词是对文档的主题和主要内容的精炼概括。中文关键词自动抽取的研究伴随着信息检索的发展不断地进行。关键词自动抽取技术有着多方面的应用，包括文本分类、文本聚类、相关反馈、词表的自动丰富、新词热词的获取等等。 1.中文关键词抽取相关研究工作概述中文关键词自动抽取有过不少研究工作，前人采用的方法主要包括3种：①在字的级别上采用统计方法；②经过自动分词，在词的级别上利用词典、句法分析、词性标注等自然语言处理方法；③字级别和词级别的结合，统计方法和自然语言处理方法的融合。但中文关键词自动抽取技术尚不够成熟，实验中获得的精度不够高，因而仍需要进一步研究才可能真正实用。本文介绍的工作即为在前人研究工作基础上进行的改进。 2.基于相邻词的关键词抽取算法词t的相邻词指的是对句子进行分词后，在t之前的一个词和之后的一个词。例如对“中文关键词抽取算法”分词后得到“中文／关键词／抽取／算法”，那么“关键词”的相邻词即为：“中文”（称为“前邻”）和“抽取”（称为“后邻”）。显然，由于词可能出现在句首或者句尾，因此前邻和后邻有可能是空。对文档中每个词t的相邻词的频繁程度进行考察，从而判断词t及其相邻词是否需要合并以成为语义完整的关键词。对所有候选关键词计算权重，得到最重要的若干个关键词作为结果返回。本文提出的算法对单篇文档自动抽取关键词。关键词是文档中最重要的几个词，概括了文档的主题和主要内容。文档中词的重要性通常可以用词在该文档中的出现频率（TF）和在大规模语料库中出现该词的文档篇数来衡量（一般使用词的文档频率倒数IDF）。本文使用网络爬虫抓取的432089篇Web文档构成的语料库来统计词的文档频率：假设在总文档数为N的语料库中的n篇文档里出现了词t，则计算词t的IDF为： IDFt＝log N／n 对单篇文档d自动提取关键词的算法如下所述： ①使用基于词典的正向最小分词算法对文档进行分词。 ②统计出文档d中每个词t在d中的TF，并将每个词都加入集合W中。 ③利用向量空间模型中的TF×IDF公式，计算文档d中每个词在d中的权重wt：wt＝TFt×IDFt。 ④i＝0。 ⑤i＝i＋1，若i大于阈值Lengthth，则转⑨。否则，对词集合W中每个词s统计出它在文档d中的前邻和后邻的分布，并根据某种策略判断是否具备频繁前邻和频繁后邻。例如可以根据某个前邻PR出现的概率大于0.5来认定它是一个频繁前邻。Lengthth通常取3或者4。 ⑥若s不具有频繁前邻和频繁后邻，则将s加入关键词候选集合Skey；若s具有频繁前邻PR和频繁后邻BE，则将PR＋s＋BE拼成一个词加入词集合W＊中；若s仅具有频繁前邻PR，则将PR＋s拼成一个词加入词集合WPR中；若s仅具有频繁后邻BE，则将s＋BE拼成一个词加入词集合WBE中。 ⑦将WPR和WBE中共同出现的词加入关键词候选集合Skey，清空WPR和WBE。 ⑧令W＝W＊，清空W＊，转⑤。 ⑨计算Skey中每个词s的权重。每个词s都由若干个分词中得到的词t所组成，因此用s所包含的所有词t的权重来计算s的权重。 ⑩按照Skey中每个词s的权重大小选取关键词作为结果返回。设Skey中最大的权重为wmax，使用最大权重的某个比例值wmax×Weightth作为选取关键词的动态权重阈值。 3.关键词自动抽取实验对文档自动抽取出关键词后，需要评价结果的好坏。一般通过将自动抽取的关键词与人工抽取的关键词相比较来评价。考虑到所有的学术论文都有作者拟定的关键词，因此从中国期刊网（http：//）中下载了50篇以“信息检索”为主题的学术论文，分别使用每篇论文的摘要对论文进行自动关键词抽取。由于本文的算法仅考虑抽取出那些在文档中出现过的关键词，而学术论文中有的关键词并没有在摘要中出现过，因此将摘要中不存在的关键词剔除后再进行评价。 3.1关键词自动抽取结果样例举例说明关键词自动抽取的结果。对《中文信息学报》2006年第2期上名为《基于事件框架的信息抽取系统》的论文自动抽取关键词。由于“计算机应用”与“中文信息处理”这两个关键词在论文摘要中没有出现，所以将他们去除后，得到“信息抽取、框架、继承、灾难性事件”这4个关键词作为作者拟