基于Citation-KNN的语义隐含主题词自动抽取方法资料.docVIP

下载本文档

1
0
约1.12万字
约 9页
2017-08-23 发布于湖北
举报
版权申诉

基于Citation-KNN的语义隐含主题词自动抽取方法资料.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Citation-KNN的语义隐含主题词自动抽取方法章成志1,2 刘耀1 王惠临1 1. 中国科学技术信息研究所, 北京, 100038 2. 南京理工大学信息管理系, 南京, 210094 {zhangchz, liuy, wanghl} 摘要：现有的关键词抽取技术仅仅是抽取出现在正文中的词汇，不能够抽取语义上隐含的主题。语义隐含主题的抽取是文本挖掘技术的难点。众所周知，KNN方法作为机器学习领域的一个经典的方法，在很多领域都有出色的表现。本文以KNN算法为基础，提出基于Citation-KNN的语义隐含主题词自动抽取方法。实验结果表明该方法在进行语义隐含主题词抽取任务上的有效性。关键词：关键词抽取；隐含语义主题词；Citation-KNN；文本挖掘 1 引言关键词是最能反映文章主题或内容的词汇，是为了满足文献标引或检索工作的需要而从文章中萃取出的、表示全文主题内容信息条目的单词、词组或术语。在文献情报领域，关键词抽取是一项困难的任务。首先，关键词抽取是一项需要高度概括、分析和创造的活动，需要标引人员具有较高的专业知识和标引经验。其次，为了准确描述文本内容，标引人员通常会创造一些由多个词按照一定规则连接起来的组合词组。这些组合词在文本中可能很少出现，甚至不出现。另外，由于经验和知识背景不同，在标引同一篇文本时，不同的标引人员会给出不同的关键词集合。这突出反映在作者给出的关键词与专业标引人员给出的关键词通常存在很大差异。关键词自动抽取能够解决上面的第三个问题，但对于前面两个问题所起的作用很小。这是因为目前用于自然语言处理的各种机器学习方法，还不能真正理解文本内容，只能通过大量的词或词组出现的频度、句法规则等信息进行统计和学习。但是，在许多应用领域，基于大规模数据集上的机器学习方法，特别是基于统计的机器学习，通常比完全采用人工方法效果更好、更稳定，例如文本分类、OCR识别、词义排歧、信息检索等。 H. P. Luhn在20世纪50年代末首先开展自动标引试验 (Luhn 1957, Luhn 1958) ，而在1963年，美国Chemical Abstracts从第58卷起，就开始采用电子计算机编制关键词索引，提供快速检索文献资料主题的途径。纯粹的统计方法最早也最常被应用于关键词自动抽取 (Edmundson Oswald 1959, Edmundson 1969, Chien 1997)；20世纪70年代初，Lois L. Earl开始采用句法分析等语言学方法 (Lois 1970)；70年代中期，Salton等将机器学习技术引入关键词自动抽取中 (Salton, Wong Yang 1975)；20世纪90年代末，Turney将遗传算法 (Turney 1999, Turney 2000)、Frank将Bayes方法引入关键词自动抽取 (Frank, Paynter Witten, et al 1999)。近年来关键词自动抽取的研究趋于活跃，2001年，Anjewierden与Kabel提出基于本体的自动标引方法 (Anjewierden Kabel 2001)；2003年，Tomokiyo与Hurst提出了基于语言模型的关键词提取方法 (Tomokiyo Hurst 2003)，Hulth利用Bagging算法进行了基于集成学习的关键词抽取 (Hulth 2003)；2004年，李素建提出基于最大熵模型的关键词提取方法 (李素建, 王厚峰, 俞士汶等，2004)；2007年，Ercan G.与Cicekli I.提出基于词汇链的自动标引方法 (Ercan Cicekli 2007)。根据Turney的研究，人工标注的词汇，大约65%至90％出现在正文中 (Turney 1997)。那些不出现在正文中的关键词本文称之为“隐含主题”。隐含主题的抽取是一项非常困难的工作，现有的关键词自动抽取算法，无论是基于机器学习还是基于纯粹的统计方法，都很难抽取这部分词汇。通常的隐含主题词自动抽取方法是借助于外部资源，如叙词表、本体等资源，将语义隐含主题词自动抽取过程转换为主题词的分类过程，或将文本的关键词转换为主题词。本文尝试使用Citation-KNN的语义隐含主题词自动抽取算法来抽取文章的隐含主题。实验证明，这一方法是切实有效的。 2 基于Citation-KNN的语义隐含主题词自动抽取算法 2.1 Cita