基于图论聚类和PageRank的领域后控词表自动构建研究.docVIP

下载本文档

4
0
约5.53千字
约 9页
2016-12-14 发布于北京
举报
版权申诉

基于图论聚类和PageRank的领域后控词表自动构建研究.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于图论聚类和PageRank的领域后控词表自动构建研究　　[摘要] 本文提出了一种基于图论聚类算法和PageRank原理的领域后控词表自动构建方法，并以图书馆情报档案领域部分文献为实验数据，验证了运用该方法自动构建领域后控词表的可行性。　　[关键词] 后控词表;图论聚类;词汇同现网络;PageRank 　　[中图分类号] TP391.1 [文献标识码] A 文章编号：1671-0037（2015）11-77-4 　　Study on the Automatic Construction of DomainPost-Controlled Vocabulary Basedon Graph Clustering and PageRank 　　Li Fajun 　　（The Third Affiliated Hospital of Zhengzhou University， Zhengzhou Henan 450000）　　Abstract：This paper put forward an automatic construction method of domain Post-Controlled Vocabulary（PCV）based on graph clustering and PageRank principles.Some literatures about library science，informatics and archaistic are used as experiment datato prove the feasibility of automatic construction of domain PCV through this method. 　　Keywords：Post-Controlled Vocabulary;Graph clustering;Concurrence vocabulary network;PageRank 　　“后控制检索”是指“用自然语言标引，但通过控制词表检索”的模式，其所使用的词表称为“后控词表”[1]，后控词表是自然语言检索中提高检索效率的有效方式之一。后控词表是在自然语言的基础上编制的，自然语言自由活跃、变化快，所以后控词表相应的具有词汇量大、增加速度快、更新及时等特点，是不断增长的叙词表。最初编制后控词表都是由领域专家手工完成的，这样编制的后控词表凝聚了领域内高级专家的智慧，因此，无论从选词的数量、选词的质量以及词汇之间的关系方面来说都比较精确可靠。但是，显而易见，手工编制词表需要花费大量的人力、智力，构建速度慢，尤其是不易于维护和更新。当词表被集成到信息检索系统或移植到Web环境时，它的不适应性就完全突显出来了。单纯依靠手工维护和更新词表跟不上领域知识的快速发展，适应不了网络时代信息的迅速增长和快速更新。因此，根据特定领域文献本身的主题，有针对性地自动及时地构建领域后控词表的方法是非常值得研究的课题。本文试图运用图论聚类和PageRank原理进行领域后控词表的自动构建，为领域后控词表的自动构建研究提供新的思路，并改善构建效果。由于是新方法的初步研究，本文的研究范围仅限于中文领域后控词表的自动构建。　　1 基于图论聚类和PageRank原理进行领域后控词表自动构建的总体思路　　首先，从叙词表中抽取某一领域的叙词建立后控词表结构及初始内容，然后，建立大规模规范化语料库，从语料库中抽取出领域词汇，建立同现词汇网络，利用PageRank公式计算词汇网络中每一个词汇的重要度指数，结合图论聚类算法得到的词汇网络聚类簇，选择词表中正式词的入口词添加到后控词表中，总体思路如图1。　　2 基于图论聚类和PageRank原理进行领域后控词表自动构建的原型构建　　2.1 后控词表结构及初始内容的建立　　以叙词表《管理科学主题词表》为基础建立后控词表。该词表是我国第一部涉及管理科学领域的专业性主题词表，词表元数据包括：id、范畴号、正式词、英文、关系、入口词。本文选择其中范畴号为0530的图书、情报、档案类的叙词作为后控词表的初始内容，共有450条记录，其中290多个是正式词。　　2.2 规范化语料库的建立　　选择中国知网（）图书、情报与档案领域期刊文献作为原始文档来构建图书情报档案专业的领域语料库。网站收录了该领域78种期刊，不同期刊可能在出版格式上有所不同，但是，科技文献的元数据格式是统一的。由于文献的代表性词汇通常集中在篇名、摘要以及关键词中，所以建立包括篇名、文献摘要、关键词串、发表日期以及所属专题等字段的数据表作为领域语料库。抽取文献300篇，利用应用程序将这些文献逐篇读取到元数据格式规范的语料库中，得到规