中文科技期刊数据库文献分类与检索.pdfVIP

中文科技期刊数据库文献分类与检索.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 30卷 第 6期 临沂 师 范 学 院 学报 2008年 12月 VOl1.30 NO.6 JournalofLinyiNormalUniversity Dec.2008 中文科技期刊数据库文献分类与检索 吕月娥 (临沂师范学院 信息学院,山东 临沂 276005) 摘 要:介绍了一种对文献关键词进行层次聚类的算法,首先把文献关键词聚类为概念,从而生成 一 个概念树,然后用概念向量表示文献,每篇 文献对应一个概念子树.在检索时,采用改进的余弦相似 性方法,根据概念向量计算文献的相似性,把与给定文献最相似的文献返回给用户.用这种算法能很好 地对文献进行相似性检索. 关键词:中文科技期-T数《据库;文献分类;层次聚类;概念树;相似性检索 中图分类号:TP3I1.13 文献标识码:A 文章编号:l009—605l(2008)06—0104一O4 随着网络技术的发展,科技期刊数据库 已经成为人们查询科技文献的主要形式.目前的中文科 技期刊数据库仍限于关键字索引,也因此带来 了诸多不利 .这种模型可 以对文档关键字的权值赋值 。 但无法表达关键字之问的联系 [“,其带来的问题:(1)关键字不能准确表达用户需求 [:j;(2)关键字 不能反映文献 内容;(3)一词多义现象;(4)关键字以同义方式在文中出现 .为了解决上述问题, 本文给出一种层次聚类算法,并讨论了文献相似性计算的方法 . 1工作过程 本文的工作有4个步骤 :(1)抽取中文科技期刊数据库中所有文献的关键词,组成关键词集合;(2) 对关键词集 中的关键词进行聚类,即把关键词聚合为概念类,生成概念树 ;(3)文献用概念树的子树 表示;(4)采用改进的余弦相似性方法,计算数据库中所有文献与用户给定文献之间的相似度;(5)按 照相似度降序把结果文档返 回给用户. 1.1关键词聚类算法 文献主要有 以下几部分组成:题 目、摘要、关键词、正文、其他信息 (文献作者、发表 的刊物 、 时间等),而关键词最能有效地表征文献的主题 .由于查询项和文献的关键词可能存在的同义关系、 概念上下位关系等,采用查询项匹配的检索方式不能有效地对文献进行检索.因此,这里首先对关 键词进行概念聚类 . 聚类在本质上是一种通过对对象集合按照某种规则进行划分或覆盖,从而发现隐含的潜在有用 信息的一种知识发现的方法 .聚类算法有许多种,通常有以下几类 4[1:(1)通过构建类别层次或者构造 一 棵类别树进行聚类的层次聚类算法 5【];(2)以k-Means算法 [0】为代表的平面划分法;(3)以WEBSOM 为代表的 自组织特征映射方法.由于概念及其数量很难预先确定,关键词数量较少,因此采用层次 聚类 比较合适.层次聚类法把类别看作是有层次的,即随着类别层次的变化,类别中的对象也相应 发生变化.层次聚类结果形成一棵类别树 .每个类结点还包含若干子结点,兄弟结点是对其父结点 的划分,因此该方法允许在不同的粒度上对数据进行分类.按照类别树的生成方式,可将层次聚类 法分为两种,一种是融合方法 (自底向上法),另一种是分裂方法 (自顶向下法).融合方法从每个单个 对象出发,先将一个对象看成单独一类,然后反复合并两个或多个合适的类别,它利用了项与项、项 与环境的交互作用,不必预设聚类中心的数 目.文献 [4】给出一种 自底向上的聚类方法,这里采用改 进 的融合方法对文献关键词进行聚类,把文献关键词作为聚类的项. 收稿 日期:2008—09—16 作者简介:吕月娥 (1977一),女,河北故城人,临沂师范学院讲师,硕士.研究方向:信息检索 第6期 吕月娥:中文科技期刊数据库文献分类与检索 105 1.1.1关键词集的预处理 抽取文献集中的所有关键词,组成关键词集合.预处理主要是提取关键词 的词根和删掉停用词.通过去掉项的前缀和后缀提取关键词词根,能更有效地进行聚类,从而提高 文献检索的查全率;通过删掉无意义的停用词,能提高文献检索的查准率和查全率. 1.1.2关键词的层次聚类算法 本算法基于如下假设:如果几个

文档评论(0)

8号仓 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档